Как и Генри Хиггинс, фонетик из пьесы Джорджа Бернарда Шоу «Пигмалион», Мариус Котеску и Георгий Тинчев недавно продемонстрировали, как их ученик пытался преодолеть трудности с произношением.
Два специалиста по данным, работающие на Amazon в Европе, обучали Alexa, цифрового помощника компании. Их задача: помочь Алексе освоить английский с ирландским акцентом с помощью искусственного интеллекта и записей носителей языка.
Во время демонстрации Алекса рассказала о незабываемом вечере. «Вчерашняя вечеринка была просто сумасшедшей», — весело сказала Алекса, используя ирландское слово для развлечения. «Мы купили мороженое по дороге домой и были счастливы на улице».
Мистер Тинчев покачал головой. Алекса опустила букву «р» в слове «вечеринка», из-за чего слово звучало плоско, как тьфу-тьфу. Слишком по-британски, заключил он.
Технологи являются частью команды Amazon, работающей над сложной областью науки о данных, известной как распутывание голосов. Это сложная проблема, которая приобрела новую актуальность на фоне волны разработок ИИ, поскольку исследователи считают, что головоломка с речью и технологиями может помочь сделать устройства, боты и синтезаторы речи на основе ИИ более разговорными, то есть способными выполнять множество региональных задач. акценты.
Чтобы справиться с голосовым распутыванием, нужно гораздо больше, чем овладеть словарным запасом и синтаксисом. Высота тона, тембр и акцент говорящего часто придают словам тонкое значение и эмоциональный вес. Лингвисты называют эту языковую особенность «просодией», которую машины с трудом освоили.
Только в последние годы, благодаря достижениям в области искусственного интеллекта, компьютерных чипов и другого оборудования, исследователи добились успехов в решении проблемы распутывания голоса, превращая сгенерированную компьютером речь в нечто более приятное для слуха.
По словам исследователей, такая работа может в конечном итоге привести к взрыву «генеративного ИИ», технологии, которая позволяет чат-ботам генерировать свои собственные ответы. Чат-боты, такие как ChatGPT и Bard, могут когда-нибудь полностью выполнять голосовые команды пользователей и отвечать устно. В то же время голосовые помощники, такие как Alexa и Siri от Apple, станут более разговорными, потенциально возродив интерес потребителей к технологическому сегменту, который, казалось бы, застопорился, считают аналитики.
Заставить голосовых помощников, таких как Alexa, Siri и Google Assistant, говорить на нескольких языках, было дорогим и длительным процессом. Технологические компании наняли актеров озвучивания для записи сотен часов речи, что помогло создать синтетические голоса для цифровых помощников. Усовершенствованные системы искусственного интеллекта, известные как «модели преобразования текста в речь», потому что они преобразуют текст в естественно звучащую синтетическую речь, только начинают оптимизировать этот процесс.
Технология «теперь способна создавать человеческий голос и синтетический звук на основе ввода текста на разных языках, акцентах и диалектах», — сказала Марион Лабур, старший стратег Deutsche Bank Research.
Amazon была вынуждена догнать таких конкурентов, как Microsoft и Google, в гонке за ИИ. В апреле Энди Джасси, исполнительный директор Amazon, сообщил аналитикам с Уолл-стрит, что компания планирует сделать Alexa «еще более активной и разговорчивой» с помощью сложного генеративного искусственного интеллекта. он видел в голосовом помощнике голосовой «мгновенно доступный персональный ИИ».
Коммерческий дебют ирландской Alexa состоялся в ноябре, после девяти месяцев обучения пониманию ирландского акцента, а затем говорению на нем.
«Акцент отличается от языка, — сказал г-н Прасад в интервью. Технологии искусственного интеллекта должны научиться выделять акцент из других частей речи, таких как тон и частота, прежде чем они смогут воспроизвести особенности местных диалектов — например, может быть, «а» более плоская, а «т» произносится более сильно.
Эти системы должны вычислять эти паттерны, «чтобы вы могли синтезировать совершенно новый акцент», — сказал он. «Это сложно.»
Еще труднее было попытаться заставить технологию выучить новый акцент в основном самостоятельно, из модели речи с другим звучанием. Это то, что команда г-на Котеску попыталась создать Irish Alexa. Они в значительной степени полагались на существующую модель речи, состоящую в основном из британско-английских акцентов — с гораздо меньшим диапазоном американских, канадских и австралийских акцентов, — чтобы научить ее говорить на ирландском английском.
Команда боролась с различными лингвистическими проблемами ирландского английского языка. Ирландцы склонны опускать «h» в «th», например, произнося буквы как твердые «t» или «d», в результате чего «bath» звучит как «bat» или даже «bad». Ирландский английский также является ротическим, то есть буква «r» произносится слишком громко. Это означает, что «р» в слове «вечеринка» будет более отчетливым, чем то, что вы могли бы услышать из уст лондонца. Алексе пришлось выучить эти речевые особенности и освоить их.
Ирландский английский, по словам г-на Котеску, который является румыном и был ведущим исследователем в команде Irish Alexa, «сложный».
Речевые модели, которые обеспечивают вербальные навыки Алексы, в последние годы становятся все более совершенными. В 2020 году исследователи Amazon научили Алексу бегло говорить по-испански на основе англоязычной модели.
Г-н Котеску и его команда рассматривали акценты как следующий рубеж речевых возможностей Alexa. Они разработали ирландскую Alexa так, чтобы она больше полагалась на искусственный интеллект, чем на актеров, для построения модели речи. В результате ирландская Алекса была обучена на относительно небольшом корпусе — около 24 часов записей голосовых актеров, которые продекламировали 2000 высказываний на английском языке с ирландским акцентом.
Вначале, когда исследователи Amazon скормили ирландские записи все еще обучающейся ирландской Alexa, произошли некоторые странные вещи.
Буквы и слоги изредка выпадали из ответа. Буквы «S» иногда слипались. Пара слов, иногда решающих, были необъяснимо бормотаны и непонятны. По крайней мере, в одном случае женский голос Алексы опустился на несколько октав, звуча более мужественно. Хуже того, мужской голос звучал отчетливо по-британски, что-то вроде глупости, которая могла бы вызвать удивление в некоторых ирландских домах.
«Это большие черные ящики», — сказал о моделях речи г-н Тинчев, гражданин Болгарии, который является ведущим научным сотрудником Amazon в этом проекте. «Чтобы настроить их, нужно много экспериментировать».
Вот что сделали технологи, чтобы исправить оплошность Alexa в отношении «вечеринки». Они распутывали речь, слово за словом, фонему (наименьший слышимый кусочек слова) за фонемой, чтобы точно определить, где Alexa проскальзывает, и точно настроить его. Затем они передали модели речи ирландки Алексы больше записанных голосовых данных, чтобы исправить неправильное произношение.
Результат: буква «р» в слове «вечеринка» вернулась. Но потом буква «п» исчезла.
Таким образом, специалисты по данным снова прошли тот же процесс. В конце концов они остановились на фонеме, которая содержала отсутствующую букву «п». Затем они доработали модель, чтобы звук «р» вернулся, а звук «р» не исчез. Алекса, наконец, научилась говорить, как дублинец.
Два ирландских лингвиста — Элейн Вон, преподающая в Лимерикском университете, и Кейт Таллон, аспирантка, работающая в Лаборатории фонетики и речи Тринити-колледжа в Дублине, — с тех пор высоко оценили ирландский акцент Алексы. По их словам, то, как ирландская Alexa подчеркивала «r» и смягчала «t», бросалось в глаза, и Amazon в целом уловил акцент.
«Для меня это звучит аутентично», — сказала г-жа Таллон.
Исследователи Amazon сказали, что они были удовлетворены в основном положительными отзывами. То, что их речевые модели так быстро распутали ирландский акцент, дало им надежду, что они смогут воспроизвести акцент в другом месте.
«Мы также планируем распространить нашу методологию на акценты других языков, помимо английского», — написали они в январском исследовательском документе об ирландском проекте Alexa.