Когда дело доходит до чат-ботов с искусственным интеллектом, чем больше, тем лучше.
Большие языковые модели, такие как ChatGPT и Bard, которые генерируют разговорный оригинальный текст, совершенствуются по мере того, как они получают больше данных. Каждый день блоггеры выходят в Интернет, чтобы объяснить, как последние достижения — приложение, которое обобщает статьи, подкасты, созданные искусственным интеллектом, точно настроенная модель, которая может ответить на любой вопрос, связанный с профессиональным баскетболом, — «все изменят».
Но создание большего и более мощного ИИ требует вычислительной мощности, которой обладают лишь немногие компании, и растет обеспокоенность тем, что небольшая группа, включая Google, Meta, OpenAI и Microsoft, будет осуществлять почти полный контроль над технологией.
Кроме того, большие языковые модели труднее понять. Их часто называют «черными ящиками» даже теми, кто их разрабатывает, и ведущие деятели в этой области выражают «беспокойство» по поводу того, что цели ИИ могут в конечном итоге не совпадать с нашими собственными. Чем больше, тем лучше, это также более непрозрачно и более эксклюзивно.
В январе группа молодых ученых, работающих в области обработки естественного языка — области ИИ, ориентированной на лингвистическое понимание, — поставила задачу попытаться перевернуть эту парадигму с ног на голову. Группа призвала команды создавать функциональные языковые модели, используя наборы данных, размер которых составляет менее одной десятитысячной доли тех, которые используются в самых передовых больших языковых моделях. Успешная мини-модель будет почти такой же функциональной, как и модели высокого класса, но будет намного меньше, более доступной и более совместимой с людьми. Проект называется BabyLM Challenge.
«Мы призываем людей мыслить масштабно и уделять больше внимания созданию эффективных систем, которые смогут использовать больше людей», — сказал Аарон Мюллер, ученый-компьютерщик из Университета Джона Хопкинса и организатор BabyLM.
Алекс Варштадт, ученый-компьютерщик из ETH Zurich и еще один организатор проекта, добавил: «Задача ставит вопросы об изучении человеческого языка, а не о том, насколько большими мы можем сделать наши модели?» в центре разговора».
Модели больших языков — это нейронные сети, предназначенные для предсказания следующего слова в заданном предложении или фразе. Они обучаются этой задаче, используя корпус слов, собранный из стенограмм, веб-сайтов, романов и газет. Типичная модель делает предположения на основе примеров фраз, а затем корректирует себя в зависимости от того, насколько близко она подходит к правильному ответу.
Повторяя этот процесс снова и снова, модель формирует карты того, как слова соотносятся друг с другом. В целом, чем больше слов обучается модели, тем лучше она становится; каждая фраза обеспечивает модель контекстом, а больший контекст дает более детальное представление о том, что означает каждое слово. GPT-3 OpenAI, выпущенный в 2020 году, был обучен на 200 миллиардах слов; Шиншилла от DeepMind, выпущенная в 2022 году, натренирована на триллион.
Для Итана Уилкокса, лингвиста из Швейцарской высшей технической школы Цюриха, тот факт, что что-то нечеловеческое может генерировать язык, представляет собой прекрасную возможность: можно ли использовать языковые модели ИИ для изучения того, как люди изучают язык?
Например, нативизм, влиятельная теория, восходящая к ранним работам Ноама Хомского, утверждает, что люди изучают язык быстро и эффективно, потому что у них есть врожденное понимание того, как работает язык. Но языковые модели тоже изучают язык быстро и, по-видимому, без врожденного понимания того, как работает язык, так что, возможно, нативизм не выдерживает никакой критики.
Проблема в том, что языковые модели учатся совсем не так, как люди. У людей есть тела, социальная жизнь и богатые ощущения. Мы можем чувствовать запах мульчи, чувствовать лопасти перьев, натыкаться на двери и ощущать вкус мяты. Вначале мы сталкиваемся с простыми произносимыми словами и синтаксисом, которые часто не представлены в письменной форме. Таким образом, заключил д-р Уилкокс, компьютер, который производит язык после того, как был обучен на миллионах письменных слов, может рассказать нам лишь немногое о нашем собственном лингвистическом процессе.
Но если бы языковая модель подвергалась воздействию только слов, с которыми сталкивается молодой человек, она могла бы взаимодействовать с языком таким образом, чтобы ответить на определенные вопросы, которые у нас есть о наших собственных способностях.
Итак, вместе с полдюжиной коллег д-р Уилкокс, г-н Мюллер и д-р Варштадт задумали программу BabyLM Challenge, чтобы попытаться немного приблизить языковые модели к человеческому пониманию. В январе они призвали команды обучать языковые модели на том же количестве слов, с которым сталкивается 13-летний человек — примерно 100 миллионов. Модели-кандидаты будут «проверяться» на то, насколько хорошо они «генерируют и улавливают языковые нюансы», и объявляется победитель.
Ева Портеланс, лингвист из Университета Макгилла, столкнулась с проблемой в день, когда она была объявлена. Ее исследования балансируют между зачастую размытой гранью между информатикой и лингвистикой. Первые набеги на ИИ в 1950-х годах были вызваны желанием смоделировать когнитивные способности человека в компьютерах; основной единицей обработки информации в ИИ является «нейрон», а ранние языковые модели 1980-х и 90-х годов были непосредственно вдохновлены человеческим мозгом.
Но по мере того, как процессоры становились все более мощными, а компании начали работать над выпуском рыночных продуктов, ученые-компьютерщики поняли, что зачастую легче обучать языковые модели на огромных объемах данных, чем заставлять их создавать психологически обоснованные структуры. В результате, по словам доктора Портеланса, «они дают нам текст, похожий на человеческий, но между нами и тем, как они функционируют, нет никакой связи».
Для ученых, заинтересованных в понимании того, как работает человеческий разум, эти большие модели предлагают ограниченное понимание. А поскольку они требуют огромной вычислительной мощности, лишь немногие исследователи могут получить к ним доступ. «Только небольшое количество отраслевых лабораторий с огромными ресурсами могут позволить себе обучать модели с миллиардами параметров на триллионах слов», — д-р. — сказал Уилкокс.
«Или даже загрузить их», — добавил г-н Мюллер. «Это сделало исследования в этой области в последнее время менее демократичными».
По словам доктора Портеланс, конкурс BabyLM Challenge можно рассматривать как шаг в сторону от гонки вооружений для более крупных языковых моделей и шаг к более доступному и интуитивно понятному ИИ.
Потенциал такой исследовательской программы не был проигнорирован более крупными отраслевыми лабораториями. Сэм Альтман, исполнительный директор OpenAI, недавно сказал, что увеличение размера языковых моделей не приведет к таким улучшениям, которые наблюдались за последние несколько лет. А такие компании, как Google и Meta, также вкладывают средства в исследования более эффективных языковых моделей, основанных на когнитивных структурах человека. В конце концов, модель, которая может генерировать язык при обучении на меньшем количестве данных, также потенциально может масштабироваться.
Какую бы прибыль ни приносил успешный BabyLM, для тех, кто стоит за этой задачей, цели более академичны и абстрактны. Даже награда подрывает практичность. «Просто гордость», — сказал доктор Уилкокс.