«ИИ сдает экзамен на получение медицинской лицензии в США». «ChatGPT успешно сдает экзамены в юридической школе, несмотря на «посредственные» результаты». «Получит ли ChatGPT степень MBA Wharton?»
Подобные заголовки недавно рекламировали (и часто преувеличивали) успехи ChatGPT, инструмента искусственного интеллекта, способного писать сложные текстовые ответы на запросы человека. Эти успехи следуют давней традиции сравнения способностей ИИ со способностями людей-экспертов, таких как шахматная победа Deep Blue над Гэри Каспаровым в 1997 году, игра IBM Watson «Jeopardy!» победа над Кеном Дженнингсом и Брэдом Раттером в 2011 году и победа AlphaGo в игре Go над Ли Седолом в 2016 году.
Подразумеваемый подтекст этих недавних заголовков более паникерский: ИИ придет на вашу работу. Это так же умно, как ваш доктор, ваш адвокат и тот консультант, которого вы наняли. Это предвещает неизбежный, всеобъемлющий сбой в нашей жизни.
Но помимо сенсационности, говорит ли нам о чем-нибудь сравнение ИИ с человеческими способностями? практически полезный? Как нам эффективно использовать ИИ, который сдал экзамен на получение медицинской лицензии в США? Может ли он надежно и безопасно собирать истории болезни во время приема пациентов? Как насчет того, чтобы предложить второе мнение о диагнозе? На такие вопросы нельзя ответить, сравнившись с человеком на экзамене на получение медицинской лицензии.
Проблема в том, что у большинства людей мало грамотности в области ИИ — понимания того, когда и как эффективно использовать инструменты ИИ. Нам нужна простая универсальная структура для оценки сильных и слабых сторон инструментов ИИ, которую может использовать каждый. Только тогда общественность сможет принимать обоснованные решения о включении этих инструментов в нашу повседневную жизнь.
Чтобы удовлетворить эту потребность, моя исследовательская группа обратилась к старой идее из образования: таксономии Блума. Таксономия Блума, впервые опубликованная в 1956 году и позже пересмотренная в 2001 году, представляет собой иерархию, описывающую уровни мышления, в которых более высокие уровни представляют более сложные мысли. Его шесть уровней: 1) Помнить — вспоминать основные факты, 2) Понимать — объяснять понятия, 3) Применять — использовать информацию в новых ситуациях, 4) Анализировать — устанавливать связи между идеями, 5) Оценивать — критиковать или обосновывать решение или мнение. и 6) Создать — создать оригинальную работу.
Эти шесть уровней интуитивно понятны даже для неспециалистов, но достаточно специфичны, чтобы дать осмысленные оценки. Более того, таксономия Блума не привязана к конкретной технологии — она применима к познанию в целом. Мы можем использовать его для оценки сильных сторон и ограничений ChatGPT или других инструментов искусственного интеллекта, которые манипулируют изображениями, создают звук или управляют дронами.
Моя исследовательская группа начала оценивать ChatGPT через призму таксономии Блума, попросив его реагировать на варианты подсказок, каждый из которых нацелен на разный уровень познания.
Например, мы спросили ИИ: «Предположим, спрос на вакцины от COVID этой зимой, по прогнозам, составит 1 миллион доз плюс-минус 300 000 доз. Сколько нам нужно запасов, чтобы удовлетворить 95% спроса?» — задача Применить. Затем мы изменили вопрос, попросив его «Обсудить плюсы и минусы заказа 1,8 миллиона вакцин» — задание уровня «Оценка». Затем мы сравнили качество двух ответов и повторили это упражнение для всех шести уровней таксономии.
Предварительные результаты поучительны. ChatGPT обычно хорошо справляется с задачами «Вспомнить», «Понять» и «Применить», но испытывает трудности с более сложными задачами «Анализ и оценка». На первое приглашение ChatGPT ответил хорошо: применение и объяснение формула, предполагающая разумное количество вакцины (хотя и допускающая при этом небольшую арифметическую ошибку).
Однако со вторым ChatGPT неубедительно болтал о том, что у него слишком много или слишком мало вакцины. В нем не проводилась количественная оценка этих рисков, не учитывались логистические проблемы холодного хранения такого огромного количества и не предупреждалось о возможности возникновения вакцинорезистентного варианта.
Мы наблюдаем одинаковое поведение для разных подсказок на этих уровнях таксономии. Таким образом, таксономия Блума позволяет нам проводить более тонкие оценки технологии ИИ, чем простое сравнение человека с ИИ.
Что касается нашего врача, юриста и консультанта, таксономия Блума также дает более детальное представление о том, как ИИ может когда-нибудь изменить, а не заменить эти профессии. Хотя ИИ может преуспеть в задачах «Вспомнить и понять», мало кто консультируется со своим врачом, чтобы перечислить все возможные симптомы болезни, или просит своего адвоката дословно изложить прецедентное право, или нанимает консультанта для объяснения теории пяти сил Портера.
Но мы обращаемся к экспертам для когнитивных задач более высокого уровня. Мы ценим клиническое суждение нашего врача при взвешивании преимуществ и рисков плана лечения, способность нашего юриста синтезировать прецеденты и выступать от нашего имени, а также способность консультанта определить нестандартное решение, о котором никто другой не подумал. Этими навыками являются анализировать, оценивать и создавать задачи, уровни познания, на которых технология ИИ в настоящее время не работает.
Используя таксономию Блума, мы видим, что эффективное сотрудничество человека и ИИ в значительной степени будет означать делегирование когнитивных задач более низкого уровня, чтобы мы могли сосредоточить нашу энергию на более сложных когнитивных задачах. Таким образом, вместо того, чтобы размышлять о том, может ли ИИ конкурировать с экспертом-человеком, нам следует задаться вопросом, насколько хорошо можно использовать возможности ИИ для развития критического мышления, суждений и творчества человека.
Конечно, таксономия Блума имеет свои ограничения. Многие сложные задачи включают несколько уровней таксономии, что затрудняет попытки категоризации. И таксономия Блума не решает напрямую проблемы предвзятости или расизма, что является серьезной проблемой в крупномасштабных приложениях ИИ. Но хотя таксономия Блума и несовершенна, она остается полезной. Он достаточно прост для понимания, достаточно универсален, чтобы применяться к широкому спектру инструментов ИИ, и достаточно структурирован, чтобы гарантировать, что мы задаем последовательный и подробный набор вопросов об этих инструментах.
Подобно тому, как рост социальных сетей и фейковых новостей требует от нас повышения медиаграмотности, такие инструменты, как ChatGPT, требуют от нас развития нашей грамотности в области ИИ. Таксономия Блума предлагает способ подумать о том, что ИИ может сделать, а что нет, поскольку этот тип технологий все больше внедряется в нашу жизнь.
Вишал Гупта является адъюнкт-профессором наук о данных и операций в Школе бизнеса им. Маршалла Университета Южной Калифорнии и занимает должность вежливости в отделе промышленной и системной инженерии.