На веб-сайте одного из крупнейших интернет-магазинов бытовой электроники поиск по запросу «пивной охладитель» возвращает более 500 релевантных результатов, но поиск по запросу «пивной охладитель» не дает ни одного. Введите «что-нибудь, чтобы охладить пиво», и единственный результат, который вы получите, — это набор Lego.
Выполните то же упражнение в Google или Bing, и опыт будет совершенно другим. Два самых популярных поисковых движка, кажется, понимают, что «круче» и «холоднее» — это синонимы, и они даже неплохо справляются с тестом «что-нибудь крутое». коммерческие сайты не делают? Разница заключается в «векторном поиске», технологии, основанной на исследованиях искусственного интеллекта, которая представляет информацию в виде чисел, а не текста.
После преобразования контента в факторы поиска (которые, по сути, являются строками чисел), алгоритмы машинного обучения могут найти похожий контент, сравнивая расстояния между векторами, чтобы понять, как разные слова связаны друг с другом. Они также могут анализировать окружающий контент, чтобы понять контекст поисковых запросов, чтобы «песни плохой компании» выдавали результаты о мелодиях супергруппы 1980-х, а не о причитаниях нежелательных гостей. Если вы хотите углубиться в технологию векторного поиска, этот пост в блоге Google Cloud должен удовлетворить вашего внутреннего гика. Однако не так, как сегодня работает большинство поисковых систем электронной коммерции. «Отличный поиск на самом деле является игрой с данными и машинным обучением, но ни одна из основных поисковых технологий, доступных сегодня, не делает этого напрямую», — сказал Хэмиш Огилви, генеральный директор Search.io, которая создает поисковую систему для интернет-продавцов на основе векторной технологии. В результате «качество поиска в основном определяется навыками людей в настройке и подключении к другим системам». Другими словами, поисковые системы на большинстве коммерческих сайтов настолько хороши, насколько хороши люди. существа позади них. Такие гиганты, как Amazon.com, в течение многих лет могли отдавать на аутсорсинг взломы, необходимые для предоставления релевантных результатов группам специалистов по обработке и анализу данных, но большинство розничных продавцов застряли с той поисковой системой по умолчанию, которую использует поставщик услуг.
Деньги. Согласно недавнему отчету Google, только в США фирмы электронной коммерции теряют 300 миллиардов долларов в год из-за того, что посетители не могут найти то, что ищут. ]
Традиционный поиск основан на сопоставлении текстовых строк, объяснил Огилви. В результате поиск по слову «круговые вороты» не даст результатов, связанных с футболками, если отношения не определены правилами, жестко запрограммированными в индексе. Например, чтобы выполнить поиск мобильного компьютера, движку нужно сообщить, что слова «портативный», «ноутбук», «ноутбук» и «MacBook» функционально одинаковы. Ручное кодирование этих отношений, умноженное на тысячи продуктов, на каждый из которых можно ссылаться по-разному, почти невообразимо сложно. И ручное кодирование создает свои собственные проблемы по мере того, как количество правил накапливается. Огилви приводит в пример одну компанию, которая запрограммировала обходной путь, переформатировавший поисковый запрос «USB C» в «USB-C» — именно такой синтаксис она использовала в своем каталоге. Непреднамеренным результатом было то, что когда посетители искали «USB-кабель», к текстовой строке автоматически добавлялся дефис, а результирующий запрос — «USB-кабель» — оказывался пустым.
«Это очень сложно писать тысячи таких вещей и не вызывать проблем», — сказал Огилви. составляют «длинный хвост» поисковых терминов, которые редко используются. Хорошая новость заключается в том, что ситуация улучшится в недалеком будущем. Создатели поисковых систем для электронной коммерции «все стремятся к вектору», — сказал Огилви. «Именно так будет осуществляться поиск в будущем». «Я ожидаю, что почти все пойдут в этом направлении», — сказал он. Переход не обязательно будет гладким. По мере того, как операторы веб-сайтов заменяют свои сильно исправленные поисковые утилиты, многие правила необходимо будет утилизировать, а некоторые изменить, поскольку машинное обучение — это не волшебство, и оно не может предвидеть нюансы каждого варианта использования. Однако в долгосрочной перспективе всем будет лучше. Готов поспорить на ящик холодного пива.
Авторское право © 2022 IDG Communications, Inc.