Джон П. Мелло-младший
13 мая 2020 г. 10:11 PT
Исследователи Microsoft и Intel нашли способ объединить искусственный интеллект и анализ изображений для создания высокоэффективных средств борьбы заражение вредоносным программным обеспечением.
Исследователи называют свой подход «STAMINA» — статический сетевой анализ вредоносных программ как изображений — и утверждают, что он очень эффективен в обнаружении вредоносных программ с низким уровнем ложных срабатываний.
STAMINA берет двоичные файлы и превращает их в изображения, которые программное обеспечение искусственного интеллекта может анализировать с помощью «глубокого обучения».
«STAMINA — это увлекательный подход к классификации вредоносных программ», — сказал Марк Нунниховен, вице-президент. исследования облачных технологий в Trend Micro, поставщике решений для кибербезопасности со штаб-квартирой в Токио.
«Этот подход похож на построение большой таблицы данных», — сказал он TechNewsWorld. «Может быть легче обнаружить шаблоны на графике, чем прочесывать необработанные данные».
Используя общие подходы машинного обучения для анализа изображений, команды смогли сгруппировать образцы вредоносных программ в семейства и разграничить желаемое программное обеспечение и вредоносное ПО, сказал Нанниховен.
«Это не единственный метод машинного обучения, но это новый и интересный подход, наполненный потенциалом», — добавил он.
Самый большой недостаток метода связан с размером вредоносного ПО, отметил Нанниховен. «Поскольку эта технология преобразует вредоносное ПО в изображение, оно может быстро потреблять ресурсы. Если вы когда-либо пытались открыть действительно большую фотографию на старом компьютере, у вас есть непосредственный опыт решения проблем».
Содержание статьи
99-процентная точность
«Поскольку варианты вредоносных программ продолжают расти, традиционные методы сопоставления сигнатур не могут идти в ногу», — объясняют исследователи Intel Ли Чен и Рави Сахита, а также исследователи Microsoft Джугал Парих и Марк Марино белая бумага.
«Мы обращались к применению методов глубокого обучения, чтобы избежать дорогостоящего проектирования функций, и использовали методы машинного обучения для изучения и создания систем классификации, которые могут эффективно идентифицировать двоичные файлы вредоносных программ», — писали они.
«Мы исследовали новую технику на основе изображений в двоичных файлах программ x86, — продолжили они, — что привело к точности 99,07% с частотой ложных срабатываний 2,58%».
Классические подходы к обнаружению вредоносных программ включают извлечение двоичного подписи или отпечатки вредоносного ПО. Однако экспоненциальный рост подписей делает сопоставление подписей неэффективным, пояснили исследователи.
Вредоносное ПО также может быть идентифицировано путем анализа кода файлов. Обычно это делается с помощью статического или динамического анализа или обоих. Статический анализ может разбирать код, но его производительность может пострадать от запутывания кода. Они отмечают, что динамический анализ, хотя и способен распаковывать код, может занимать много времени.
«Хотя статический анализ обычно ассоциируется с традиционными методами обнаружения, он остается важным строительным блоком для обнаружения вредоносных программ на основе искусственного интеллекта», — писали Microsoft Parikh и Marino в отдельном посте на STAMINA.
«Это особенно полезно для механизмов обнаружения перед выполнением: статический анализ разбирает код без необходимости запускать приложения или отслеживать поведение во время выполнения», — отметили они.
«Поиск способов для выполнения статического анализа в масштабе и с высокой эффективностью приносит пользу всем методологиям обнаружения вредоносных программ», — отметили Парих и Марино.
«С этой целью исследование заимствовало знания из области компьютерного зрения для создания улучшенной статической структуры обнаружения вредоносных программ, которая использует глубокое обучение переноса для обучения непосредственно на переносимых исполняемых двоичных файлах (PE), представленных в виде изображений», — пояснили они.
Лучшее масштабирование, более быстрая обработка
«Традиционные методы анализа вредоносных программ снижались в течение длительного времени», — заметил Крис Рот, директор по продуктам Red Canary, облачной службы безопасности. провайдер находится в Денвере.
«Статический и динамический анализ эффективны, но их трудно масштабировать», — сказал он TechNewsWorld. «Одним из преимуществ этого подхода является то, что он позволяет использовать технологии из других областей, которые способны работать в больших масштабах».
«Это необходимо из-за взрыва бинарных выборок, которые имеют был создан злоумышленниками, мутирующими вредоносные программы, чтобы избежать обнаружения », — продолжает Роте. «Таким образом, если этот метод сработает, он может вернуть бинарный анализ в качестве жизнеспособного метода обнаружения угроз».
Подход Microsoft-Intel также уменьшает размер входных данных в систему анализа, что может привести к более быстрой обработке. .
«Если вы преобразуете двоичный файл в пиксели, то с этим происходит определенное сокращение входного размера», — сказал Малек Бен Салем, руководитель отдела исследований и разработок в области безопасности в Северной и Южной Америке для Accenture, компании, предоставляющей профессиональные услуги в Дублине.
«С STAMINA они идут еще дальше. Они превращают двоичные файлы в пиксели, а затем уменьшают размер изображения», — сказала она TechNewsWorld.
«Тот факт, что вы можете уменьшить этот размер ввода и передать его в сеть с глубоким обучением, означает, что вы можете обрабатывать гораздо больше информации», — сказал Бен Салем. «Вы можете посмотреть на множество других примеров вредоносного ПО, которое значительно ускорит процесс».
Легко для человеческого глаза
Хотя исследователи видят, что их метод используется в полностью автоматизированной среде, изображения также будут полезны для типов безопасности человека.
«В тех случаях, когда машина не уверена, является ли файл безобидным или нет, и необходим ли человеческий осмотр, человеку было бы легче относиться к изображению, чем к гексоду», — отметил Бен Салем.
Добавление глубокого обучения к процессу обнаружения также обеспечивает преимущества по сравнению с существующими методами.
«Используя модель глубокого обучения, вы можете работать со сложными данными», — сказал Бен Салем. «Это означает, что незначительные изменения в вредоносном ПО могут быть легче обнаружены намного лучше, чем классические подходы машинного обучения, которые мы использовали до сих пор».
Исследователи признали ограничения на их методы.
«Наше исследование указывает на плюсы и минусы между методами выборки и метаданными», — написали они в своем официальном документе.
«Основным преимуществом является то, что мы можем углубиться в примеры и извлечь текстурную информацию, поэтому все характеристики файлов вредоносного ПО фиксируются во время обучения», — объяснили исследователи.
«Однако для приложений большего размера STAMINA становится менее эффективной из-за того, что программное обеспечение не может конвертировать миллиарды пикселей в изображения JPEG и затем изменять их размеры», — продолжили они. «В подобных случаях методы, основанные на метаданных, демонстрируют преимущества по сравнению с моделями на основе выборок».
В будущем команда хочет оценить гибридные модели, используя промежуточные представления двоичных файлов и информацию, извлеченную из двоичных файлов с помощью подходы глубокого обучения. Ожидается, что эти наборы данных будут больше, но могут обеспечить более высокую точность.
Исследователи планируют продолжить изучение оптимизаций ускорения платформы для своих моделей глубокого обучения, чтобы они могли применять такие методы обнаружения с минимальным влиянием на мощность и производительность для конечного пользователя.