Апач Кафка на рулоне. В прошлом году он зарегистрировал 260-процентный скачок в популярности разработчиков, как подчеркивает Fintan Ryan из Redmonk, число, которое с тех пор только раздувается, поскольку IoT и другие корпоративные требования в реальном времени, потоковые данные становятся общими. Вылупившись в LinkedIn, основательная инженерная команда Kafka вышла из состава Confluent, которая с тех пор является основным разработчиком проекта Apache.
Но не единственный. Действительно, учитывая растущее значение Kafka, больше компаний, чем когда-либо, совершают кодекс, в том числе Eventador, начатый Кенни Горманом и Эриком Бибом, как соучредителями ObjectRocket (приобретенных Rackspace). В то время как ObjectRocket предоставляет базу данных MongoDB как услугу, Eventador предлагает полностью управляемый сервис Kafka, что еще больше снижает барьеры для потоковой передачи данных.
Говоря с учредителями Eventador, стало ясно, что потоковые данные различны, что требует «Свежие глаза», потому что «данные, мутированные в реальном времени, позволяют использовать новые варианты использования и новые возможности». Как только предприятие будет зависеть от потоковых данных, трудно вернуться назад.
Содержание статьи
Kafka vs. Hadoop
Так же популярно, как Apache Hadoop, рабочий процесс Hadoop просто слишком медленный для меняющихся потребностей современных предприятий. Действительно, как говорит Горман, «предприниматели понимают, что ценность данных возрастает по мере того, как она становится более реальной». Для тех компаний, которые предпочитают ждать добавления потока данных в реальном времени к своим продуктам и услугам, они рискуют
Эта тенденция стимулирует внедрение технологий, которые могут надежно и масштабируемо доставлять и обрабатывать данные как можно ближе к реальному времени. Новые рамки, предназначенные для этой архитектуры, должны существовать. Следовательно, родился Апач Кафка.
А как насчет Apache Spark? Хорошо, как указывает Горман, Spark способен обрабатывать в реальном времени, но не подходит для него.
Это оставляет Kafka, который «может предложить истинное ровно однократное, одноразовое решение для обработки как для транспорта, так и для обработки», Горман объясняет. Помимо этого, дополнительные компоненты, такие как Apache Flink, Beam и другие, расширяют функциональность этих конвейеров реального времени, чтобы обеспечить легкую мутацию, агрегацию, фильтрацию и многое другое. Все, что создает зрелую, сквозную систему обработки данных в реальном времени.
Паб-подкачка Кафки
. Не было бы никакого значения, если Кафка был звездой, чтобы учиться и реализовать, но это не так (по любому счету). Как подчеркивает Горман, «Красота Apache Kafka заключается в том, что она предоставляет мощный API, но имеет очень простую семантику. Все это очень доступно ». Не только это, но и его API был реализован на многих языках программирования, поэтому шансы на то, что ваш любимый язык имеет доступный драйвер.
У Kafka есть понятие темы, которая является просто пространством имен для потока данных. Очень просто публиковать данные в теме, а Kafka обрабатывает маршрутизацию, масштабируемость, долговечность, доступность и т. Д. Несколько потребителей координируют подписку на эти темы, извлекают данные и обрабатывают или маршрутизируют их. Отвечая на вопрос о том, как это переводится в опыт разработки приложений, Горман подчеркнул, что это не тривиально, но это просто: «Создание приложений, которые работают с Kafka, довольно просто [as]клиентские библиотеки обрабатывают многие нюансы коммуникации, а разработчики используют API для публикации или подписки на потоки данных ».
Проблема, если таковая имеется, не является технологией. Скорее, речь идет о парадигмах.
Настоящий трюк для разработчиков, говорит мне Горман, «думать о том, чтобы использовать потоковые данные со свежей парой глаз». Почему? Потому что «данные, мутированные в реальном времени, дают новые варианты использования и новые возможности».
Давайте посмотрим на ощутимый пример. Возможно, клиент публикует данные о рейсинге службы совместного использования поездок. Один набор потребителей анализирует этот поток для выполнения алгоритмов машинного обучения для динамического ценообразования, затем другой набор потребителей считывает данные, чтобы обеспечить местоположение и доступность автомобилей для мобильных устройств клиентов. Еще один потребитель передает структуру агрегирования для данных на рейде во внутренние информационные панели.
Kafka в облаке
Это отлично подходит для разработчиков и компаний, для которых они но требование Кафки не является гарантией успеха Eventador, учитывая, что он должен конкурировать с Confluent, который имеет честь быть основателем Kafka. Более того, Confluent также объявила о предложениях облаков, которые, вероятно, будут конкурировать с сервисом Kafka от Eventador.
Горман не беспокоит. Как он описывает,
Реальное различие заключается в том, что мы не ограничены только Кафкой. Мы используем Кафку, где это имеет смысл. Мы являемся сквозной платформой для обработки потоков, основанной на Apache Kafka и Apache Flink. У нас есть разъемы для AWS S3, интерфейс REST, интеграция с ноутбуками PrestoDB и Jupyter, а также соединения для популярных баз данных и даже других потоковых систем, таких как AWS Kinesis. Мы предлагаем планы от простого единого узла до полных корпоративных конфигураций предприятия.
Кроме того, учитывая стремительный спрос на данные в реальном времени, Горман считает, что есть место для многих разных игроков. Мало того, что Eventador дополняет Kafka Flink и многое другое, он принял решение о мантре Rackspace для «фанатичной поддержки клиентов», которая начинается с хорошо построенного, полностью интегрированного продукта. Проведя десятилетия, делая операции для некоторых из крупнейших в мире компаний, Горман продолжает: «Мы знаем, что значит запускать первоклассное, профессиональное качество, солидное, как услуга».
Он абсолютно что рынок все еще молод. Разработчики все еще работают над пониманием того, как Kafka может быть интегрирован в свои проекты.
Годы спустя, однако, «будут распространяться, чтобы полагаться на потоковые данные в вашей инфраструктуре, — отмечает Горман, — и а не просто какая-то вспомогательная рабочая нагрузка ». Это будущее, за которое они строят. «Как только вы начнете ожидать, что данные будут больше в режиме реального времени, это сложно остановить». Eventador, Confluent и, несомненно, другие создают для будущего в реальном времени потоковые данные. Для некоторых это будущее. Для других эти стартапы надеются получить их там раньше.
Эта история «Все ваши потоковые данные принадлежат Кафке» была изначально опубликована
InfoWorld .