Если хранилища данных предназначены для аккуратных фриков (информация упакована в опрятные выводы, сортируется и складывается, остальные отбрасываются), а озер данных — для хранителей (все подсказки, вы никогда не знаете, что может быть полезно), то новый центр данных SAP может
Это новый инструмент управления данными, предназначенный для обработки только данных, которые вам нужны, и искать его там, где он создан или сохранен, без необходимости вытаскивать все это в один место.
Ученые-исследователи смогут использовать его для анализа данных из нескольких источников и систем.
«Data Hub — это мощный слой управления данными, который позволяет интегрировать данные, обработку данных и управление данными , — сказал Ирфан Хан, глобальный руководитель базы данных SAP и продаж данных.
«Это позволяет нам просматривать все данные, которые у вас есть, и получать доступ ко всей информации. Но это не выглядит централизовать все эти данные в собственном озере данных, он рассматривает возможность сбора данных и доступа к данным точно там, где он проживает сегодня », — сказал Хан, выступая перед выпуском продукта в понедельник.
Хотя понятие предприятия центр обработки данных существует некоторое время, SAP использует этот термин несколько иначе, чем большинство из них: где другие, такие как MapR или Cloudera, импортируют все данные в гигантский кластер Hadoop или другой центральный репозиторий перед обработкой, SAP намеревается уйти данных на месте, пока это не понадобится.
Он будет делать это, создавая конвейеры данных — потоки данных, которые состоят из многоразовых настраиваемых операций для обработки данных, извлекаемых из различных источников, включая файлы CSV, API-интерфейсы веб-сервисов и коммерческие облачные сервисы, а также собственные хранилища данных SAP. Операциями могут быть соединители для разных файловых систем или API, аналитики или библиотеки обучения компьютера, такие как TensorFlow или задачи с настраиваемым кодом.
SAP предоставляет графический инструмент для моделирования рабочих процессов и конвейеров и слой оркестровки для вызова заданий и перезапуска или откат задач в случае сбоя. Это может заменить системы планирования рабочего процесса, такие как Apache Oozie, сказал Хан.
Выполнение конвейера может быть перенесено на другие платформы, такие как вычислительный движок Vora для SAP.
Data Hub не нуждается в создании компании для SAP для работы: он также может быть интегрирован с сторонними продуктами, сказал он. «Вам не нужно использовать обработку ETL SAP, вы можете использовать Informatica, — сказал он, или, возможно, обмен сообщениями с открытым исходным кодом Kafka слой.
SAP Data Hub теперь в целом доступен, но сколько это будет стоить?
. Ценообразование основано на общих системах и вычислительных узлах, управляемых SAP Data Hub, по словам представителя SAP. Он также требует лицензии для СУБД базы данных SAP, HANA. Клиенты с существующими лицензиями HANA могут использовать их, если они имеют достаточную емкость. Клиенты, не имеющие лицензии HANA, могут купить небольшое количество мощностей HANA, чтобы гарантировать, что требования к времени выполнения Data Hub выполнены.