SAP希望使用数据集线器拥有所有数据存储
如果数据仓库用于整洁怪异(打包为整洁的推论,排序和堆叠,其余丢弃的)和数据湖泊适用于囤积者(提示一切,你永远不会知道什么可能是有用的),那么SAP的新数据集线器可能是在我们其他人。
它是一个新的数据管理工具,旨在仅处理所需的数据 - 并且要查看它创建或存储的位置,而无需您将其全部拉到一个地方。
数据科学家能够使用它来分析来自多个来源和系统的数据。
“数据集线器是一个强大的数据管理伞层,可允许数据集成,数据处理和数据治理,”SAP数据库的全球头部IRFAN Khan表示,全球SAP数据库和数据管理销售。
“它允许我们查看您拥有的所有数据,并访问所有信息。但它不希望集中在自己的数据湖中的所有这些数据;它看起来捕获数据并准确地访问它今天的数据,“汗说,在星期一的产品发布之前发言。
虽然Enterprise Data Hub的概念已经存在一段时间,但SAP正在使用大多数情况下使用术语:在处理前将所有数据的Mapr或Cloudera导入到巨大的Hadoop集群或其他中央存储库之外,SAP旨在将数据留出,直至其所需的数据。
它将通过创建数据流水线 - 由可重用,可配置操作组成的数据流,以处理从各种源中拉出的数据,包括CSV文件,Web服务API和商业云服务以及SAP“自己的数据存储。该操作可以是连接器到不同的文件系统或API,分析或机器学习库,如TensorFlow或自定义编码任务。
SAP提供了一个图形工具,用于建模工作流和管道,以及用于调用作业并在发生故障时重新启动或重新启动任务或回滚任务的编排层。Khan说,这可以取代Apache Oozie等工作流程调度系统。
他说,可以将管道的执行推到其他平台,例如SAP的Vora计算引擎。
数据集线器并不需要一个公司建立在SAP上的公司,以便工作:他说,它也可以与第三方产品集成。“你不需要使用SAP的ETL处理,你可能正在使用Informatica,”他说,或者也许是开源Kafka消息传递层。
SAP数据集线器现在通常可用,但费用是多少?与大多数企业软件一样,它取决于。
根据SAP发言人,定价基于由SAP数据集线器管理的总系统和计算节点。它还需要SAP的内存数据库引擎的许可证,HANA。现有HANA许可证的客户可以使用它们,如果有足够的容量。没有HANA许可证的客户可以购买少量HANA的能力,以确保满足数据集线器的运行时需求。