如何选择适合你的企业数据管理类产品

本文来源:数智化转型俱乐部

1
细数数仓30年发展史 

数据库与数仓的老牌产品供应商

数据工程研发的历史是可以追溯到上世纪八十年代的数据库和数据仓库理论,随后一大批的数据管理服务厂商开始崛起,其中 Oracle、Informatica 两家非常有代表性,在行业中身居统治地位。

Oracle

Oracle 的数据库在云计算逐步铺开、去IOE声浪逐步扩大的趋势中开始式微,以及各类新兴的非接口化存储,如ElasticSearch、TSDB、MongoDB 等,OLTP场景下的市场份额争夺激烈,除了老牌的数据库厂商外,一些云计算大厂也开始了数据库产品的研发,如AWS的Aurora、阿里云的PolarDB ,在云计算市场中开始成为企业云架构的基础能力。

同时,在OLAP场景下,也就是Informatica一直处于霸主地位的市场中,在12年大数据逐步进入公众视野后,越来越多的挑战者进入,几大云厂商也不例外,其中以Google、Azure和阿里云的追赶最为猛烈,Google在云计算先机失利的情况下,开始发挥巨大现金储备的优势,开始买买买,投资了 CASK、LOOKER等产品,微软则是利用自身的产品沉淀,收割着办公领域的存量客户;阿里云则是以“数据中台”架构打响了企业数字化转型的重要一枪,国内开始大量出现数据中台服务商,生态开始繁荣起来。

Informatica

在这样的大环境下,Informatica作为老牌的数据管理厂商,目前在Gartner魔力象限中依旧占有非常重要的席位,所以在众多企业选型的时候,都会考虑到使用Informatica的产品,但是国内这个产品一直是名声大市场小,对于Informatica的好奇,也为了给客户能够提供更加全面的参考,我们对Informatica进行比较细致的调研,主要从产品能力、技术支撑以及交付模式,因为商业化的企业服务产品都不便宜,希望一次采购能够带来比较长期的收益,所以产品是否能够持续使用起来也是我们关心的一个要素。

首先看Informatica的产品能力,他们提供的主要输出版本已经逐步使用B/S的模式, 相比之前的Client模式对于用户接入提供了更好的体验;对于数据仓库构建的第一步“数据集成”,Informatica以 PowerCenter 作为数据集成的产品名称,为面向不同场景的数据集成,则提供了多样不同的版本:

  • PowerCenter 标准版,用于集成和提交及时、相关、可靠的数据;• PowerCenter 高级版,用于执行复杂的任务关键型数据集成方案;• PowerCenter 大数据版,通过新兴的技术和传统的数据管理基础设施集成大数据;• PowerCenter 数据虚拟版,用于提交最新的、全面的、可以信赖的业务视图;• PowerCenter 实时版,用于实时集成和预配置营运数据;• PowerCenter 云版本,用于无缝地将云中数据和本地系统上的数据进行集成

这么多版本不免让人眼花缭乱。虽然从产品管理的角度来看,是个不错的拆分方法,但是对于用户而言,就没有这么方便了,让人有种不良商家使用锚定价格来收智商税的感觉。PowerCenter的应用架构如下图:

PowerCenter 的应用组件:

1)服务端组件

  • Informatica Service:PowerCenter 服务引擎• Integration Service :数据抽取、转换、装载服务引擎

2)客户端组件

  • Administrator Console:用于知识库的建立和维护• Repository Manager:知识库管理,包括安全性管理等• Designer: 设计开发环境,定义源几目标数据结构;设计转换规则,生成ETL映射;• Workflow Manager: 合理地实现复杂的ETL工作流,基于时间、事件的作业调度;• Workflow Monitor: 监控workflow和Session运行情况,生成日志和报告

简单地说就是,开发者通过Designer配置和设计数据的传输、转换和映射关系,通过workflow来首先周期性地调度和管理

2

传统数仓产业

数仓产品选型不仅是功能还有服务

从产品所对应的技术支持能力上看,由于是工具类产品,使用过程中的问题是否有完备的产品使用和客服支持很重要,在官方材料中没有看到过产品的客户服务支持方案,应该与具体的保障要求有关系,不知道是否会像通常的国外软件服务,仅能在工作时间电话,一般离线数据任务都是在凌晨时间运行,一旦出现问题,如何快速响应,也是需要在产品采购时关注的。

3

新时代数字化建设方案

企业数据中台的构建解决方案架构与落地路径

最后就是交付实施了,对于传统数仓交付的团队,对于Informatica应该不算是陌生的,但是在国内这一类的服务商一直没有发展起来,原因就是太依赖产品了,Informatica不是中小企业的预算可以承受的,所以比较难以规模化,尤其是在云计算的冲击下,消费互联网发展逐渐开始趋平,产业互联网开始兴起,或许企业中会有更多的资金投入到数据管理的领域,

但是,中国国内企业的现状而言,估计还是不仅仅采购一个产品这么简单,如果产品版本过于复杂,操作需要极强的专业性,那么也很难规模化;

对于企业而言,不仅仅需要一个有着丰富功能的产品,还有有支撑通过产品去实现商业成功的团队或者技术支持,所以选择一个有着完善生态交付能力的产品或许是更好的选择。

2019年云栖大会上,阿里云数据中台推出产品Dataphin,其中有个介绍对于国内企业还是参考意义的,产品具体的介绍如下:

“阿里云数据中台,基于阿里巴巴近十年的大数据建设经验,沉淀出一整套的数据采集、建设与管理的方法论体系,并产品化为Dataphin产品,形成数据的采、建、管、用 一站式全链路服务能力,在中国乃至世界企业数字化转型中,承载枢纽位置,助力企业实现数据资产化和价值化!”

Dataphin在产品能力在于数据虚拟化上,通过定义一系列的原子的概念,如维度、业务过程、原子指标、业务限定、派生指标,以及模型内的关系,如维度、属性、关联关系等等,从而实现数据生产的自动化,进而实现在开发层是面向业务逻辑的开发、在使用层面是面向主题式模型的引用,进而实现了数据的虚拟化能力。

D

总结

目前,阿里云数据中台产品矩阵正在不断地优化和发展。建议企业在选择的时候,不要盲目,适合自己的才是好的、对的!


如您对商业智能,数智化转型感兴趣,请加微信:wendy199it

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部