数据驱动背后的“陷阱”

“数据驱动”已经成为当下必须。更明智的进行决策,尤其是在自动化商业智能的赋能下,会带来更高的ROI和更好的业绩。

从AI工程到超自动化,更多应用数据的有效方式出现,遍及所有商业领域,也被Gartner认为是“2021年十大战略性科技趋势”的重点。

想在后疫情时代获得发展,“以数据为中心”不再是可选项,而是必选项。

但同时,据《哈佛商业评论》2019年的报道,多达77%的高管们将应用大数据和AI看做是最大的挑战。更糟的是,这个数字在过去几年中呈指数级增长。

这一趋势是否会在未来十年持续下去?在向数据驱动体系转变的过程中,企业努力想要高效利用数据却又力不从心。大多数企业都不知该如何摆脱这个困境。

海量的交易数据收集下来了,然后呢?

收集和访问数据并不难。商业每天制造出数以十亿计的数据点。到2025年,每天产生的数据将高达463艾字节,这是把人类历史上说过的所有话都存储下来所需数据量的90倍!其中的大量数据是社交媒体、短视频、邮件和自拍照,但更多的还是交易数据。

尤其是零售业,一些最有价值的商业智能就是从交易数据中获得的。这曾经是个简单的过程,我们用Excel甚至手工计算就可以算出市场需求和理想定价。但现在,传统的数据分析方法已经远远不能满足需求了。数据规模之大让我们连一知半解都无法做到,更别说从其中获得有用的洞察。

大数据已经改变了问题的性质。

难点不再是如何收集数据,而是如何高效利用数据。

当我们拥有了海量的交易数据,最让人感觉手足无措的就是“接下来怎么办”。

大数据的四个V惯例

幸好,还有一个行业标准可以指导我们。这“四个V”可以帮助你高效利用数据。必须要理解、标准化和验证每一个元素,不然就无法成功提取出有用的智能。

1、Volume-数量

到底拥有多少数据?当然,大数据意味着很大的数据量,但是正在利用的有多少?这个数量决定了分析要承载的容量。

2、Velocity-速度

数据收集、存储、处理的速度有多快?是接近拥有实时数据了,还是存在延迟?模型每隔多久需要接收新数据?速度决定了分析的时效性和相关性。

3、Variety-类型

拥有哪些种类的数据?它们的结构如何?数据源的丰富性如何?数据的类型是否足够多样化,以提供可用的建议?类型决定了分析是片面封闭的,还是全面整体的。

4、Veracity-准确

数据是准确的吗?其中是否存在缺漏?又存在多少噪声?准确性决定了分析的精准度。

价值:第五个V

前面所讲的四个V可能是行业惯例,但数据科学家越来越认识到,还有一个V甚至更为重要——价值(Value)。

换句话讲,在商业场景中,大数据最重要的赋能,就是将数据转化为帮助企业提升ROI的决策。数据必须是要能指导行动的,带来的价值必须要高于分析的成本。相比之下,数据的质量比数量更重要。而价值则衡量了可用数据的最终质量。

企业是否能够做好这第五个V非常关键。就算我们遵循前四个V收集到了好的数据,也并不意味着就真的有用。不产生价值,数据就没有任何用处。

 

更好的数据引入+更好的分析=成功

那么多企业尝试转型数据驱动但失败,问题就出在数据的价值上。一些企业花了超出承受能力的时间去搞定数据的前四个V,说到价值时却无法提取出有用的洞察。另一些企业重心全在数据分析上,没有关注四个基本的V,而被数据本身的缺陷限制了价值的输出。没有良好的平衡,就得不到关键的智能。

幸好,如果能实现数据引入(data ingestion)和分析的自动化,平衡并没有想象的那么难。

 

理解数据引入(data ingestion)

数据引入与为数据管理和创建模型相关。本质上,数据引入关注的是前四个V,也就是容纳数量、降低时延、描述类型、监控精确度的过程。数据被恰当的存储,误差和缺口也被定位和修复。

数据引入可能会特别复杂,但可以在一些工具的帮助下将这个过程自动化。如EvoFlow、AirFlow等工具可以编排数据流并执行一系列的检查,来保证我们所使用的数据井然有序。通过对流程的自动化和二次检查,这些工具确保数据符合前四个V的要求,让我们能够把注意力放在价值上。

自动化分析

对价值的关注并不意味着要牺牲自动化。反之,分析也应该自动化,来避免人工产生的错误。我们发现,这就是数据科学与商业科学之间的区别:导致性能欠佳的最显著原因是使用和输入错误,而自动化能够减少这些错误。

同时,自主化系统可以让价值最大化,而价值也是每一家企业最需要关注的方面。分析,是将海量交易数据和其他业务数据最终转化为洞察的一步,这也是大数据能帮助企业完成KPI和成功占领市场的地方。没有自动化的分析,就无法优化价值。

AI自动化:避免数据驱动的坑

完成数字化转型这一目标依然困难重重,但是所有生意都可以通过自动化的、AI驱动的大数据,来实现真正的数据驱动。只要我们借助了那些比任何人类都快速的处理、验证和分析数据的技术来应用数据,就可以避免被大数据所困。这样我们也就不会被交易数据所淹没,而是能够从中挖掘出价值,带来更好结果。

 

作者:Fabrizio Fantini

来源:towards data science

原文链接:https://towardsdatascience.com/the-5-vs-of-big-data-hide-a-trap-30eb8d8de8f6

翻译:TalkingData

图片来源:pixabay

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部