2010年起,Drew Conway开始用一张维恩图(即用不同的圆圈显示元素集合重叠区域的图示)表示数据科学,之后,不同的数据科学家也根据自己对数据科学的理解对这一维恩图进行了不同程度的删改和调整。
Drew Conway的第一张维恩图至今依然是很多数据科学家最认可的对数据科学的基本描述,这张图清楚的显示了,数据科学最相关知识来自三大基础领域:数学和统计知识、计算机科学、行业应用知识。
本文用13张经典维恩图展示了数据科学这个领域,你最喜欢哪一张?你觉得哪张图最能代表你对数据科学的理解?
数据科学是一个定义相当模糊的词语。我听到的一些定义有——
“这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作。”
“是应用统计,但在旧金山却不是。”
“有人突然决定在自己的名片上印上‘数据科学家’这几字,然后靠着这个涨了工资。”
就我个人而言,我最近决定称呼自己为数据矿工来避免争议。(无论如何,数据矿工并不时髦。)
数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。
作为一个充满着数据书呆子而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。
1. 2010年·Drew Conway版
因此,假如领域知识是他的意思,至少这个想法的一部分是:比如一个物理学家,本来具有物理和数学/统计的专业知识,但缺乏黑客知识(我见过不少物理学家也有黑客知识,故而这个现象现在并不那么普遍了);机器学习专家有时会在缺乏对要进行分析的事情所在领域知识情况下,对他们要分析的事情应用算法(这和我第一次在一个全新的产业里起步建立模型时的情况一模一样,我不得不作了很多知识补充);还有的人可以编程,并且知道自己领域内的知识,但却没办法知道什么时候是偶然,什么时候是一个统计上显著的结果,这样的人是很危险的;他们给出的解决办法可能会是非常错误的,导致他们公司大量的经济损失。
2. 2012年 Brendan Tierne版
这个图……确实看起来有点乱。顺便说一句,KDD代表知识发现和数据挖掘(Knowledge Discovery and Data Mining)。尽管如此,数据挖掘也有自己的圈。我欣赏他在这里的所作所为,这里为了说明数据科学是个多学科的领域,数据科学的价值在于其所需技能的广度。显然,这些技能中有一个是神经计算(Neurocomputing) ,这似乎也有点太…..具体了。
KDD:Knowledge Discovery and Data Mining,知识发现和数据挖掘。
AI:Artificial Intelligence,人工智能。
3. 2013·Ulrich Matter版
紧跟着Conway的脚步,Ulrich Matter也在2013年同一个月内在博客上发表了自己的版本。
他把Conway的版本沿对角线做了个翻转,把“实质性专业”指定为社会科学(他的领域),把“ 黑客能力(Hacking)” 改成“计算机科学” (你可以理解为什么有人会不想被定性为一个黑客,虽然我本人没意见),由于一些原因,他把“ 数学与统计” 改成了“ 定量方法(Quantitative Methods)” 。更重要的是,他把在Conway版本中本应该是“机器学习”的地方改成了“数据科学”——这是一个有趣的差别。有些数据科学家专注于一个领域,也有些人是通才(这些人通常在一个领域开始,但一发不可收拾,像我这样的:我一开始在化学行业而现在我在保险行业)的数据科学家。此外,他显然对“危险区”这个词感到不舒服,将其更改为…一个问号。但很显然,最重要的是图的中心:数据驱动计算[社会](Data-driven Computational [Social] Science)。
4.Joel Grus版
爱德华·斯诺登消息传出后, Joel Grus提供了这个混乱的版本。现在我们进入这种四个圈的维恩图领域,第四个圈就是很讨厌的。
NSA:National Security Agency,国家安全局。
5.2013年·Harlan Harris版
2013年9月,Harlan Harris用了这个图来处理数据产品,而不是数据科学。
每一个切片不再和Conway的版本相对应,因为我们已经完成从科学到产品的变化,但是类别仍值得关注(他们也跟着真正的维恩的方法,不是独立的切片本身)。“领域知识”仍然存在,“计算机科学/黑客”仍然作为“ 软件工程”存在。此外,关键的是Harris在统计圈上增加了预测分析和可视。统计圈和软件工程圈的交集是实际应用的工具。
2014年1月,Steven Geringer提供了一个调整,不再像Conway那样把数据科学放在中间三路交叉口,而是称整个事情为“数据科学”, 三个圈的交界处为独角兽(意思是像一个神兽一样,传言存在,但从来没有人在野外亲眼看到。)
这是…有点怪异,如果按维恩图解来说。我想我知道他想要干吗。当我第一次听到有人被称为数据科学家,我经常听到还击,“难道不是所有的科学家,顾名思义,都是数据科学家?”诚然,任何科学都不能没有数据处理,不过,数据科学,而相当模糊的,不能是一个总称。
另外,我很抱歉,但你可以看到他的鼠标箭头还在截屏图上呢。
在2014年2月,Michael Malak增加了第四个圈,声称Conway在说“实质性专业”时,意思不是领域知识。
根据Malak的说法,当涉及到“实质性专业识:“你继续用这个词。我不认为它是你认为的意思。” Malak把它分成领域专业知识,和……呃,和某一个领域的知识比如社会科学。也许是我想太多,但我不明白他们的区别。我也不知道他想用“整体的传统研究”表达什么。科学数据,再次回到了独角兽的位置,有三个危险区域(其中一个还是双重危)。看起来每个人都讨厌“黑客”这个词。
我的下一个例子来自Vincent Granville,他于2014年4月转发了Gartner的作品,但我不知道其原作的具体日期。
这是数据科学解决方案,而不是数据科学本身的维恩图; 因此,数据科学是其中一个圈,与其他的能力(通常不属于同一个人,但希望在同一个团队里)是IT技能和业务技能。有点困扰我的是,文字标签指着每个圈里非常具体的位置,但实际位置却是任意的。
Shelly Palmer在赫芬顿邮报上客串博客中发表了他自己书里的这个图:
在2015年11月,StackExchange数据科学用户Stephan Kolassa想出了我个人的最爱的图,其在Conway的版本上加了“交流”,并把“实质性专业”改成了“业务”。
关于他的这个成果,在这个测试版发布论坛上得到了21个“赞”(我就是其中之一)。他的分类都还不错。我想我可以被归入“好的顾问”这一类。或可能是“平庸顾问”。或者是个“用力过猛”的顾问?
是的,这才是一个四圈维恩图该有的样子,不是之前Malak那种不能包含交叉点的所有组合的四个同心圆。
2016年,Matthew Mayo的博客发表了由Gregory Piatetsky-Shapiro制作的一张图。
好吧,虽然它声称是数据科学的维恩图:第一,它不是一个维恩图;第二,数据科学是其中的一个圈。大数据被承认令人欣喜,不过…这个字体是啥情况?
最后(我敢肯定,我没有收集到所有的。如果你知道有哪张维恩图我错过了,请让我知道),后来在2016年,Gartner在他的博客上重做了他那样有点繁忙的数据解决方案图,并使其更漂亮和更加基于数据科学。
我们兜了一圈,又回到Conway,除了“危险区”又一次所取代,这一次被改了“数据工程师”。我喜欢这次文字都指向圈的边缘,比他们以前的乱标注好多了。
维基百科上关于科学的页面有以下这个不完全是维恩图的图:
当然,那么你则需要一个非常复杂的维恩图。
它们确实存在——
这里有一个七维级别的:
选文 | Aileen
翻译 | Aileen
校对 | 黄念
来自大数据文摘
更多阅读: