本文是 TalkingData University 翻译自 George Liu 发表在 hackernoon 的一篇文章,介绍了数据科学中不同角色的定义及相互之间的关系。并且给出了能力画像,为从业人员的求职及发展提供了清晰的参考。
如果你在考虑从事数据科学的工作,可能会觉得这个领域有点令人困惑!什么是数据科学家?数据分析师和数据科学家之间有什么区别?机器学习工程师做什么?那么数据工程师、商业智能( BI )工程师和机器学习( ML )研究员呢?
在这篇文章中,我们将描述数据科学中的不同角色,解释他们的定义以及差异。我们还将为每个角色建立一个“理想能力画像”。这对于职业满意度和求职成功非常重要——如果你申请了一个适合你的角色,你将有更大的机会获得这份工作;如果你做了自己喜欢的事情,那么你会享受,而不是每天都想逃避!
下面一起看看数据科学中的不同角色。我们会做一些扩展,以涵盖对具有数据技能的候选人来说,所有可考虑的数据科学职业角色。
从广义上讲,我们可以将数据角色分为两类:业务导向或工程导向。不同之处在于,业务向角色需要兼备技术和业务技能,例如沟通和演示;而工程向的角色着重在建模和软件工程技能上。
另一方面,一些传统角色已经存在了很长时间,而其他角色仅仅出现了几年或者刚刚兴起。让我们更详细地看一下每个角色。
从本质来说数据分析师和数据科学家是相同的,因为他们做同样的事情——从数据中获取价值。价值可以有不同的形式:对于数据分析师来说,价值意味着洞察,而对于数据科学家来说,是在洞察之上的产品发展智能。
数据分析师分析数据以获得洞察,并帮助形成业务决策。例如是什么导致网站流量增加,或者用户离开网站的主要原因是什么?而数据科学家更关心的是使用机器学习和 A / B 测试来驱动和改进产品。他们可能会对诸如“更大尺寸的按钮会增加点击率吗?”以及“哪些客户可能取消订阅?”等问题感兴趣。
数据科学家专注于前瞻,即做出预测,而数据分析师则更多地聚焦在回顾,如分析历史数据。
数据科学家应该更有经验,能够用科学的方法解决业务问题,包括构建业务问题、提出假设,然后设计和进行实验来检验假设,最后得出结论(主要是研究技能,这就是为什么硬科学博士有时候是数据科学家角色的首选候选人)。而数据分析师应该使用报告或数据可视化技术收集,清理,分析数据并传达结果。
以上是这两个角色之间的一般差异,但情况并非总是如此,因为数据科学仍然是新的方向,并且远未实现标准化。有时数据科学家可以进行基本分析工作,数据分析师可以执行机器学习建模。对于数据科学中分析类的角色而言,无论头衔如何,这两类绝对是最受雇主追捧的重要角色。因此在求职时应考虑与画像的最佳契合,并成为我们的目标(以下角色同理)。
需要指出的是,这里我们指的是通常意义的数据科学家,主要处理统计建模,A / B 测试,机器学习,数据清洗和数据可视化。而专注机器学习的数据科学家,我们实际上将其归类为机器学习研究员/科学家,下文会有介绍。
我们已经讨论了很多关于数据科学家的事情,但实际上,如果没有数据工程师的帮助,数据科学家就无法做出贡献。为什么?由于数据工程师构建了引入数据的数据管道!如同炼油厂闲置,是由于没有原油进入,最终原因是石油管道还没有建成。
我们举一家广告技术公司为例,我们有来自多种内外部数据源的实时数据;有来自服务器的广告投放数据,来自我们内部数据库的投放和客户数据,还有来自第三方提供商的投放效果数据和我们的内部日志……为了构建实时广告效果分析看板并进一步做分析和建模,我们需要将所有数据整合成合适的级别。在此之上,我们需要构建一个数据仓库,以便我们的查询不会影响生产服务器的性能。
这就是数据工程师为我们提供的帮助。如你所见,这基本上是数据的软件工程。
ML 研究员实际上与专注于 ML 的数据科学家相同。但与通常意义上处理所有数据科学问题的“全栈”数据科学家不同,ML 数据科学家将专注于 ML 建模,以及(或者)新机器学习算法的研究和开发。另一方面,ML工程师更关心机器学习模型的生产。
想象一下使用公共数据集构建的推荐模型。在对模型进行微调之后,我们已经取得了很好的性能结果,但该模型仍然没有用,因为它只是我们计算机中的一个软件。为了让它有用,我们需要将模型部署到生产环境中,比如我们的电子商务网站,以便它可以实时为用户提供推荐,从而帮助我们增加收入。
将机器学习模型部署到生产中是一项工程问题,与构建模型不同,它涉及不同类型的工程工作,例如将 ML 模型集成到软件系统中,优化模型以提高性能和可扩展性,监控 ML 系统,以及用新数据重新训练它。当然,还有建模部分,使用各种 ML 库实验和构建机器学习模型,以及实现 ML 算法以满足业务需求。
研究人员/科学家和工程师之间的区别在于“部署”部分,即是否负责将 ML 模型投入生产。如果是,那么我们讨论的是上述的工程问题,而角色是工程师,否则,它是一个研究角色。
我们这里谈到的业务分析师不是传统的IT业务分析师( BA )。传统的 BA 引导,记录业务需求并充当业务和技术之间的联络人。相反,我们使用业务分析师的头衔作为总括头衔来涵盖所有具有业务性质(非技术性)且需要重要数据技能的分析师角色。
由于数据的普及,几乎所有分析师角色都需要某些数据技能集。因此,业务分析师角色是对于具有领域专业知识,并且精于数据的候选人来说,业务分析师是非常不错的职位目标。
找出这些角色的最佳方法是在求职搜索引擎上使用关键字。例如,在Indeed.com上,如果输入“ analyst sql ”作为关键字,您将找到许多不同的职位,如 Performance Analyst,Healthcare Data Analyst 和 Demand Planning Analyst。这些是精通数据的候选人可以考虑的,不同类型的业务分析师。
我们还拥有传统的商业智能( BI )分析师和商业智能工程师角色。一般来说,当我们谈论 BI 时,我们指的是使用“定义良好的BI基础设施”在“大公司”环境中进行数据分析和报告,
基础设施指的是各种企业软件系统( ERP,CRM 等)以及在他们之上进行连接和报告 BI 工具;
“大公司” – 因为传统大型企业拥有财务实力来搭建和维护这些BI系统。
BI 分析师与数据分析师非常相似,因为他们都需要对数据进行分析和报告。一般来说,他们不做预测建模。不同之处在于 BI 分析师在结构化环境(使用 BI 系统)中与大型公司合作,而数据分析师可以在任何地方,而且不需要使用现有的BI基础架构。
而BI工程师/开发人员和 BI 分析师的关系,正如数据工程师与数据科学家的关系一样,因为BI工程师构建了 BI 分析师可依赖的报告工具来进行业务所需的分析。因此,数据工程师可以被视为 BI 工程师/开发人员角色的最新版本,后者可以很好地适应前者,这要归功于类似的技能集。
如上所述,数据现在无处不在。难怪现在的产品还依赖于数据科学,特别是机器学习。对于以机器学习为中心或严重依赖于数据科学的产品,精通数据的产品经理最适合支持它们。具有 ML 专业知识和产品管理经验的候选人将在这种类型的角色中占上风。
我们现在清楚地了解数据科学中的主要角色,但每位理想候选人的技能集是什么样的?为了以直观的方式进行说明,我使用 Matplotlib 创建了蜘蛛图将这些画像可视化。由于这很大程度上是我的直观看法,我们将在未来的迭代中抓取并分析来自 Indeed 的职位发布数据,以验证画像。
现在你拥有了数据科学角色和相应的能力画像!基于对不同角色的责任和差异的充分理解,您将能够确定您热衷的职业道路;理想的画像不仅可以用于确定最适合的目标角色,还可以作为简历定制和个人品牌的路线图,以使您的个人资料与之相关。
来自:Talkingdata
更多阅读: