美国大学争相培养数据科学家

《哈佛商业评论》(Harvard Business Review)将数据科学称为“21世纪最性感的职业”,而大多数人也都认为,这个新兴热门领域将会对各行各业产生革命性的影响:从企业到政府,从医疗保健到学术界,不一而足。

该领域充斥着现代技术催生的庞大数据——不管是Facebook用户的在线行为、癌症患者的组织样本、杂货店顾客的购买习惯还是城市的犯罪统计。数据科学家是大数据(Big Data)时代的魔术师。他们处理数据,利用数学模型分析数据并用文字或图表加以解释,然后建议如何利用这些信息做出决策。

在过去的几年里,且不说一些新毕业生六位数的薪水,仅是为应对这种关于大数据的悸动,就已经出现了冠以各种名称的数十个课程项目。

今年秋天,哥伦比亚大学(Columbia University)将提供偏重于数据的新的硕士课程和证书课程。旧金山大学(University of San Francisco)首批分析学硕士研究生即将毕业。其他教授数据科学的机构还包括纽约大学(New York University)、斯坦福大学(Stanford University)、西北大学(Northwestern University)、乔治·梅森大学(George Mason University)、雪城大学(Syracuse University)、加州大学欧文分校(University of California at Irvine)和印第安纳大学(Indiana University)。

雷切尔·舒特(Rachel Schutt)是约翰逊实验室(Johnson Research Labs)的高级研究科学家,上一学期在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程(这也是该校首门名称中包含“数据科学”的课程)。她描述数据科学家是“计算机科学家、软件工程师和统计学家的混合体。”又进一步说:“最优秀的数据科学家通常是充满好奇心的、善于提出问题的思想家,他们能够应对非结构化的情况,并试图从中找出它们的结构。”

现年30岁的尤里·金(Eurry Kim)是一位“准数据科学家”,现攻读哥伦比亚大学社会科学定量法的硕士课程,并计划在毕业后加入政府服务部门。在美国国家税务局(Internal Revenue Service)就任公司税分析师期间,她发现了各种可能性。比如说,她可以通过分析纳税申报表数据来开发标示欺诈性文件的运算法则,或通过筛选国家安全数据库来探查可疑活动。

她的一些同学希望将他们的技能应用到电子商务中,因为在该领域,关于用户浏览历史记录的数据堪称黄金。

“一代人是伴随着数据科学长大的——网飞(Netflix)告诉他们应该看什么样的电影,亚马逊(Amazon)告诉他们应该读什么样的书——所以这是一个能落到实处的学术领域,”哥伦比亚大学应用数学教授、该校新建数据科学和工程学院(Institute for Data Sciences and Engineering)的参与者克里斯·维金斯(Chris Wiggins)说。“而且,他们也知道这会为他们带来工作。”他补充道。

大学都在尽可能快地培养数据科学家。据麦肯锡全球研究所(McKinsey Global Institute)的报告,要满足雇主的需求,美国将需要增加多达60%的可处理大规模数据的毕业生。未来5年将需要近50万名有资质的数据科学家,而缺口则高达19万;此外,还需要150万名了解数据的高管和支持人员。

北卡罗来纳州立大学(North Carolina State University)在2007年时引入了分析学硕士课程。据该校高级分析学院(Institute for Advanced Analytics)的发起人及负责人迈克尔·拉帕(Michael Rappa)介绍,去年该学科的全部84名毕业生都收到了工作邀请。该行业的平均薪水为89100美元,而那些先前拥有工作经验的则超过10万美元。

“数据科学与每一家公司都息息相关,”麦肯锡公司(McKinsey)相关领域的研究主管迈克尔·崔(Michael Chui)说,“针对这类人才的争夺战已经展开。”

由于数据科学刚刚兴起,所以各大学都争相为其定义,并开发相关课程。作为一个学术领域,它横跨多个学科,涵盖统计学、分析学、计算机科学和数学,此外还包括学生所希望分析的从海洋生物到历史文本的各个专业领域。

由于数据数量庞大、种类繁多、瞬息万变,加上技术不断发展,这类课程项目并不仅仅是现有课程的重新包装。“数据科学是作为一个学科应运而生的,所以它并不仅仅是一个跨学科领域的聚合,而且还涉及知识体系、专业实务、专业组织和伦理责任,”查尔斯顿学院(College of Charleston)计算机科学系主席克里斯托弗·斯塔尔(Christopher Starr)说。该学院是少有的几所在本科阶段即推出数据科学专业的院校之一。

大多数的数据科学硕士课程项目都要求学生掌握基本的编程技能。用舒特女士的话说,他们要从“单调乏味”的部分开始——收集和清理原始数据,并“把它们放入一个你可以真正对它们进行分析的漂亮表格中”。很多院校使用的是企业或政府提供的数据集,然后再将分析结果返回给它们。有的院校举办竞赛,看看哪个学生能够就公司的问题拿出最佳解决方案。

旧金山大学的学生使用通用电气(General Electric)的数据预测风车可以产生的能源。在北卡罗来纳州,利用美国邮政总局(Postal Service)的数据,学生对垃圾邮件的响应率进行了分析,以期找到提升效率的方法。

研究网络用户的数据会涉及隐私问题。利用数据来决定一个人的信贷额度或其在健康保险方面的资质,甚或在Facebook向他们推荐好友,都会影响到他们的生活。“我们建立的是会影响人们生活的模型,”舒特女士说,“我们该如何谨慎对待?”伦理课会解决这些问题。

最后,学生还要学会就他们的发现进行视觉上和口头上的交流,并要掌握相关的商业技能,这可能涉及到新产品的开发。

“这只是其中的挑战之一,”旧金山大学分析学和计算机科学项目主任特伦斯·帕尔(Terence Parr)说,“要想取得成功,你需要掌握一系列的技能,而这并不是一个院系就能提供的。”

在华盛顿大学讲授数据科学的比尔·豪(Bill Howe)说,问题是,究竟有没有可能让一个人掌握从统计学到预测建模再到商业策略的所有技能。该校所提供的大数据课程既包括Coursera网站上的免费在线课程,也包括为期九个月的证书课程,此外还有博士项目。

“虽然结果还有待观察,”他说,“但我们仍然认为,旨在培养数据科学家的课程是可行的。”他又补充道:“雇主希望招聘的是全能人才。”

 

Claire Cain Miller是《纽约时报》科技记者

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部