前Facebook“大数据”主管的6条心得

阿施什·图苏尔(Ashish Thusoo)非常了解“大数据”(Big Data)。他在2007年加入Facebook,当时该公司只有5,000万用户。他离开公司的时候,该数字已经达到约8亿。在此期间,他管理Facebook的内部数据分析团队。
Facebook的分析团队管理这些数据及其分析,从而用于广告定位、客户增长以及提高用户参与度。现在图苏尔拥有一家新公司Qubole,该公司现在正打造云计算的“大数据”平台。
图苏尔的各项心得其实有一个统一的主题,那就是数据的民主化。对此,他的意思是向组织内所有用户开放数据分析,无论是数据科学家、产品工程师还是商业分析师。
1. 新技术已经将对话从“储存什么数据”向“掌握更多数据后我们可以怎么做”转变。 Hadoop和Hive等开源技术具有相对较低的成本,从而帮助收集更多重要的测量指标。在Facebook和其他互联网网站方面,这意味着收集更多有关用户活动和行为的数据。
成本降低也让更多历史数据被存储在网络上。图苏尔表示:“结果是,我们将获得由数据驱动的、更好的应用程序。至少在数据世界,相比对数量较少的数据采用复杂的算法,对数量较多的数据采用简单的算法似乎产生更好的结果,当然其中也有部分例外。”
2. 为终端用户简化数据分析。 换言之,图苏尔在Facebook认识到,为科学家、分析师和工程师等数据用户民主化数据可以产生很强的威力。
他的目标是,让所有与数据相关的功能简化,从执行应用程序和收集数据,到理解和分析这些数据,到创造由数据驱动的应用程序。
“打造熟悉的界面”和数据处理工具是提高Facebook内部使用Hadoop和Hive等基础技术的关键。
3. 用户数量增加意味着数据分析系统需要更加强劲。 在Facebook的数据科学家、分析师和数据工程师中民主化数据,这个想法提高了该要求的难度。
为了实现这个想法,图苏尔的团队不得不设计特定功能来处理写得比较糟糕的查询语句,从而防止这些查询语句使系统崩溃。他们必须建立包括使用监测和限制在内的多种机制以使资源公平共享。
“我们拥有多种不同的用户,从商业分析师到产品工程师,他们对基础设施和如何最好地利用数据有很多不同层次的理解。”
4. 为“大数据”服务的社交网络。 “我们进行了投资,以使我们的工具越来越具有协作性,从而让用户可以相互间共享分析,并通过与某套数据的专家用户连接,从而发现数据。”
随着Facebook实现超高速增长以及数据一直发生变化,协作的方法比围绕元数据创造知识库更有用。
5. 没有任何单一的基础设施可以解决所有的“大数据”问题。 在实时报告方面,由于我们发现通过系统间协作可以比Hadoop更好地解决用例,因而图苏尔的团队进行了大量投资。在实时报告方面,我们的团队投资打造了数据分析软件Puma。有很多关于图解分析以及对大型数据集的低延迟数据检查的例子,在这些例子里他们都必须打造或者投资新技术。
6. 开发软件是困难的,但是运行一套服务却是更加困难。 图苏尔的团队必须进行大量工作以确保服务可以使用。他们投资大量时间和能源打造“那些可以测量使用情况、指出瓶颈和为我们的用户量化他们使用情况的系统”。他们不得不打造特定的功能,从而监测和交付达到一致认可水平的服务。
25年前,福布斯开始对全球亿万富豪进行权威性的追踪。我们制作的首个榜单囊括了140位财富数量达十位数的富豪(其中24人至今仍在榜单之列)。时至今日,这个俱乐部已经壮大了不少。今年,我们统计得到资产过10亿美元的富豪达1,226位,创下历史最高纪录。而这一年的主旋律就是动荡……
尽管中国炙热的经济在今年有所降温,股市也剧烈震荡,但中国的造富运动还在继续。根据《福布斯》亚洲版最新出炉的2011中国富豪排行榜,中国的亿万富豪人数达到了前所未有的146人,较2010年增加18人之多。今年上榜的400位大陆富豪的财富达到4,590亿美元,较上年的4,232亿美元增长8%,但若以人民币计算,增幅则只有4%……
有些人白手起家打造出10亿美元的个人财富。而有些人则因出身豪门而获得巨额财富。遗产继承人在福布斯美国400富豪榜中所占的百分比已经缩减,在今年榜单中仅占30%,但这一群体拥有大量的血缘亲属。18个豪门家族中有多名成员登上……

 

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部