[景顺基金管理有限公司]盖茨基金:成也数据,败也数据

比尔·盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学半途退学,兴办自己的软件公司。而且他们公司开发的软件,终究用在了国际90% 的电脑上,比尔也因而赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔&梅琳达·盖茨基金会”(Bill& Melinda Gates Foundation)。而且咱们很快乐地看到该基金会在许多范畴进行了斗胆出资。它进入的范畴包含在发展中国家进行疟疾防备,在美国进行中学变革,以及对艾滋病(HIV/AIDS)的研讨。盖茨基金会因依托数据来做出正确的决议,然后赢得了杰出的名誉。

但这并不意味着他们不会犯错。盖茨在千禧年开端之际,大力支持小型校园运动,他在全美规划内选出了一些校园,并往这些校园投入了上亿美元。依据A 是其时的一项计算发现:在全美体现最好的校园中,小型校园所占的份额不均衡。例如,在宾夕法尼亚州,依照五年级的阅览成果评出的前50 所校园中,12% 是小型校园。要是学生的成果跟校园的规划无关,那么规划大的校园在这50 所名校中所占的份额应该是小型校园的四倍。因而,校园规划被认为是影响教学质量的重要因素——每个年级最多不能超越100 论理学生。而盖茨基金会规划的一套改造计划,便是将大型校园拆分红更小、更高效的小型校园。(文摘编者注:文中校园应该有大、中、小三类,不然不能依据“大型校园数量是小型校园数量4倍”和“12%是小型校园”的现实,得出小型校园教学质量好的定论,你觉得呢?)

举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(MountlakeTerrace High School)读书的1800 论理学生发现,自己的校园被分红了五所小型校园,校园的姓名别离叫做“发现校园”、“变革校园”、“复兴校园”等。不过,校址没有改动,仍是在曾经的大楼里。盖茨基金会教育处履行主任汤姆·范德· 阿尔克(Tom Vander Ark)解说说:“大多数穷人家的孩子,不得不进规划大的校园念书,在那里没人知道他们,他们被甩进了一条难以出面的绝路……小型校园只不过营建了一个(比大型校园)更好的生长环境。在那里,比较简略构成活跃的气氛,产生较高的期望值,也更简略优化课程设置,改善教学质量。”

十年今后,盖茨基金会却产生了彻底的改变,它不再将校园的规划视为处理学生成果问题的仅有办法,而开端致力于规划赋有新意的课程以及提高教学质量。盖茨基金会对校园重组前后的作用进行了详尽的调查研讨,成果发现,重组后的校园均匀成果没有变得更好,相反,在某些个例中变得更差了。

计算学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心(Educational TestingServices)度过了最好的职业生涯。魏讷曾诉苦道:“这数百万美元的过错,本来是可以防止的。”在上面说到的对宾夕法尼亚州的校园进行的同一剖析中,魏讷指出,尽管小型校园在前50 所校园中占了12% 的份额,但一同要看到,在后50 所校园中,有18% 是小型校园。简略来说,小型校园在这个散布的两头所占的份额都偏高。不论着重哪一部分数据,剖析师们都会得出彻底相反的定论。在对飞机晚点的研讨中,咱们见过相似的状况。问题的要害不在于多少数据被剖析,而是被怎么剖析。

盖茨基金会的故事证明了别的一点:数据剖析是一件扎手的事,无论是权威专家仍是经历丰富的行家,都不能担保不犯错。不论一个人的脑袋瓜多么灵光,总会有必定的犯错规划。这是由于,没有人可以把握一切信息。“那是在顶尖期刊上宣布的”、“别瞎置疑了,登在这本期刊上的文章莫非会有错?!”这样的话常常拿来作为堵住他人嘴巴的托言。日子在大数据年代,只要傻瓜才会采纳这种情绪。你听说过许多研讨,企图在某种疾病与某种基因之间树立联络,比方,帕金森症和高血压。可是,你知道吗?经过同行评定、并得到同行认可的遗传学关联性研讨成果,只要30% 能被后续的研讨证明,其他的都是假阳性成果(false-positive result)。那些声称是原创性的研讨成果,还没来得及出书勘误表,就现已被推翻了。不过,话又说回来,我仍是期望专家能宣布一些质量稍高的剖析陈述。

大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种遍及的误解,认为海量的数据流可以将隐藏着的“因果关系”冲出地上。请想一下点击流吧,网络营销人员凭借点击追寻网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或许查找广告,然后下了订单,这不就足以证明网络营销成功了吗?还需求什么更有力的依据吗?现实状况远非如此简略明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们打击苹果的广告,觉得很过瘾,所以,我回到三星的网店完成了这笔买卖。剖析人员在仔细剖析网络日志时,不但会漏掉促进我举动的实在原因,而且会犯假阳性过错,将横幅广告跟此次购买行为捆绑在了一同。由于网络营销人员能看到的只要这些。这些小问题在网络剖析员的日子中稀松往常。

大数据不只意味着有更多好的剖析,也意味着会有更多坏的剖析。要知道,即便是专家和技能大牛也有掉链子的时分。假如一些欠好的数据被包藏祸心的可疑人员添枝加叶地使用,作业会变得更糟糕;不过,即便是动机纯真的剖析人员稍有不小心也会上当受骗。在这个充溢数据的国际中,顾客得有一副火眼金睛才行啊!

大数据是实在的,而其影响更是广泛的。至少,咱们每个人都是数据剖析的顾客。因而,咱们有必要学会成为一个聪明的顾客。咱们需求具有的是一种数字直觉。

数字直觉是我在招聘数据剖析员时最为垂青的一种质量。它能将真实的天才从“还不错”中区别开来。我期望在应聘者身上发现三样东西:一个是数字直觉,其他两样别离是技能才干跟商业思想。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,可是却没有任何数字直觉。数字直觉是第三维度。

我写作这本书的意图是引你上路。本书的每一章都是由近期读到的一则新闻触发创意而写成的。在这些新闻故事中,有人提出了一些观念,而且征引数据来证明自己的观念。我经过提一些尖利的问题,查看一致性,数理证明,有时分,也会经过获取并剖析相关数据,来展现我是怎么验证这些观念的。比方,我会质疑高朋(Groupon)的商业模型有意义吗?一种检测肥壮的新办法能处理咱们最大的健康危机吗?克莱蒙德麦肯那学院(Claremont McKenna College)在学院排名游戏中小规划做弊了吗?政府发布的通胀跟赋闲数据值得信赖吗?咱们怎么点评梦境体育联盟的体现?当商家经过追寻咱们的活动来完成个性化营销时,咱们会从中获益吗?

即使是专家有时分也会掉进数据的圈套中。假如我在这本书里边也犯了此类的过错,那么职责彻底在我。要是我没有把观念讲得满足清楚,那就意味着这些数据的剖析办法不止一种。我鼓舞你们构成自己的观念。只要经过这样的操练实践,才干培养出你自己的数字直觉。

欢迎来到大数据年代,不过,要处处留心才是!

摘自:

《对“伪大数据”说不:走出大数据剖析与解读的误区》

出书社:中国人民大学出书社·阅想年代

【作者】

[美]冯启思(Kaiser Fung) 译者:曲玉彬

冯启思(Kaiser Fung)是一位专业的计算学家,在市场营销和广告范畴中,具有超越15年的使用计算学方面的经历,曾任职于美国天狼星卫星广播公司、美国运通公司、[x+1]公司、Exodus通讯公司、美国圣思网络公司等知名企业。他也是纽约大学的兼职教授,教授有用计算学,仍是人气博客“废物图表”(Junk Charts Blog)的博主,首要对大众传媒范畴的数据和图表进行了重要研讨,并出书了一本广受赞誉的图书——《数据控制国际》。

【目录】

榜首部分

关于社会大数据的解读 /1

第1 章 法学院院长互发废物邮件为哪般 /3

当一天招生办主任

假造、精挑细选和换牌游戏

正在消失的行为、不定量、校园之间的联络以及部分得分

制作作业数据

问卷生计游戏、隐秘协议、有提示的回忆

牵连共犯

法学院逃过经济衰退一劫

塞克斯顿主义

杯水车薪

第2 章 新的计算数据真的能让咱们瘦下来吗 /47

减肥餐的丧命缺点

身高体重指数

被误用的丈量

需求处理的难题

真实的难题在哪里

保持新体重的最终一搏

第二部分

关于营销大数据的解读 /73

第3 章 脱销是怎么销毁一家企业的 /75

盈余与亏本的分界线

网络营销真的那么管用吗

第4 章 个性化出售真的能抢救高朋吗 /97

经过电子邮件检索

失利的趣味

当米兰达遇见帕特里克

高朋的方针客户到底在哪里

高朋形式需求更多的新客户

高朋的定位

生长的阵痛

第5 章 营销人员为何给你发混合型的推销信息 /119

超特大号(XXL)提包是怎么走漏你的隐秘的

商家都了解你的什么

传递混合信息的科学性

大数据是救世主吗

第三部分

关于经济大数据的解读 /137

第6 章 要是没人可以请求,这还算新作业吗 /139

找托言

是否需求进行季度性调整

这条鱼蜕变了

华盛顿曩昔的那些美丽的计算数据

克鲁德尔称之为“哎呦”

第7 章 你买鸡蛋花了多少钱 /167

有些你看见了,有些你没看见

对被均匀化的不满

谁的中心

钻啊,孩子,钻啊

对均匀数的惧怕

第四部分

关于体育大数据的解读 /189

第8 章 你是好教练仍是好司理 /191

约请计算学家进入你家厨房

日子在梦境游戏之外

首要看一下教练

再看一下教练才干

杰伊为何要疏忽自己的主张

被总司理所禁闭

命运

接下来在家里会产生什么

跋文 在大数据年代生计下去 /221

[美其名曰] 大数据科学家日子中的三个小时

三天与6 000个词的比赛
数据剖析, 数据发掘
发布于 2024-02-02 10:02:39
收藏
分享
海报
1
目录

    推荐阅读