新浪新闻客户端

小数据与黑天鹅

小数据与黑天鹅
2019年04月15日 11:26 新浪网 作者 陈辉博士

  小城不小,大城不大。希望通过小城故事,一起去感悟所谓的“小成”与“大成”。

   

   

   

   

  小数据与黑天鹅

  【一本书带你领略小数据之美、小数据之道、小数据之魅、小数据之巅。本期聚焦小数据与“黑天鹅”】

  黑天鹅:一个不可预知的未来?

  “黑天鹅事件”与“大数据时代”,可算是现下流行的两个高频词汇。

  其实“黑天鹅”并不是什么新词。据说,17世纪的欧洲人认为所有的天鹅都是白色的,因为他们从来没有见过其他颜色的天鹅。直到18世纪初,欧洲人远渡重洋来到澳大利亚,一上岸就惊奇地发现,居然有的天鹅是黑色的!欧洲人一下子蒙了,因为他们之前那么坚信自己的判断,可残酷的事实让欧洲人的信念土崩瓦解——史称“黑天鹅事件”。

  在人类社会发展的进程中,对我们的历史和社会产生重大影响的,通常都不是我们已知或可以预见的东西。“黑天鹅”的逻辑是:你不知道的事比你知道的事更有意义。股市会突然崩盘,美国地产泡沫会引发谁都没有预料到的次贷危机,一场突如其来的大雪会使大半个中国陷入瘫痪状态,带来上千亿元的损失……我们其实每一天都被“黑天鹅”环绕着。

  即使你足不出户,认识到黑天鹅事件的影响力也并不难。审视一下你自己的生存环境,数一数自你出生以来,周围发生的重大事件、技术变革和发明,它们有多少在你预料之中?看看你自己的生活,你的职业选择、与爱人的邂逅、朋友的背叛、暴富或潦倒、股市大涨或崩盘……这些事有多少是按照计划发生的?

  “黑天鹅”的出现预示着,世界上永远存在不可预测的重大和罕见事件,意料之外,一旦出现却有可能改变一切。人类总是过于相信自己的经验,希望自己的判断、决定和计划能如期而至,但是现实总是让我们手足无措。无论是泰坦尼克号的沉没、第二次世界大战还是9·11袭击、美国的次贷危机、互联网浪潮等,都不是人为能够预测出来的。但这些事件的发生,对人类历史发展的进程产生了重大的影响。

  黑天鹅真的不可被预测吗?无论是政府官员,还是经济学家,乃至普通的数据分析员,都在苦苦思索,希望能够找到破解黑天鹅的钥匙。但从系统上来说,想预测黑天鹅,这本身就是一个“MissionImpossible”(不可能完成的任务)!

   

   

   

   

  大数据预测黑天鹅的失灵

  大数据,尽管有很多所谓成功的案例,看起来也的确很高大上,但其并非预测未来的魔幻工具。大数据让预测成本变得越来越低,从而带来大量相关性的预测,然而预测并非事实。随着我们越来越依靠数据,我们必须记住一个事实,就像我们不能为了防止溺水而禁售冰激凌一样,我们不能依靠今天的数据去预测明天的一切。

  2016年在大数据领域最重要的事情之一就是预测美国大选的结果。《纽约时报》预测,希拉里的获胜概率是85%。《赫芬顿邮报》的预测模型则预测希拉里的获胜可能性为98%。FiveThirtyEight的预测甚至精确到小数点,它认为希拉里的获胜概率是71.4%。

  但最后利用大数据分析的预测结果都错了,最终发生了特朗普当选的“黑天鹅”事件。曾经在2008年和2012年两次成功预测了美国总统大选结果的数据大神Nate Silver,今年竟然连续在9个州预测失败,不禁令人大跌眼镜。

  而美国大选的预测失败,使大数据预测分析领域进入一个短暂的低潮期,甚至对整个行业都产生了负面影响。

  在普通人的日常生活中,也存在很多黑天鹅现象。无论是你的个人收入、知名度,还是你的Google搜索量、血压、牙患、股票价格都有可能是“黑天鹅事件”,它们在过去的几百天之内只发生了微小的变化,并且具备一定的趋势。你以为事情会一直这样发展下去了,就像太阳每天从东边升起、在西边落下一样自然,但是突然有一天,砰的一声,一个过去从未有过的巨大变化发生了!比如,“乐天玛特”在华门店突然关闭近9成。

  为什么大数据预测黑天鹅同样也会失灵呢?举个简单的例子,传统的大数据分析,像R语言统计分析软件中,默认设定置信空间是95%。也就是说,5%的小概率事件是不考虑的。而实际中,恰恰是这5%,就出现了黑天鹅。

  至于目前流行的各种大数据核心算法,都是基于统计分析、聚类分析,以及各种各样、五花八门的分析模型。这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。这些算法,看名字就知道,玄而又玄,不知所云。关键的是,这些算法都是受限模型,是基于某些特定条件下的模型,无法通用。

  所以要想通过大数据去准确预测黑天鹅事件,基本上也是不靠谱的。

   

   

   

   

  黑天鹅并非无迹可寻

  黑天鹅的光临从表面上看,确实不可捉摸,但世间万事万物都有其规律可寻,是有因果关系的,只是人的认识能力有限,一些事物的变化规律未被人类掌握发现,因而不清楚事物变化的因由,故感到事物变化无常。但如果我们回过头来再看黑天鹅事件,每一次的黑天鹅事件,又似乎都有其道理。

  (1)只要是黑天鹅,发生之前总会暴露蛛丝马迹

  黑天鹅事件的爆发,往往被冠以“意外”的帽子,可是黑天鹅事件真的意外吗?并非如此。从现实来看,我们总能在黑天鹅事件发生后找出合理的解释,这就说明黑天鹅的爆发一定是有原因的,只是在当时的情况下我们并没有将这些原因与黑天鹅事件联系在一起,这也恰恰说明黑天鹅是具有潜伏期的。

  2017年,两起惨痛事件将留在许多美国人的记忆中:一起是美国现代史上伤亡最惨重的枪击案,一起是“9·11”事件以来发生在纽约最严重的恐怖袭击。

  2017年10月1日晚,白人枪手帕多克在赌城拉斯维加斯向一场露天音乐会开枪扫射11分钟,当场夺走59条人命,另有500多人受伤。同年10月31日下午,一名乌兹别克斯坦籍男子赛富洛·赛波夫驾车在纽约曼哈顿繁忙的西侧快速路上撞击行人和骑车人,8人命丧车轮之下。

  人们注意到,“9·11”过去16年内,有组织、大规模的恐袭在美国大为减少,但由个人策划实施的“独狼式”恐袭威胁则日渐上升。恐怖组织通过社交媒体进行宣传,受蛊惑的个人利用生活中的常见器材发动袭击,令政府部门防不胜防。纽约市警察局负责情报和反恐的副局长约翰·米勒坦陈,防范独狼式袭击“很难,且以后会更难”。他指出,过去恐怖分子策划袭击的过程中会同组织联络,反恐实际是情报战。但现在威胁来自个人,除非能“钻进他们的脑子里”,否则几乎不可能预先掌握恐袭的情报。

  但是细细分析,纽约上述两起恐袭事件的嫌犯都是看到“伊斯兰国”在社交媒体上的宣传后萌生作案念头;与此同时,枪支暴力事件在美国2017年早有先例。2017年1月6日,佛罗里达州东南沿海的劳德代尔堡机场枪击案致5死8伤;同年6月14日,距美国首都华盛顿仅约7英里的一处棒球场发生枪击,包括国会众议院共和党党鞭史蒂夫·斯卡利斯在内4人受伤;拉斯维加斯枪击案1个月后,德克萨斯一座教堂内又有26人命丧枪口之下。这说明虽然独狼式袭击情报很难被掌握到,但实则反映的是美国的移民政策和枪支管理体系早已存在漏洞。

  其他的黑天鹅事件亦是如此,能够事后被解释的事情,事前一定会有原因,就看我们谁能够识别出这些因素,并且有能力将这些因素与黑天鹅事件联系在一起,在潜伏期内提前做好应对措施。

  (2)黑天鹅必定会有一段能量爆发前的积聚期

  黑天鹅除了具有潜伏期外,它还往往存在一个能量爆发前的积聚期,能量积累的时间越长,事件爆发后的影响力越明显。

  2016年6月,和之前民意调查和博彩公司的预计不同,英国居然真的“脱欧”成功了!这一结果震惊了整个世界。

  “赌博市场被误解”“工党失去了工人阶级的支持”“民意调查被误解”“伦敦错了”“英国政府错了”“代沟冲突”……,我们听到了许多为这个结果的辩解之声。但仔细想一想,英国脱欧的结果又是必然的,因为脱欧的能量早已在大街小巷影响着每个英国公民,并且这种情绪的影响已经悄然地蔓延了很长一段时间,来看一看这些早已传遍的政治讽刺广告就知道了。

  ①卡梅伦:把英国猪肉放在叉子上。许多人大概对英剧《黑镜》中首相与猪交媾的情节记忆犹新。后来人们发现,这种极端的政治讽刺艺术居然有可能是真的:一位与卡梅伦政见不合的保守党成员,写下了一本关于这位首相的传记,爆出了卡梅伦年轻时候的“黑历史”——他在牛津上学的时候居然真的和一头死猪发生了些“不可描述”的事情。无论这件事情是不是真的,恐怕卡梅伦和猪的梗都要被玩上好多年。在这个被恶搞的英国农场广告里,卡梅伦一脸陶醉,旁边是广告语:把英国猪肉放在叉子上。

  ②反人类牌。是什么在2015年杀死了最多的无辜儿童?答案是名为“反人类牌”的桌游广告。在这个恶搞广告中,德高广告位里出现了几张反人类牌,黑色的卡片提出一个问题:“是什么在2015年杀死了最多的无辜儿童?”白色卡片上有三个选项:“不干净的饮用水”“叙利亚难民”“世界领导人投下的炸弹”。哪一个才是最棒的答案?看看广告牌前走过的一个戴着头巾的穆斯林妇女就知道了。这个创意就是要把政治正确扔到一边,发泄对穆斯林移民的不满。

  ③英国人民再也不能和这些××为伍了。近年来英国民众一直对政府削减福利、外来移民涌入造成的就业岗位减少而不满。在这张恶搞广告海报中,“英国人民再也不能……”后面有一个醒目的单词,乍一看是“Cuts”,意思是英国人民再也无法忍受福利和劳动岗位削减了。但单词被撕掉的一个字母却引发了联想,“Cunts”则是一句脏话,意思是英国人民再也不能和这些××为伍了,至于这骂的是政府还是外来移民,就见仁见智了。

  ④竞争对手和猪之间不得不说的那些事。在这个模仿MasterCard的广告中,依次列出了不少产品的价格,如夹克30英镑、衬衫15英镑。而最后一项让卡梅伦中了无数枪——“得知竞争对手和猪之间的肮脏丑闻值多少钱”?答案是“无价”。

  ⑤英国独立党。剑指唐宁街10号,英国独立党是英国的极右翼政党,坚持民族保守主义,一向主张英国退出欧盟。在这张广告中,只有首相官邸唐宁街10号的大门,而这也揭示出他们想要获取政权的野心。

  ⑥“碎裂时间到”。这则薯片广告赤裸裸地揭示出英国的分裂:英国版图形状的薯片正在碎裂,英格兰和苏格兰已经分开,北爱尔兰也不知去向。广告语“大嚼时间到”也能被理解成“碎裂时间到”。

  由此可见,自2013年初,英国首相卡梅伦首次提出脱欧公投这个说法,英国想离开欧盟的心就一直蠢蠢欲动。

  (3)在事件爆发前人们往往假装黑天鹅不存在

  人类的本性不习惯黑天鹅现象,哪怕是黑天鹅事件即将爆发,我们也往往假装黑天鹅现象是不存在的。

  2016年的A股市场,元旦后首个交易日熔断机制华丽登场,可惜市场用脚投票,4天内熔断了4次,蒸发了6万亿元市值,股民人均亏损16万元。熔断机制就像是给市场加了一把雨伞。虽然不能因为第一天打伞就碰上了大雨,就说雨是被伞引过来的。但反过来,也不能因为有了雨伞,就认为不会再下雨了。

  有分析师认为,当时国内的情况是:首先是离岸人民币持续暴跌,其次是对中国经济增长的担忧,以及大股东减持、限售股解禁等造成的资金面压力。在这种情况下,即便没有熔断机制,A股暴跌的概率依然存在。一些私募在早些时间就已经嗅到了风险的味道,逃命为上。而多数股民却在感叹,原本早已做好了逃跑的准备,却因为对熔点机制抱着一点点幻想,连逃命的机会都失去了。这难道不是对黑天鹅赤裸裸的无视吗?

  黑天鹅,有时就像真理掌握在少数人手里一样,它往往会遭致反对或不被接受,然后成为共识。

  (4)黑天鹅也可被称为有预谋的绝对发生事件

  2014年3月8日,载有239人的马航MH370航班在从马来西亚吉隆坡飞往中国北京的途中失联,MH370的机长扎哈里已被锁定为最大“嫌疑人”。

  在失联事件发生前,扎哈里在他个人的Facebook上贴过他为反对党大选帮忙的照片,这并非秘密。在失联事件发生前,纳西尔以及扎哈里的不少同学、友人就已得知扎哈里在2013年加入了反对党人民公正党(People's Justice Party)。而在扎哈里痛苦地跟一名有夫之妇关系破裂后,他向自己的妻子发了一条有关“私事”的短信。这一切发生在马航失联前两天。机长扎哈里与妻子Pardi虽然同住在一个屋檐下,但他们早已感情破裂。

  机长扎哈里曾“秀”过自家搭建的电脑模拟平台,可以看到三个用于展示视景的大屏幕、三块分别模拟驾驶舱前、中央、上操控面板的触控屏和整套飞行模拟设备。这不禁令人生疑——这是真的太热爱飞行,还是要在家里练习一些不便在公司专业模拟器上操作的特殊科目?2016年8月,马来西亚官方首次承认,马来西亚航空公司MH370航班的机长扎哈里·艾哈迈德·沙阿曾在自己家中模拟飞行过与这架客机疑似坠入南印度洋相似的路线。

   

   

   

   

  上图所示,这是机长平时的演练路线与专家推测的现实路线对比。斜线为机长的练习路线,直线是此前推测的MH370失联后的飞行路线。方块是搜索客机残骸的区域。

  马航MH370客机或许是一次有预谋的“独狼行动”,为挑战人类的智慧和搜救能力。而随着MH370更多残骸被发现,证据链更趋完整,最终真相将渐出水面。

  应对黑天鹅事件可以使用小数据

  我们知道小概率事件在一次试验当中几乎是不可能发生的,因此人们会用两种不同的态度对待小概率事件:一种是对待小概率事件不闻不问,另一种则是更愿意承认它的发生。那么哪种方式是面对小概率事件的正确处理方式呢?我的看法是:应对小概率事件可以使用小数据。

  (1)要关注一些有明确定义的不确定性现象

  小概率事件并不是不可能发生的事件。至于小概率事件是否可以忽略,这就要看具体的情况了。比如,任何小概率事件对于航运来说都可能是致命的,所以这种情况下小概率事件绝不能忽略。再如,有些彩民买彩票只盼着中头奖,却没什么要紧的,我认为是可以忽略的。我们要关注一些特定的黑天鹅现象,找出有明确定义的小数据,而不是去关注那些我们根本不会想到的或者我们根本驾驭不了的事情。

  (2)远离大数据,避免“过滤性错误”

  投资人曾星智曾提出:现实世界是一个推崇预测,被统计、归纳和经验所统治的世界。一个被确定性统治的世界,是因为人们认为那才是权威和真理。因此,只要我们陷入其中就容易掉入“黑天鹅”的陷阱。因此要想做一个真正完全地接受了未来充满了不确定性、市场不可预测的人,就必须远离大数据、远离经验,而且拒绝与持有确定性和可预测观点的人交流,拒绝那些依然被统计法和归纳法统治的头脑,以避免犯“过滤性错误”。

  (3)所有的因果关系都是伪装的,必须用小数据重新检验

  真理不是一成不变的。就像“两条直线,不平行,就相交”,这个看似无懈可击的真理,只存在于立体几何出现之前。有时候,科学家经常提出的、历史学家断定的因果关系,也并非就是真理。人类是一个喜欢寻找原因的动物,习惯于认为一切事情都有确定的原因,并且把最明显的那一个当作最终解释。但实际上可能只是我们为了把两件事联系起来而强加的逻辑,我们必须接受我们所熟悉的“原因”的模糊性,不管这让我们曾经感到多么的可靠。所以请对“因果”时刻保持“怀疑”的态度,并小心对待它,坚持用小数据去不断检验它,直到没有任何小概率事件的发生。

  (4)每一次黑天鹅事件,都是一次小数据的积累

  在股市中我们经常听到有人这样安慰我们:“黑天鹅的意外事件是灾难,但也是一次千载难逢的好机会。”其实对于喜欢数据分析的我们,黑天鹅的出现,也让我们采集到了一种全新的数据,并且使我们对自己的经验模型有了重新的认识。而随着越来越多的黑天鹅出现,我们所积累的数据也将成为一种新的经验,帮助我们识别大数据陷阱,从而提升数据应用水平,以应对未来管理失控等问题。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有