* 首页 * 科学人 * 小组 * 问答 * MOOC * 在行 * 科学与生活 * 十五言 * 更多 + 知性 + 果壳精选 + 流言百科 + 任意门 ____________________ 搜索 登录 | 注册 科学人 * 热点 * 前沿 * 评论 * 专访 * 视觉 * 速读 * 谣言粉碎机 * 商业科技 * 学科 评论 互联网 “大数据”时代,什么是数据分析做不了的? 来园的桃子 发表于 2013-02-26 18:54 (文/DAVID BROOKS)不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场,因为经济形势不景气,而且未来很可能出现一场欧元危 机。 这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。 这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定 留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。 做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在 困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。 这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂 情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。 但有,些事情是“大数据”不擅长的,下面我会一一道来: 数据不懂社交。大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合 作的行为,擅长用情绪为事物赋予价值。 计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心 底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台 满魔力的机器,而去相信你办工作上的那台机器。 数据不懂背景。人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了 多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。 数据会制造出更大的“干草垛”。这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就 越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的 “干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。 大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能 找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要 “辩手”因为参考了数据分析而改变立场的。 数据偏爱潮流,忽视杰作。当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始 就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。 数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数 据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。 这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授( Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。” 编译自:《纽约时报》,What Data Cannot Do 文章图片:(小图)computing.co.uk;rwconnect.esomar.org 本文版权属于果壳网(guokr.com),转载请注明出处。商业使用请联系果壳 收藏 | 推荐 (54) 发表评论 你可能感兴趣 * 量化:数字让你漏掉了什么? 量化:数字让你漏掉了什么? * 数据是怎么被压缩的 数据是怎么被压缩的 * 数据告诉你安卓的“碎片化”有多严重 数据告诉你安卓的“碎片化”有多严重 * 数据获取不畅通,中国科学家做研究也受影响 数据获取不畅通,中国科学家做研究也受影响 热门评论 * [48] 2013-02-26 21:04 鲨和尚 叫我心算根号437是什么心态 顶 [5] 评论 * [48] 2013-02-26 21:07 忧伤的尼姑 极度同意。数据就在那里,关键是分析的人想怎么看,想证明什么。数据只会告诉你"你这么想是没有数据支持的",不能告诉你"你想要的是什么" 来自山寨果壳.wp 顶 [3] 评论 显示所有评论 全部评论(106) * [48] 1楼 2013-02-26 19:06 闻菲 语言控ψ 对于最怕遗漏数据的人来说,大数据=大压力 顶 [0] 评论 * [48] 2楼 2013-02-26 20:11 Iamours 抢地板 顶 [0] 评论 * [48] 3楼 2013-02-26 21:04 鲨和尚 叫我心算根号437是什么心态 顶 [5] 评论 * [48] 4楼 2013-02-26 21:04 冰河逍遥 前排 顶 [0] 评论 * [48] 5楼 2013-02-26 21:07 忧伤的尼姑 极度同意。数据就在那里,关键是分析的人想怎么看,想证明什么。数据只会告诉你"你这么想是没有数据支持的",不能告诉你"你想要的是什么" 来自山寨果壳.wp 顶 [3] 评论 * [48] 6楼 2013-02-26 21:18 约翰-Paolo 我不会看文章的! 顶 [0] 评论 * [48] 7楼 2013-02-26 22:58 一颗小行星 嗯。。我也觉得,老是系统分析分析 ,, 什么东西都来调查分析啥的,。 真麻烦。。 顶 [0] 评论 * [48] 8楼 2013-02-26 23:36 布拉德雷祭司的马甲 这些更多的是因为这些没有变成数据吧? 人作为群体,应该是具有可预测性的。 顶 [0] 评论 * [None] 9楼 2013-02-27 03:53 None 引用@美女很少见 的话:如果你只以带来最多的竞你可以做一个随机控制实验。目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经 济刺激手段?人们对此争论不休,尽管来,就我所这些更多的是因为这些没有变成数据吧?人测性的。 顶 [0] 评论 * [48] 10楼 2013-02-27 08:57 叶迎风 好文章。科学与哲学并重 顶 [0] 评论 * [48] 11楼 2013-02-27 09:17 ffjct 把数据分析和情感对立起来,无力吐槽。从广义上来看,大脑也是通过各种感官触觉收集外部数据,然后分析处理的。只是大脑的数据是分子水平的,而 我们现在收集的数据是“人”水平的。虽然不是一个层次的东西,但是两者都是用——“数据分析”。 顶 [1] 评论 * [48] 12楼 2013-02-27 09:38 红花小油 目前的数据确实有很多东西是分析不了的 但这不是数据的错 只是当前的科技让我们只能统计到“不完整的数据” 所以用数据来作分析 那你必须首先明白 目前的客观条件下数据的短板在哪里 假如有一天 我们能够做出足够牛B的系统 把社会 心理 情感因素也做出量化 那个时候的这种“更完整的数据”当然比现在这种“不完整的数据”更具参考价值 顶 [0] 评论 * [48] 13楼 2013-02-27 09:42 大战40毫升 引用@ffjct 的话:把数据分析和情感对立起来,无力吐槽。从广义上来看,大脑也是通过各种感官触觉收集外部数据,然后分析处理的。只是大脑的数据是分子水平的 ,而我们现在收集的数据是“人”水平的。虽然不是一个层次的东西,但是两者都是用——“数据分析”。 终于有个明白人了 顶 [0] 评论 * [48] 14楼 2013-02-27 09:49 qswl1999 引用@红花小油 的话:目前的数据确实有很多东西是分析不了的但这不是数据的错 只是当前的科技让我们只能统计到“不完整的数据”所以用数据来作分析 那你必须首先明白 目前的客观条件下数据的短板在哪里假如有一天 我们能够做出足够牛B的系统 把社会 心理 情感因素也做出量化那个时候的这种“更完整的数据”当然比现在这种“不完整的数据”更具参考价值 赞同。是我们获取、分析数据的能力不够强大,而不是数据分析本身存在什么无法克服的缺陷。若能获取更丰富的数据、建立更好的模型,应该是可以把 社交、背景、价值观、杰作之类的东西合理的反映出来的。 顶 [0] 评论 * [48] 15楼 2013-02-27 10:06 rm_-rf_-_-b 引用@qswl1999 的话:赞同。是我们获取、分析数据的能力不够强大,而不是数据分析本身存在什么无法克服的缺陷。若能获取更丰富的数据、建立更好的模型,应该是可 以把社交、背景、价值观、杰作之类的东西合理的反映出来的。 同赞。 数据分析还是要靠模型,模型建的不好所以得不到有用的数据。 顶 [0] 评论 * [48] 16楼 2013-02-27 10:13 松花鸡腿 如何对待数据也还是人的问题。另外计算机算437的平方根的方法也是人给出的,要么查表,要么猜测逼近,要么空间效率低,要么时间效率低,明白 算法可以很快知道结果是介于20 21之间,至于精度继续猜下去就好了,怎么能由此说明大脑在数学上很差 顶 [0] 评论 * [48] 17楼 2013-02-27 10:37 X_Deus 居然说“即便是一部普普通通的小说,数据分析也无法解释其中的思路。”?? 我相信目前的自然语言分析技术已经可以实现这一点了。。。 人工智能的下一步计划就是实现人类头脑情感的数学模型! 莱特兄弟并不是因为刻意的去模仿鸟类而制造出飞机,相反,他们时深入的研究飞行的本质——空气动力学,而鸟类只不过是这一机制的某个实现实例; 同样,人工智能也不需要刻意的去模仿人类的思维模式,相反,我们要努力探寻一切思维活动的本质,并认识到,人类的思维也只是这一本质的某一实现 实例而已。。。而世间一切事物的本质皆应该由一种信息载体描述出来,以便我们加以分析研究——而我相信,正如毕达哥拉斯所信仰的,世界的本质是 数学。。。。 终有一天,大脑的情感模型会被建立,我们将创造出具有自我意识和情感的虚拟数据网络! 顶 [2] 评论 * [48] 18楼 2013-02-27 10:40 那伽_Mel 引用@鲨和尚 的话:叫我心算根号437是什么心态 =。=不自觉地心算了一次,话说这数挺容易的…… 顶 [0] 评论 * [48] 19楼 2013-02-27 10:44 柳上飞雪 引用@狂咲丿Scarlet 的话:居然说“即便是一部普普通通的小说,数据分析也无法解释其中的思路。”??我相信目前的自然语言分析技术已经可以实现这一点了。。。人工智 能的下一步计划就是实现人类头脑情感的数学模型!莱特兄弟并不是因为刻意的去模仿鸟类而制造出飞机,相反,他们时深入的研究飞行的本质——空气动 力学,而鸟类只不过是这一机制的某个实现实例;同样,人工智能也不需要刻意的去模仿人类的思维模式,相反,我们要努力探寻一切思维活动的本质,并 认识到,人类的思维也只是这一本质的某一实现实例而已。。。而世间一切事物的本质皆应该由一种信息载体描述出来,以便我们加以分析研究——而我相 信,正如毕达哥拉斯所信仰的,世界的本质是数学。。。。终有一天,大脑的情感模型会被建立,我们将创造出具有自我意识和情感的虚拟数据网络! 好像很可怕的样子~~~ 顶 [0] 评论 * [48] 20楼 2013-02-27 10:49 ZJFGYL 引用@忧伤的尼姑 的话:极度同意。数据就在那里,关键是分析的人想怎么看,想证明什么。数据只会告诉你"你这么想是没有数据支持的",不能告诉你"你想要的是什么 "来自 同样一个东西、一个现象,信佛的看到会联想到佛,信基督的看到会联想到上帝。 顶 [0] 评论 * [48] 21楼 2013-02-27 11:01 chelseamata 貌似当当网上有一本书,名字就叫《大数据时代》 顶 [0] 评论 * [48] 22楼 2013-02-27 11:03 斋宅窄寨 这不是黑镜第二季第一集么。 顶 [0] 评论 * [48] 23楼 2013-02-27 11:24 JIK 这就是“数据库是得不出结论”的么。。 顶 [0] 评论 * [48] 24楼 2013-02-27 11:25 FantaKitty 引用@红花小油 的话: 目前的数据确实有很多东西是分析不了的 但这不是数据的错 只是当前的科技让我们只能统计到“不完整的数据” 所以用数据来作分析 那你必须首先明白 目前的客观条件下数据的短板在哪里 假如有一天 我们能够做出足够牛B的系统 把社会 心理 情感因素也做出量化 那个时候的这种“更完整的数据”当然比现在这种“不完整的数据”更具参考价值 连情感都能被量化,这个世界将变得多么可怕。 来自NOKIA Lumia 620 顶 [0] 评论 * [48] 25楼 2013-02-27 12:03 wishpolo 不认同,数据分析的数据必须足够多,足够全面才能得出结论。​文中所举的数据分析做不了的例子,原因都是因为数据不全。 数据大不等于数据全面。 顶 [0] 评论 * [48] 26楼 2013-02-27 12:18 白熊1 这文章要是少点描述多点数据就好了。 顶 [0] 评论 * [48] 27楼 2013-02-27 12:20 迷若可 叫“智慧地球”情何以堪。。。 顶 [0] 评论 * [48] 28楼 2013-02-27 12:23 JoyNeop 引用@松花鸡腿 的话:如何对待数据也还是人的问题。另外计算机算437的平方根的方法也是人给出的,要么查表,要么猜测逼近,要么空间效率低,要么时间效率低, 明白算法可以很快知道结果是介于20 21之间,至于精度继续猜下去就好了,怎么能由此说明大脑在数学上很差 原文意思可能指大脑「按照既定算法执行线性运算」的能力差 顶 [0] 评论 * [48] 29楼 2013-02-27 12:56 X_Deus 引用@柳上飞雪 的话:好像很可怕的样子~~~ 引用@FantaKitty 的话:连情感都能被量化,这个世界将变得多么可怕。来自 有什么好可怕的?我实在是不明白你们有什么好恐惧的。。。。大脑本来就是进化所产生的复杂生物机器—— 一个复杂的信息分析处理网络系统。。。因此,只要有足够精确合理的模型,将大脑量化并建立数学模型分析预测其行为时完全可能的。。。。为什么不 能量化呢?你们以为量化以后就是一个个的数字吗?错了!那是离散化模型,是一种粗略的模型。。。真正完美的模型是连续的,可能会用偏微分方程来 描述,甚至可能是不存在数学表达式的(但是依然可以用算法来描述)。。。。 为什么你们会高兴或者感到幸福?不过是神经递质多巴胺的作用罢了。。。缺乏这些神经递质,轻则患上抑郁症,重则全身肌肉颤抖,帕金森。。。。而 所谓的感情,不过就是一系列的生物化学以及物理反应所组成的有序逻辑连续统。。。。 这就是真相了,而你们感到害怕是因为畏惧真相吗?畏惧接受自己就是一台复杂的生物机器的真相吗?畏惧认识到自己的本质吗?。。。 P.S.有人想在量子力学那神秘的不确定性与纠缠效应中寻找最后的避风港。。。但是,不幸的是,已经有模型指出大脑内部温度过高,不利于长时间 维持电子的量子纠缠态,更不可能形成所谓的泊松爱因斯坦凝聚态——后者被认为是唯一可以用来以科学解释灵魂以及精神的候选者。。。 顶 [0] 评论 * [48] 30楼 2013-02-27 12:58 leo流星雨 引用@那伽_Mel 的话:=。=不自觉地心算了一次,话说这数挺容易的…真的容易,你是多久心算出来的? 顶 [0] 评论 * 1 * 2 * 3 * 4 * 下一页 * 末页 * 首页 * 上一页 * 1/4 * 下一页 * 末页 显示所有评论 你的评论 请 登录 发表评论 来园的桃子 来园的桃子 应用语言学硕士 作者的其他文 * 饮食结构为什么要有名字或者形状? * 你记得你吃了什么吗?(下篇) * 你记得你吃了什么吗?(上篇) * 进食成瘾:填饱肚子还是填饱精神? * 食欲调节:从肠胃到大脑 [ZQkqB0rvqHNVBjPA4QQSM5sstYPtA0T3GnaY_b2vwgqyAAAAsgAAAEpQ.jpg] 更多科研事,扫码早知道 关于我们 加入果壳 媒体报道 帮助中心 果壳活动 免责声明 联系我们 移动版 移动应用 ©2015果壳网 京ICP备09043258号-2 京公网安备1101052730