《数据如何误导了我们》是一本由〔荷〕桑内布劳著作,广东人民出版社出版的平装图书,本书定价:68。00元,页数:208,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。 《数据如何误导了我们》读后感(一):《数据如何误导了我们》:基础小白理解数据的入门指南! 提起大数据你会想到什么?是无数的表格,还是看不懂的编码。我还记得之前和妹妹聊天时,聊到要买一双拖鞋,结果刚聊完没多久,就在某些购物平台上看到拖鞋的一些款式,这就是大数据对我们的影响。之所以聊起这个话题,是以为最近读了《数据如何误导了我们》这本书,这本书的封面十分的简单,就不再一一赘述了,但这本书的提示非常的多,从这些关键词和句子中,我们就能够了解到这本书的一些重点内容,比如这本书的主角:数据,以及它对我们日常生活的影响。而这本书的封面提示语,早就给自己打好了标签:普通人的统计学思维启蒙书,从这句话中我们就得知这本书并不是专门为统计学专业的人准备的,而是面向所有的读者,帮助读者们了解数据对人们日常生活中的作用和影响。在这本《数据如何误导了我们》一书中,总共分为7大章节,其中前6大章节主要普及了数据的用途以及数据的错误使用方法,在后记中作者简单地解释了,如何正确地检验、使用数据以及处理数据。最吸引我的便是第一章中南丁格尔在850页的报告中对数据的处理和归纳,因为在我上学时,确实读过关于南丁格尔的课文,但完全不知道她在数学方面的天赋和优势。在她的报告中,其中彩色表格的表现方法,引起了当局人的意识,改变了军中护理的一些错误方法。当然这只是一例数据正确的使用方法,书中还列举了对于数据的一些错误用法以及不当的收集导致的结果偏差,以及对人们的影响。并且作者建议在人们核对清单时要注意寻找数字的提供者,对数据,如果表示怀疑,那么建议通过网络来查找数据的收集和分析过程,以便推测出这份报表到底适合普罗大众,还是部分群体,进而做出下一部的判断。这本《数据如何误导了我们》大概有180多页,薄薄的一本,每个章节都有或多或少的例子作为结论的支撑,帮助读者梳理数据的使用方法以及带来的影响。这本《数据如何误导了我们》很适合以后准备学统计学的高中书当做入门级读物,也适合对数据分析感兴趣的小伙伴,喜欢这本书的读者建议自己找书来读一读。 《数据如何误导了我们》读后感(二):IQ与GDP就能定义我们的生活吗? 文舒念 人们总是容易被身边的环境所迷惑,所有发生在身边的人和事,都会在长期的积累中成为理所当然的标准,早在《乌合之众》中古斯塔夫勒庞就从心理学的角度向人们揭示了“从众”的隐患,而在《数据如何误导了我们》中,桑内布劳也从统计学的角度揭示了相似的问题,那就是对数据的盲信与盲从,数字虽然是客观的,但它的标准却是主观的,我们又应当以怎样的方式去面对扑面而来的数据,从中获得我们需要的结论呢,这就是这本书想要告诉我们的事。 首先,在我们了解的众多数据中,有一些概念是客观存在的,其数据本身也是客观有效地能够展示客观事实,比如我们了解的统一度量衡下的长度与重量等概念;但有些数据从概念本身就是由人类主观意愿创造的,比起衡量客观事实,它们更接近于一种价值判断,例如BMI、IQ、GDP等,是否IBM指标就决定了一个人的健康程度?IQ就能代表一个人行为处事的能力?GDP就代表了国民经济的发达程度? 当然不是这样,这样的前提是我们将数据作为了唯一准确的衡量指标,然而,数据的存在就是我们在衡量这件事的时候,抛去了所有不能用数字来衡量的因素,这注定是存在片面性的。桑内布劳在书中距离了曾经在军队中进行的智商测试,最后测试的结论是黑人的智力要低于白人,这在如今看来当然是一个令人哗然的结论,但在并不善于处理数据的时代,这个结论却曾经引起了轩然大波,甚至要引发国际政治问题。 其实很明显的事实是,对数据的统计标准与统计方式等等因素都会影响数据的准确定,同时对于统计结果的分析方式也会影响结论的构成,在《数据是如何误导了我们》里,桑内列举了许多相关的案例,并对其中存在固有思维的问题进行了一一分析列举,在对数据案例的实践过程中论证了自己的观点。 除此之外,还有一个重要的数据GDP,GDP指国内生产总值,其数据基础是一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。如今,GDP已经成为国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。但谁有会知道最早提出GDP概念的经济学家西蒙库兹涅茨并不赞成GDP就衡量了经济繁荣情况,因为这其中有太多非国民经济的直接因素参与其中,而且另外一些能够代表经济繁荣程度的非数据指标被排除在外,这些都导致了数据所代表的定义并非同我们想象的一样。 有时候并不是数据出错了,而是我们分析理解数据的方式出现了问题,所以数据才会将我们带到一个未知之地。有时,一个数据的分量太大,也会影响我们对它的认识,就如同古德哈特定律所说:如果一项指标一旦变成了目标,它将不再是个好指标。这些都会改变数据本身的客观性。 尤其是在大数据时代,我们更要理性地面对纷繁复杂的分析数据,这些数据一定会改变我们对事情的决策,但它们并不一定就是那个正确答案,读完这本书,更应该认识到在众多数据背后,我们仍旧通过自己的感受生活的普通人,有时候能用语言描述的部分在我们的生活中更加重要。 《数据如何误导了我们》读后感(三):《数据如何误导了我们》:擦亮眼睛,正视身边那些耸人听闻的数据 在我们研究数据如何误导了我们之前,我们先看一下下面的这一个关于数据的问题。如果某种疾病的发病率为千分之一,现在有一种试纸,他在患者得病的情况下,有99的准确率判断患者得病;在患者没得病的情况下,有5的可能误判患者得病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?这是典型的数据分析题,也是我们现实生活中经常遇到的问题,毕竟这些比例都是我们现实中存在的,而且任何事情也都有一定的比例出现意外。医院会出现误诊的情况,很多情况下真的不一定是医院人为的错误,就可能是在数据中必然会出现的,怎样避免这些数据的误差也是很多机关的难题。还是说上面的案例,很多人看到的是:试纸有99正确率,想当然的认为,只有试纸显示患病,那患病的概率就是99,但其实呢?他真正患病的概率只有1。94,是不是非常意外,为什么这样呢?这是怎样计算出来的呢?我会在文章最后解答。从这个数据的计算中我们看到一种现象,在我们现实生活中,数据是如此的不可靠。这还仅仅是我们自己的想当然,如果这些数据被别有用心的人使用,那就更加扑朔迷离了。荷兰数据分析师桑内布劳长期致力于数据研究,揭示我们现实生活中关于数字的各种陷阱,他写了这样一本书:《数据如何误导了我们》,具体分析我们现实中数据世界的误导。看似客观冷静的数据,在我们现实的分析下,会有着千差万别的差异。当然数据研究者不一定有着人为的倾向性,但任何研究人员都有自身生长环境的氛围,对于数据解读必然有着自己的风格。 在数据分析界,最为人们诟病的可能就是心理学家罗伯特耶基斯关于智商的研究,他得出的结论就是黑人的智商要比白人低,因此也以次提出了优生学来提高人口素质。但现实情况是这样吗?当然,如果只看数据,只看当时黑人和白人的平均智商,结论是这样的。可是这些数据分析出现了什么问题呢?先不说所有的智商都呈正态分布,必然有部分的白人比大多数黑人智商低的情况。就是关于智商的测试题目的设计,也会有着不公平的情况。从现在的研究就可以看出,智商测试题目是偏重于推理的,因此对于思维的训练一定能有效提高智商测量水平,这也就是现代人的智商要比一百年前高很多的原因。现在考虑下黑人和白人的生存环境和受教育程度,在应用推理思维上的差异,在美国,这两者的差异极为明显,黑人都是远远低于白人的,这样测量出来的数据有明显差异也就再正常不过了。不考虑这些影响因素的情况下,得出错误结论也就不可避免。 这样的案例在我们现实生活中比比皆是,对于抽烟有害的研究,一直都在别有用心人的掌控下。而面对着利益冲突,这种情况一定还会再现实中一直存在着,比如对于网络应用的研究,比如对于娱乐生活的研究,等等,这也是我们要警惕的存在。 虽然数据有着如此多的误导行为,但我们还必须要面对这些数据。我们唯一能做的就是擦亮自己的眼睛,掌握更多对于数据分析的方法,有着一个不偏听偏信的强大心理。作者在最后给出了面对数据分析,我们应该有的态度:数据是谁提供的?我们对这些数据有什么感觉?数据是如何标准化的?如何采集的?如何分析的?如何呈现的?最为重要的就是,面对这些数据,我们要以自己的思考为前提,自我分析为准备,用怀疑的心态,让数据为我所用,而不是被数据误导。前面数据分析题答案:我们假设全部人口100000人。根据0。1的患病率患病人数:1000000。1100未患病人数:99900根据5误诊率,全员检测。未患病者检测患病人数:9990054995患病者检测患病人数:100(10。5)99现在可以看出,这10000人中,真正患病被检测出来的数据为99人,而全部被检测到的患病人数为4995995094而被检测到真正患病的概率就为:9950941001。94 《数据如何误导了我们》读后感(四):一本书教会你在大数据时代如何防坑! 数据是客观的,理性的,冷漠的,单一的,是多少就是多少。并不会因为外界的力量而进行改变。但随着互联网的发展,人工智能的不断普及,核心算法大数据在不断的窥探我们的生活,我们的衣食住行都受到了监视。这本《数据如何误导了我们》从专业的角度出发,让每一位读者了解数据,走进数据,掌握数据背后的神秘算法,更为我们送上了一份贴心备至的大数据时代防坑指南! 一、你从未见识过的数据运用“鬼才”逻辑!世界上有三种谎言:谎言,该死的谎言和统计数据。在书中的第三章节统计中常见的基本错误中作者借用美国大选的案例和抽样5300名男性进行下论断的《人类男性性行为》一时间,强烈抨击了数据抽样的不准确性。细想一下,5300名被抽样调查的男性何以见得就能代表整个国家的男性呢?进行抽样的5300名男性如何确保样本的科学性呢?这5300名男性又是如何被筛选被确立的呢?这些问题都没有一个官方的解释,所以在此依据下,尽管这份《人类男性性行为》的报告销量很好,但最后依旧被拉下了神坛。 随着质疑与批判的声音越来越多,专家学者纷纷将注意力转移到这份报告上来,有三名专业的统计学家对于这份报告的撰写者追问。其实,借由这两个事件我们不难发现,统计自然有它科学合理的作用但是作为一份权威性及涉及范围面很广的事情时应该更加严谨更加富有专业代表性。 这一事件也启示我们在进行抽样调查时选择抽样数据一定要具有较强的说服力和代表性,更要进行合理科学的数据推测。二、你被大数据杀熟了吗?自古以来,生意人都暗含两条路径,“欺生”或”杀熟”。现如今,进入到互联网时代,伴随着获客成本的不断提高,商家们为了巩固自己的利益,借由大数据杀熟的现象越来越普遍。就以书中的珍妮弗为例,尽管她拥有生意较好的摊位,但是珍妮弗手中没有余钱,这对她来说是一个十分大的隐患。因为这就意味着她一旦生病或遭遇其它变故她将无法扭转自己当下的财务情况,借款也很难。因为当地的银行贷款是根据数据核算及评价来进行发放的。这在贷款资质审核中就存在了很多不确定因素,因为我们不知道银行确切的标准究竟是什么,所以说珍妮弗很难在银行借到钱。 同理,放到我们自己身上,我们会发现在同一时间使用不同手机进行团购或者预定酒店的推荐或者价钱都是不一样的。我们更会发现,大数据会根据你使用的手机昂贵程度进行推荐,一般情况下,手机越贵,推荐的服务越贵。2019年3月,网友“陈利人”爆料称,自己在携程旅行网购买机票,原本总价17548元,因为漏选报销凭证返回重新操作,但再次支付时发现无票,其他航班则高出1500元。 2020年12月,网友“漂移神夫”发文称美团会员是“割韭菜”,同一家外卖,同一个配送位置,同一个下单时间节点,在开通会员后配送费竟然比非会员更高。 2021年3月,复旦大学一名教授通过在多个城市、多个网约车平台实地调研,发布《2020打车软件出行状态调研报告》,报告指出苹果手机用户更容易被更贵的车型接单,非苹果手机用户,则手机价位越高越容易被更贵的车型接单。此外,苹果手机用户的优惠力度明显低于非苹果手机用户。 上述三起案例,反映了不同的大数据杀熟目标用户,分别是老用户、活跃用户、会员用户和使用更贵操作设备的用户。除此之外,还有一种比较隐蔽的大数据杀熟方式,那就是根据用户的定位“下杀手”,比如你附近的商场较少,或者你住在房价较高的区域,平台给到你的价格可能较高。所以,平台们想方设法获取消费者的信息,给消费者做画像,然后利用信息优势,个性化杀熟。但十分遗憾的是,截至目前,没有一家互联网公司敢于承认自己杀熟! 文中所有图片来源Gritwing 综合来讲面对大数据杀熟,我们已经看到国家重拳出击进行管理,我们更期待,互联网能够多一份净土,我们不再成为被割的韭菜! 《数据如何误导了我们》读后感(五):《数据如何误导了我们》:数字只是我们理解现实的一种工具而非事实 《数据如何误导了我们:普通人的统计学思维启蒙书》:〔荷〕桑内布劳冯皓珺广东人民出版社2021768。00元 文丨云海 格罗夫纳(CharlesGrosvenor)曾经说过:“数字不会说谎,但说谎的人会玩弄数字。”大数据时代,数据在我们的日常生活中几乎无处不在。然而,诸如美国多次民调的预测与最终总统选举结果相左的事实一再提醒我们,数据在看起来准确、清晰、客观的表象下面,真实的情况往往可能是大相径庭的。 荷兰计量经济学家、数据分析记者桑内布劳(SanneBlauw)在《数据如何误导了我们:普通人的统计学思维启蒙书》一书中就指出,许多数据根本没有表面上看起来那样客观公正,反而常常是被人有意操纵来误导我们。 人们大规模使用数据的历史,始于19世纪,南丁格尔就是世界上最早用图表显示数据变化的人之一。得益于数字标准化、大规模数据采集和数据分析这三个重要发展阶段,南丁格尔等人才能够在数字风潮兴起的时代,体验到数据客观、有说服力的好处。 然而,数字标准化、大规模数据采集、数据分析这三个至关重要的步骤,并不总能被永远正确地执行。一旦出错,往往就会导致严重的错误,这是数字的坏处。作者用智力测试的案例,向我们展示了数字的局限性:数字背后隐含着人们的价值判断;并非所有事物都能被量化;衡量同一件事的方法有许多种;有很多事情数字并不会告诉我们。 我们测量一个人的智力水平时,需要借用智商这个抽象的概念。为了测量智商,首先需要对它进行标准化,也就是需要研究者去选择一些测量智商的指标。这样操作的后果是,测量得出的数字可能是客观的,但在标准化背后的人为决定,则往往带有主观色彩,导致测量出来的结果与客观真实情况可能相距甚远。 其中的原因之一是,人们可以采取各种不同的方法或口径来测量同一个概念。比如,联合国粮食及农业组织(FAO)曾将“饥饿”定义为:一个人在一年内摄取的卡路里过少,即为营养不良。2012年,FAO又提出了另外一种定义的饥饿的计算模式,最后得出的数据也不一样。这就造成了一种现象,全球饥饿人数在不同的情况下,可能出现增长或减少两种截然不同的结果。也就是说,“饥饿”的情况如何,很大程度上取决于你如何定义“饥饿”。 同样的情况也出现在智商的例子里。在过去几十年里,智力测试的内容每隔一段时间就会更新一次。这就出现了一个令人惊讶的结论:人类的智商在19世纪是逐渐升高的。而这个结论的荒谬之处在于,如果用当前的衡量标准重新计算,那么,前几代人的得分都在70分附近,而这个数值意味着智障。 同时,作者还在书中反复强调,之所以不要盲信数字,还因为如何解释数字背后的意义,取决于数字使用者的理念或需求。2017年,烟草巨头菲莫公司曾宣布每年向一个名为“无烟世界”的基金会捐资8000万美元,由于烟草业与公共卫生之间存在的根本利益冲突,此举引起了世界卫生组织的强烈反应。因此,作者提醒我们,数字不等同于事实,数字只是我们理解现实的一种工具。 那么,我们应该如何解读数字,才能避免被数据误导呢?作者在揭示获取数字的调查统计过程中可能犯的6个关键错误(第三章)后,提供了几个鉴别数据是否可信的方法:(1)问问自己:”对于这个数字,我的感受是什么?“,因为那些容易引起人们有所感触的数据更容易被滥用。(2)多动一下鼠标,继续深入调查。(3)接受数字的不确定性,数字只能显示一个大致的轮廓,那些固守信念的人永远不会接受新的信息,也不是好奇心很重的人。(4)警惕数字背后的利益冲突,先弄清楚,这份数据是谁提供的?数据的结果与此人存在利益关联吗? 值得关注的是,为了更好地帮助读者识别新闻中的数字正确与否,书中最后一章还提供了一份包含6个问题的核对清单,提升了该书的实操性,可以说是全书内容浓缩的精华。 《数据如何误导了我们》读后感(六):统计数字会说谎 每天我们都在和数字打交道,走路的步数、购物的金额、考试的分数、体重的变化等等,这些数字可以反映出很多信息,但是这些数字也可能会误导我们。如何将这些数字摆到一个正确的位置上,了解我们所看到的数字传递出的信息到底是真是假对我们而言是一个很重要的话题。《数据如何误导我们》就是这样一本帮助我们更好地认识数字、认识统计学的一本趣书。 书影 作者桑內。布劳生于1986年,是荷兰计量经济学者,数据分析记者,拥有博士学位,长期致力于数据研究,揭示数字对生活的影响,试图矫正人们对数据的偏见。 SanneBlauw 本书以作者在玻利维亚的亲身经历为引,即使拿着同样一份调查问卷,只要观点或出发点不同,都有可能得出不同的结论。数字本应该是客观的,但又深受主观的影响。但数字本身是无辜的,犯错的是数字背后的人。 在本书的第一章,介绍了大数据分析的先驱:南丁格尔。为了为受伤的士兵们争取权益,南丁格尔使用了数字作为向当权者证明改善卫生重要性的利器。形象地举出“相当于每年把1100个人带到索尔兹伯里平原上枪毙掉”的例子,将两幅重要的示意图让死亡情况一目了然。深刻地影响了世界。而这都依赖着数字标准化、大规模数据采集和数据分析的方法。所需要克服的是直觉、认知偏差和利益关联这三重障碍。 南丁格尔的数据图 其后几个章节,布劳还介绍了肤色和智商是否相关、统计中常见的基本错误、数据可以是骗人的鬼才、大数据被滥用、心态决定数据价值等内容,值得一提的就是在美国大选中统计的误用。其中最典型的一个例子就是1948年美国总统选举,“杜威击败了杜鲁门”的报纸头版。而当选总统杜鲁门拿着这张报纸更是极端的讽刺。之前的民调几乎是一边倒地看好杜威胜选,显然那些人预测错了。民意调查是通过测量样本来得出结果的。而研究样本并不一定代表全部,金赛的研究样本就被证明存在相当严重的以偏概全现象。在某种意义上,他的研究实际上是披着各式图表和表格的科学外衣的行动主义。有时候的所谓民调也是如此。此外,在第五章提到了蚂蚁金服的例子,使得这本原著出版于2018年的书籍更加贴近中国读者。 杜鲁门拿着杜威当选的报纸 东京奥运会在今晚落下帷幕,在现实中发生的事情也刚好验证了这本书的观点。数据是如何被利用的。尽管在最后一天美国以39枚金牌41枚银牌33枚铜牌总计113枚奖牌超越中国的38金32银18铜总计88枚奖牌,但是在前几天美国金牌数落后中国金牌数的时候,《纽约时报》(NYT)等部分媒体上,使用的都是优先计算总奖牌数的排列方式。而这种排序方式,至少NYT在2016年里约奥运会时并没有被采用。当时,美国在奥运金牌数和总奖牌数上,都是第一。而国际奥委会的奖牌榜是按金牌数排序的。同样的数字,这种不同的排序方法,验证了只要观点或出发点不同,都有可能得出不同的结论。 2021年NYT排序 2016年NYT排序 2021年IOC排序 PS:文中所涉及图片均来自互联网,如有侵权,即行删除。 《数据如何误导了我们》读后感(七):被大数据控制的我需要了解的一些小常识 1、【数字决定着世界的面貌】小到吃喝拉撒大到国家选举,人们对数字的包容度比对文字大得多,看似客观的数字也存在被滥用和误导的现象。 2、【南丁格尔】她不仅是悉心呵护伤病的“守护天使”,还运用数据分析记录了军中护理工作出现的问题,并制作成图表,汇报给当局改善了当时的护理条件。 3、【人类历史上第一个文本】是无聊至极的财经文件,记录各种税务、债务及财产所有权。 4、【数字后面的单位】跟语言一样,各个地方都有自己当地的常用计量单位,但为了便于沟通,现在世界上几乎都采用国际单位制。法国大革命的革命党人提出了公制单位,也就是现在我们常用的公里、公斤。让数字标准化是一种进步的体现,也为大规模的数据采集提供了可能。 5、【数据背后的意义】人类开始用数据创造出合理的科学模型来评估自己BMI指数,用比利时的“统计学奠基人”阿道夫凯特勒提出。 6、【推行运用数据】的过程中,需要打败以往经验主义、改变人们在认知上的偏差、以及挑战某些机构的权益。 7、【数字占据生活中主导地位的原因】一、与更容易染上主观色彩的文字不同,数字更中立地反映着事实的真相(至少看上去是这样);二、正因为数字较为客观、更具有可信度的特性,有助于当权者管控国家。 8、【数据的漏洞】数字使用的三个步骤中,标准化、采集、分析有一个出现错误,就会导致截然不同的后果。 9、【智力测试】无法反映人智商的真实水平,数据的来源、平均值的局限性、对智力的定义等各种因素无法完全涵盖在一份智力测试中。 10、【平均值最不靠谱】要是比尔盖茨上了一辆公交车,那车上的乘客平均每人都是百万富翁。因此,人们采用中位数的概念,来避免异常值造成的影响。 11、【很多被评估的项目都是人造词条】例如“经济繁荣程度”、“受教育水平”、GDP等,这些并不是与生俱来、客观存在的,是人们创造的概念,但却实实在在影响着我们今天的生活。 12、【GDP并不客观】一、数字充满不确定性;二、价值判断影响测量标准;三、被用于政治决策的工具。 13、【计算的局限性】并不是每一件有意义的事情,都能被计算出来;也不是每一件能被计算出来的事情,都是有意义的。 14、【方法比数字更重要】如果一项指标变成了目标,就不再是一个好指标。实际解决问题的方法,比一味追求数字上的指标重要得多。 15、【总结成一个数字】因为一、一个数字一目了然,方便理解;二、比复杂的多方面数据更能吸引人关注,也更具有煽动性。但往往让人忽视了一个数字背后诸多维度的成因。 16、【排名真的有用吗?】一、人为篡改评分影响排名;二、衡量标准不同影响排名;三、许多无法测量的维度不可能体现在排名上。 17、【直觉影响数字】数据采集者的直觉判断影响了数据的最终结论,如何解释数字背后的意义取决于他们的理念和需求,包含了很多主观的偏见。 18、【数字无法反映现实】数字背后隐藏着不同人群的价值判断,并非所有事情都可以被量化,这只是我们理解现实的一种工具,需要人们在看到数字后继续提问并思索下去。 19、【调查过程影响数据】一、方式不对、问题不妥,压迫性的环境或引导性的提问会诱导受访者答出已经设想好的答案;二、采集样本具有针对性,导致最终的结果缺乏普遍意义;三、样本规模太小,容易产生极端结果。 20、【随机抽样的局限性】一、人群的认知偏差导致无法涵盖所有的影响因素;二、并不是每个被随机到的人都愿意参与,而愿意参与的人与不愿意参与的人群影响因素截然不同,继而影响了最终的结论,三、存在很多不确定性 21、【用数字说慌】人们常常混淆相关性和因果关系,尤其是在健康新闻里那些吸引眼球的消息,简单地将两个相关的因素总结成“只要就”的因果关系。 22、【伪因果关系】一、偶然事件,如果样本足够多、搜寻的时间足够长,一定会有刚好存在相关性的偶然因素;二、缺少因素,两个事物直接的关系有多种因素组成,缺少一个因素的数据报告不但左右了事件的“起因”,而且造成误导的结果;三、相反关联,一个事件的起因和结果有可能是模糊的,例如体重下降导致不健康还是不健康导致体重下降。所以,相关性不代表有因果关系。 23、【狡猾的烟草业】一、营销:越禁止越诱人;二、不断发布模棱两可的数据报告,既表现在“吸烟与健康”上的研究没有停止,却又从未找到有害健康的凭证,让人们对吸烟的后果犹豫不决。 24、【注意横纵坐标!】尽管数据无误,但坐标刻度严重影响图表呈现的结果,会产生误导性的后果! 25、【道德对研究的限制】要研究一项有害健康的事物,采用人体试验是极不道德的,然而动物实验的结果却无法在人类身上得到完全一致的印证,所以这项研究永远得不到一个确切的结论,这也是烟草业研究健康关系的狡猾之处。 26、【保持怀疑!】怀疑是科学的核心,科学家不断质疑所处时代的教条,才让人类的知识边界一直扩大。 27、【利用怀疑!】烟草业正是为了自身利益,利用怀疑让人们远离真相,这是企业们惯用的伎俩《贩卖怀疑的商人》不断质疑已经论证的结果,为自己的产品创造收益。 28、【滥用大数据】大数据收集人类爱好、习惯、生活方式等所有行为,进行评估和计算,从而获得越来越多的权力,大数据的算法霸权。 29、【抽象概念不可信!】对个人行为的评估和预测,往往建立在有缺陷的数据基础上,计分的数字与现实是两码事。 30、【大数据来源有问题!】常常在本人毫不知情的情况下,泄露了自己的信息,将自己的命运交到算法手里。 31、【大数据给你贴标签!】大数据不断给人贴上各种各样的标签,将人分门别类的方式并不客观,暗藏着对群体的偏见。 32、【数字取代现实】盲目相信数字只会人世界偏离正常轨道,数字即是世界形态产生的结果,也是导致其形态的原因,数字被使用得越广泛深入,越将改变世界。 33、【目的很重要!!!】任何算法都伴随道德上的选择,取决于人们使用它的方式,不可能是客观的。YouTube为了利用广告赚钱,引导让人长时间观看视频,而忽略了内容的质量。 34、【数字被偏见影响】研究人员有意识或无意识的偏见和理念,影响了对数字的使用,大脑会不惜一切代价捍卫已有的信念,从而只关注自己感兴趣的部分,影响对数字的判断和解读。 35、【了解更多!】不要只读与你契合的内容,多了解与你背道而驰的东西。 36、【谨慎对待不确定性的数据】不确定的数据能帮助我们更好地了解世界,但我们要谨慎看待。 37、【警惕数据背后的利益冲突】了解数据有谁提供?数据的结果与此人存在利益关联吗? 38、【正确使用数据】一、用更多的概念和标准去衡量事物;二、更多的民意调查;三、重复研究不断更新过去的结论;四、减少数字在生活中的使用;五、减少对绩效指标的权重;六、弄清楚数字背后隐藏的内容很重要。 39、【如何看待数据】一、了解数字有谁提供;二、体会看到数字的直觉;三、仔细掂量一个标准化的数字,试试找更多的衡量标准;四、数据如何采集的;五、数据是如何分析的;六、数据呈现的方式:平均值无效、精确数字具有欺骗性、排名不确定、百分比是什么的百分比、图表的刻度等。 数据的运用由最初的理想化状态,到一步一步打败各种经验主义的挑战,一直发展到现在已经足以完全控制人类生活,构造一个“计分板社会”。 《数据如何误导了我们》读后感(八):别被数据误导了 在大数据时代,几乎无处不在的数据,小能反映成绩、体重、天气,大能影响经济、左右舆情、危及社会。而事实是,许多数据根本没有表面上看起来那样客观、公正,反而常常是被人有意操纵,来误导我们。 荷兰计量经济学家、数据分析记者桑内布劳在新书《数据如何误导了我们》中,向我们揭示日常生活中的数据偏见,教我们如何不再盲信数字,练就大数据时代人人必修的“避坑大法”。 关于数字对我们的影响体验最深刻的,大概是学生时代的每一次考试成绩以及成年后的工资数目吧。不管是成绩,还是长大后的薪资数目,甚至都能决定一段时间里我们的喜怒哀乐。 可是如果我们看见的数字是不真实的,我们的人生会不会也在往一种更加糟糕错乱的方向前进呢? 很多时候,任何数据都不足以衡量我们的付出与价值。更关键的是,我们很可能完全意识不到自己正在被数据推着走,而这些数据实际上错得离谱。数字本身是中立的,客观的,但数据背后的人却是复杂的,因为直觉,认知偏差或者利益相关等原因。 我们经常会用平均值来表示整体在某个方面的表现,比如班级里某一次考试的平均成绩,但使用平均值也会有很多的局限性。我们需要意识到这方面的误差,一个有趣的笑话可以提醒我们这一点 作者提到了一个概念“物化”,意思是人们创造了一些概念,然后自己却忘记了这是人为创造出来的,反而相信它一直存在于社会之中。 智商测试能在多大的程度上判断一个人的智力呢?实际上更加严谨的说,那个成绩只能从某种程度上代表我们的抽象思考能力(因为大多数测试题是以抽象思考题为主的)。或者更直接地说,我们的成绩越来越好并不是因为我们变聪明了,只是因为我们做那些题更加熟练了。 “古德哈特定律”表示,“如果一项指标一旦变成了目标,它将不再是个好指标了。”言下之意是数字是可以被人操纵的,比如在数据上作弊,或者调整自己的行为达成某些指标。当有些人觉得一个数字看起来就足以认清事实了,多余的那些数字就可以被抛诸脑后了。 必须承认在数字的背后,其实可能还有很多信息没有展现出来。过分地相信你所看见的数字,可能会让你停止深入思考,从而错过真相。 人们还常常混淆相关性和因果关系这两个概念。由于两个事物之间存在着某种联系,人们便会自动认为是其中的一件事导致了另一件事。存在三种类型的“伪因果关系” 1,只是一个偶然事件。据研究表明,有诸多食材在相关的癌症研究当中得出过完全矛盾的结论,不管是西红柿、茶叶,还是咖啡、牛肉,皆是如此。 如果你同时知道了这些互相矛盾的实验,还能轻易说到底哪个一定正确吗?科学论文领域也有一种扭曲的风气研究人员希望在期刊上发表论文,所以就得想方设法地从数据中找到事物之间某种确切的关联,从而(故意)犯了这个错误。 2,两件事物之间还缺少一个因素,这个因素既可以左右“起因”,又能对“结果”造成影响。 3,关联(也可能)是反着的。比如体重下降并不一定是导致人不健康的原因,也有可能是人生病之后才导致的体重下降。 不过,“让数字决定自己的生活”的设想其实很危险。算法只是人们为了达到某个特定的目标所采取的几个步骤而已,它们随时可能出现错误。 毋庸置疑的是,算法是一把双刃剑,它永远都不可能是客观的,它更多的关乎一种道德的选择,取决于要编制算法的人想通过算法实现什么。 最后,希望我们都能够明白不要认为数字能精准地反映现实,数字应该是像透过磨砂玻璃看东西一样:你可以看到一个大致的轮廓,但永远都无法完全看清楚。 《数据如何误导了我们》读后感(九):大数据时代下的避坑指南 数字决定着世界的面貌 《数据如何误导了我们》封面图LizVan 愚蠢的数据 第一次看统计学。没想到自己也被“坑”了许多年。 举例来说,我所在的城市每年都喜欢发一篇所谓“当年平均工资”的文章,每次当我看到标题上动辄1万左右的数字都悲愤交加,当然有着跟我同样心态的人不乏少数,评论里网友们怨声载道,哀怨地诉说着自己拖了城市的后腿。我几乎每年都会被这件事糟心一次,却又总觉得现实也许不一定如此,但作者言之凿凿地宣布数据出自官方统计局,是非常正经客观的数据。 我真的差点儿就信了。直到前几天读了桑内布劳《数据如何误导了我们》这本书,才发现自己走入了数字陷阱被它欺骗了。 这里作者用了统计学里一则古老的笑话就说明了问题:要是比尔盖茨上了一辆公交车,那么车上的每位乘客平均下来就都是百万富翁了。 这就是关于平均值最需要值得关注的一点:测量过程的异常值可能会对结果带来极大的影响。 所以,以后各位在看到“平均工资”这种统计结论,就可以一笑置之了。 被智商测试侮辱了智商 智商智力 在1904年的以前,法国心理学家阿尔弗雷德比奈用一种已使用多年的方法测量智力:量颅骨的大小。但当比奈开始用卷尺量学生们的头围时,他才发现成绩好的学生和成绩差的学生之间,颅骨大小的差异极其微小。现在的我们看来,这简直是胡说八道的狗屁理论,然而要知道以前的人们确实是这么认为的。于是,比奈于1904年在学生的帮助下制作了一份测试题,测试题里面问题的难度逐渐加强。学生能回答到哪一题就对应了他的心智年龄是多少。这就是比奈第一份智力测试的原理。 不久之后,心理学家(怎么又是心理学家?!)威廉斯特恩创造出了“智商”(IQ)一词,即一个人的心智年龄除以其实际年龄等于他的智商。 到了2007年,专门研究人工智能的沙恩莱格和马库斯胡尔特收集到了超过70条对智力的不同描述,然后提炼出了一条包含所有内容的描述:“智力是衡量一个人或事物在各种情况下达成目标的能力。” 这句话是肉眼可见的模糊难辨。作者举例,按照这种说法,如果一个人在不被其他人发现的情况下下,半夜偷偷地潜入一栋房子,然后从冰箱中偷走一瓶酒,那就可以说这个人是聪明的。当然,在智力测试里你是不会轻易碰到这种题目的。 以当下最流行的韦氏智力测试为例,题目涉及词汇量、数字序列和空间洞察力这些和抽象思维相关的内容。 然而我们不要忘记了,智力测试题从初期发展至今,设计智商测试题的人并不是代表了大多数人,也不是代表了少数人,更不是护士、木匠或销售员,而是像比奈这样受过西方高等教育,同时又痴迷于数字的人。在他们设计的测试题中,他们才不管你照顾病人、造出一张桌子或是与人打交道的能力有多强,这些都不重要。 所以我们有理由充分质疑智商背后的数字是否真的可以成为一个人的智力水平,仅仅凭借一个数字,就选择是否雇佣一个人,这实在是有失公允。 作为一名计量经济学家,同时又身兼数据分析记者的桑内布劳在书中以大量的历史实例为切口,从南丁格尔用大数据来挽救生命,到美国烟草业报告造假,再到欧盟公投中的票数摇摆,揭示了日常生活中的数据偏见。对没有统计学概念的普通人来说是非常友好了,看得过程也是有趣又启发思考。作为一本基础统计学入门来说,充分激发了读者极大的兴趣和好奇心。 而关于数据究竟如何误导了我们,也可以简单地总结为直觉、认知偏差和利益关联改变了客观存在,操纵了政治生活,误导了我们每一次的抉择。 看完这本书之后,简直想要质疑这个世界上所有的数据,然而数字本身和文字一样是无辜的,犯错的是数字背后的人。细心的桑内布劳在将要面对数据时给出的建议是: 1、这个数字是由谁提供的? 2、我对这个数字有什么感觉? 3、人们是如何将它标准化的? 4、数据是如何被采集的? 5、数据是如何被分析的? 6、数据是如何呈现的? 每一次在对自己熟悉或不熟悉的领域,我们都该首先在摈弃个人情绪的前提下,再多点一下鼠标,然后去拥抱不确定性,最后警惕数据其中的利益冲突,那么距离真相就是真的进了一步,而作者在本书想要表达的初衷也算是实现了。顺便再感谢一下最后的推荐阅读。 1。《统计数字会说谎》(DarrellHuff,Howtoliewithstatistics) 2。《数字是靠不住的》(CharlesSeife,Proofiness) 3。《魔鬼数学》(JordanEllenberg,HowNottoBeWrong) 4。《国家的视角》(JamesC。Scott,SeeingLikeaState) 5。《人类简史》(YuvalNoahHarari,Sapiens) 6。《人类的误测》(StephenJayGould,ThMismeasureofMan) 7。《极简GDP史》(DianeCoyle,ABriefButAffectionateHistory) 8。《平均美国人》(SarahIgo,TheAveragedAmerican) 9。《数字化的性别》(DavidSpiegelhalter,SexbyNumbers) 10。《贩卖怀疑的商人》(NaomiOreskes,ErikConway,MerchantsofDoubt) 11。《算法霸权》(CathyONeil,WeaponsofMathDestruction) 12。《你的确需要隐藏些什么》(MauritsMartijn,DimitriTokmetzis,Jehebtwlietsteverbergen) 13。《思考,快与慢》(DanielKahneman,ThinkingFastandSlow) 14。《超预测》(PhilipTetlock,DanGardner,Superforecasting) 15。《一个人的医学》(ArchibaldCochrane,MaxBlythe,OneMsMedicine) 16。《弗洛伦斯南丁格尔》(MarkBostridge,FlorenceNightingale) 17。《阿尔弗雷德查尔斯金赛》(JamesJones,AlfredC。Kinsey)