关闭→
当前位置:中文知识站>书籍语录>《统计数字会撒谎》经典语录

《统计数字会撒谎》经典语录

中文知识站 人气:2.49W

经典语录

事实往往在所见所闻之外。平均数、作用关系、趋势和图表总是与看上去的不一致。虽然经验告诉我们"眼见为实",但眼睛告诉我们的"真相"或许隐瞒了部分事实,或许夸大了事实。

《统计数字会撒谎》经典语录

一些反对*调查的最强烈的情绪来自于自由主义者或是左翼集团,他们普遍认为这些调查都是人为*纵的。这种观点背后的事实是:*调查结果经常与那些思想开放人士的观点和意愿不相符合。他们指出,*调查的结果选择了共和党人,但不久之后选票者却做出了相反的选择。但实际上,正如我们前面所看到的,*调查并不一定是*纵了,也就是说,并不一定要为了制造假象而恶意扭曲结果。样本有偏的趋势本身就可以自动地*纵结果,使其变得扭曲。

随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本?纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在*调查和市场研究等领域中得到了广泛的应用。

所以,当你被告知某个数是平均数时,除非能说出它的具体种类--均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。

统计这种神秘的语言,在一个靠事实说话的社会里是如此地吸引眼球,但有时它却被人利用,并成为恶意夸大或简化事实、迷惑他人的工具。在报告社会经济趋势、商业状况、*调查和普查的大量数据时,统计方法或者统计术语是必不可少的。但如果作者不能正确理解并恰当地使用这些统计语言,而读者又并不能真正了解这些术语的含义,那么,统计结果只能是废话一堆。

一位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义,我们来看看这个医生的样本,也就是说,他观察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如果一个人心理健全,他是永远都不会接受心理医生的治疗的。

我们可以定量地衡量你的样本能以多大的精度代表总体,那就是:可能误差和标准误差。

我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在,让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许多人已经消失在茫茫人海中。

一般而言,*调查都带有一定方向的误差。就像前文所举《文学文摘》例子的偏差一样,如果对此表示怀疑,你还可以找到许多恰当的例子来*。在《文学文摘》的例子中,与希望代表的全体选民相比,由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定习惯等特点的群体,而产生了误差。

无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏*的误差来源,但只要有产生误差的可能*,你就有必要对结果保留一定的怀疑。

在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形的曲线,均值、中位数和众数都落在相同的点上。

多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样本的规模与看上去的并不一致。

TAG标签:#撒谎 #统计数字 #经典语录 #