当前位置：中文知识站>书籍语录>《统计数字会撒谎》经典语录

《统计数字会撒谎》经典语录

中文知识站人气：2.49W

经典语录

事实往往在所见所闻之外。平均数、作用关系、趋势和图表总是与看上去的不一致。虽然经验告诉我们"眼见为实"，但眼睛告诉我们的"真相"或许隐瞒了部分事实，或许夸大了事实。

一些反对*调查的最强烈的情绪来自于自由主义者或是左翼集团，他们普遍认为这些调查都是人为*纵的。这种观点背后的事实是：*调查结果经常与那些思想开放人士的观点和意愿不相符合。他们指出，*调查的结果选择了共和党人，但不久之后选票者却做出了相反的选择。但实际上，正如我们前面所看到的，*调查并不一定是*纵了，也就是说，并不一定要为了制造假象而恶意扭曲结果。样本有偏的趋势本身就可以自动地*纵结果，使其变得扭曲。

随机样本的检验方法是：总体中的每个名字或每个事物是否具有相同的几率被选进样本？纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处，在很多情况下，获得这种样本的难度很大并且十分昂贵，以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品，目前在*调查和市场研究等领域中得到了广泛的应用。

所以，当你被告知某个数是平均数时，除非能说出它的具体种类--均值，中位数，还是众数，否则你对它的具体涵义仍知之甚少。

统计这种神秘的语言，在一个靠事实说话的社会里是如此地吸引眼球，但有时它却被人利用，并成为恶意夸大或简化事实、迷惑他人的工具。在报告社会经济趋势、商业状况、*调查和普查的大量数据时，统计方法或者统计术语是必不可少的。但如果作者不能正确理解并恰当地使用这些统计语言，而读者又并不能真正了解这些术语的含义，那么，统计结果只能是废话一堆。

一位心理医生曾经写道：实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义，我们来看看这个医生的样本，也就是说，他观察了哪些人才得到了上述结论？事实上，他是在对他的病人进行研究后才得到了这个发人深省的结论，这和代表全体人的样本可差的是十万八千里。想想看，如果一个人心理健全，他是永远都不会接受心理医生的治疗的。

我们可以定量地衡量你的样本能以多大的精度代表总体，那就是：可能误差和标准误差。

我们试着来解释这个数字，单凭常识就知道这个数字与现实出入很大。现在，让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元一半的人们最终会拥有如此丰厚的平均收入？让我们来揭开这神秘的面纱。可以肯定的是：耶鲁毕业生的报道基于对某个样本的分析，因为常识告诉我们，没有人能够掌握所有仍在世的1924级学生的情况，25年后，他们中的许多人已经消失在茫茫人海中。

一般而言，*调查都带有一定方向的误差。就像前文所举《文学文摘》例子的偏差一样，如果对此表示怀疑，你还可以找到许多恰当的例子来*。在《文学文摘》的例子中，与希望代表的全体选民相比，由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定习惯等特点的群体，而产生了误差。

无形的误差与有形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏*的误差来源，但只要有产生误差的可能*，你就有必要对结果保留一定的怀疑。

在处理诸如人类特征的数据时，各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点，在你用曲线绘制正态分布时，将看到一根钟形的曲线，均值、中位数和众数都落在相同的点上。

多少才算够呢？这又是个棘手的问题。它取决于其他的因素，即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是，有时样本的规模与看上去的并不一致。