你被骗过吗?7 种操纵数据的方式,第 7 种让无数人中招

数据统计和阐发是每个科研人员都应具备的技术 , 但愿本文能帮忙初学者避免无意中犯错 , 并让你在看到居心扭曲的统计成果时 , 第一时候识破作假者的手法 。
撰文 | Winnifred Louis & Cassandra Chapman
翻译 | 杨晚钰
审校 | 夏烨

你被骗过吗?7 种操纵数据的方式,第 7 种让无数人中招

文章插图

图片来历:Carlos Muza on Unsplash
统计可以或许有用地呈现数据 , 便于我们理解四周宿世界中的模式 。 但若是凭直觉诠释这些模式 , 成果凡是会令人掉望 。 以下是统计、概率和风险阐发中常见的几种错误 , 以及避免这些错误的方式 。
01 | 无意义的差别
股市的良多日常波动都只是偶尔现象 , 并没有任何意义;在平易近意调查中 , 某党领先的一两个百分点凡是也只是数据噪声罢了(在给定的数据样本或公式中 , 呈现的难以诠释的转变或随机性) 。
为避免对这种数据波动的原因作犯错误的推论 , 可以查看它们的“误差幅度” 。 差别若是在误差幅度内 , 则很可能无意义 , 这种转变很可能只是随机波动 。
02 | 来自实际印象的误会
我们常会听到对两个群体差别的笼统归纳综合 , 例如说女性更乐于抚育儿女 , 而男性体格更强壮 。 这些结论凡是受到刻板印象和平易近间说法的影响 , 却轻忽了两个群体的相似之处 , 以及统一群体内部的差别 。
若是随机遴选两个男性 , 他们的体能可能相差很大;若是随机遴选一男一女 , 他们抚育儿女的表示也可能很是附近 , 男性的表示甚至会更较着 。
要避免这样的错误 , 你可以查看两组的“效应量”(effect size) 。 它可以反映两组间平均数的差别 。 若是效应量小 , 申明两组相似度高 。 但即便效应量大 , 也可能是较大的组内差别导致的 , 是以不克不及断定两组间的所有个别都存在差别 。
03 | 忽略极值
考查对象从命正态分布(也称“钟形曲线”)时 , 效应量的两头是有主要意义的 。 在正态分布下 , 大大都个别接近平均值 , 只有一小部门个别远高于或远低于平均程度 。
这种环境呈现时 , 组内的细小转变城市导致差别 。 这种差别对平均值几乎没有影响 , 但可能会完全改变极值的特征(见第二点) 。
要避免这个错误 , 需要细心考虑是否要研究极值 。 若是针对平均程度进行研究 , 凡是不消在意组内的细微差别 。 但若很是存眷极值 , 这些细微差别将会影响庞大 。
你被骗过吗?7 种操纵数据的方式,第 7 种让无数人中招

文章插图

当研究对象从命正态分布时(在钟形曲线上) , 极值处的差别比平均值四周更为较着(表示在分布曲线上为:极值处的重叠区域较少 , 而平均值四周有大部门重叠)
04 | 相信巧合
美国每年淹死在泅水池里的人数和尼古拉斯·凯奇(Nicolas Cage)出演的片子数存在相关性 , 你知道吗?
你被骗过吗?7 种操纵数据的方式,第 7 种让无数人中招

文章插图

若是你不雅察够细心 , 就会发现这种有趣的模式和相关性 , 但这也仅仅是巧合罢了 。 仅仅因为两件事同时发生转变 , 或者具有相似的转变趋向 , 并不克不及申明它们有关 。
要避免这一错误 , 需要思虑不雅察到的相关性在多大水平上是靠得住的 。 这种相关性是一次性的 , 仍是多次呈现的?将来的相关性又可否展望?若是这种相关性只呈现了一次 , 那它很有可能是随机的成果 。

推荐阅读