零壹教育:幸存者偏差,数据挖掘无法规避的先天局限

零壹教育:幸存者偏差,数据挖掘无法规避的先天局限

零壹教育:做数据分析的人大多执着于优化算法、打磨模型,却常常忽略一个先天局限:我们拿到的所有数据集,本质上都只是幸存者留下的行为痕迹,大量未被记录的样本,从一开始就缺席在数据库里。

电商行业的运营数据,记录的始终是持续复购的活跃用户,那些浏览商品后直接离开、再也没有回访的潜在客户,他们放弃下单的真实原因没有任何数据留存;医疗数据库收录的都是入院就诊人群的身体指标,常年身体健康、从未就医的群体,其基础生理数据始终处于空白状态。无论采用多精密的数据挖掘模型,我们只能依托现存样本总结规律,再用片面的结论去推演全体用户、全体人群的特征,天然就带着无法消除的偏差。

除此之外,数据挖掘还会反向扭曲原始数据。个性化推荐会根据用户的历史点击行为不断推送同类内容,久而久之,用户的浏览偏好会被算法不断固化,我们很难分辨用户的选择源于自身喜好,还是被算法不断引导后的被动结果,这进一步放大了数据分析的误差。

想要规避这类问题,不能寄希望于整理出绝对完美的数据集,现实中完整无偏差的数据本就不存在。最稳妥的方式,是在开展分析前主动披露数据来源、明确样本缺失范围,既要客观呈现数据分析得出的结论,也要清晰标注数据的空白区域与固有短板,拒绝只展示正向结果的片面化汇报。

判断一份数据分析是否专业,从来不是看最终指标有多亮眼,而是从业者能否清醒认清数据的边界。理性承认数据的局限性,对未采集的样本保持敬畏,不凭借有限数据随意推演未知领域,敢于坦诚说明研究的盲区,才能让分析结论足够客观扎实,避免因幸存者偏差得出误导性的决策。