大数据时代陷阱——数据真的越大越好吗？_深度

大数据这两年一直是热词。

发展中的大数据确您带来了很多有用信息，但是所谓大数据，并非越大越有价值。

比如，在美国做一个1000人的抽样调查，这个调查若是在中国做，要达到同样的精度，需要抽取多少人?

美国的人口是3.2亿人，中国的人口是美国的4倍多一点。

每次问到这个问题时，只有10%的人能说出正确答案:仍需抽样1000人。

绝大多数人认为，抽样数必须大于4000。为什么呢?

最简单的比喻是:喝汤时，要确定汤的咸淡，大多数人只需要尝几口，并不需要把汤全部喝完。这个判断的准确性取决于这碗汤的均匀度。

喝汤前把整碗汤搅拌一下，然后品尝几口，这就是我们所说的随机取样。

无论是一小碗汤还是一大桶汤，只要搅拌均匀，尝几小口就够了。同样，去医院验血时，每个人不论是胖是瘦，小孩还是大人，医生都只会抽一点血就可以做出判断。

这意味着抽样调查需要有一定的样本，但是一旦超过临界点后，和母体大小的关系是完全可以忽略的。

也就是说，大数据再大，只要科学抽样，哪怕只有百分之零点零零几的均匀抽样，效果也可以比95%不均匀的数据好。所谓大数据，也不能光看绝对量，并非数据越多结果越可靠。

以现在最热的个性化治疗为例。如果一种药对95%的人有效，但对我没有用，那这95%的数字对我而言便毫无意义。

一个真实的例子是，在20世纪80年代，英国有一本杂志登了两种治疗肾结石的方法。文章摘要宣称方法A治疗肾
结石，成功率是78%;用方案B的话，成功率是83%。

在没有其他信息的情况下，任何人都会认为B方案的治疗效果更好。

但是仔细阅读那篇文章，你会发现当研究人员把病人分成大结石和小结石两组时，方案A比方案B在每组里的成功率都要高。

大数据时代陷阱——数据真的越大越好吗？