为什么以“1”开头的数字出现频率*高? 在进入正题之前,大家可以先思考两个问题。 **个问题:如果你看到一本书的前几页比后面的书页被翻得更烂,你会想到什么? 第二个问题:从全世界所有城市的海拔高度数据中,提取出每个数据的**位数字。比如海拔 4567 米,提取出的**位数字就是“4”。那么在所有数字里面,1 到 9 哪一个数字出现的次数*多,所有数字的分布又会是怎样的? 对于**个问题,大部分人都会想:这是一本无聊的书, 人们看了开头就看不下去了,所以把前面的书页翻得很烂,后面还是很新——如果你只想到这么多,那么你可能就错过了一个流芳百世的机会。 对于第二道题,大部分人认为:**位数字的分布应该是平均的,**位数字不可能是 0,那么只能是 1 到 9,每一个数字出现的频率应该是 1/9,就是 11% 左右——如果你也是这么认为的,那么你就大错特错了。 通过真正的数据统计分析可以发现,这些海拔高度数据的**位数字的分布其实不是平均分布。它们的分布实际上是这样的:数字 1 出现的概率在 30% 左右,远远高于数字 2 的18%、数字 3 的 13%……9 出现的概率大概只有不到 5%。 这就是**的“本福特法则”。从实际生活中得出的数据里,以 1 为首的数字的出现概率约为总数的三成,接近期望值1/9 的 3 倍。 本福特法则其实不是一个新的法则,在 100 多年前,数学家们就发现了这一现象。1881 年,有一个叫西蒙·纽康的加拿大天文学家,他发现对数表以 1 起首的那几页比其他页被翻得更烂。但西蒙和大多数人一样,当时也没有往深处想,所以他错过了一个在科学史上留名的机会。 直到半个世纪以后,大概 1938 年的时候,美国工程师, 同时也是物理学家的法兰克·本福特重新发现了这个现象,但他比西蒙认真多了,他立刻想到:这个现象会不会和数字 1 有 关系,以 1 开头的数字多,所以人们查对数表的时候翻的次数就多,以 1 开头的书页就比别的书页被翻得更烂。 他接下来收集了更多数据进行分析,发现还真是那么回事儿,于是本福特法则诞生了,法兰克也在科学史上留下了自己的名字。 但这是为什么呢? 虽然本福特发现了这个现象,但他当时并没能很好地解释这个现象,数学家、科学家们也一直不是很清楚。 直到 1961 年,有个美国科学家提出:本福特法则其实是数字叠加造成的现象。比如我们假设股市指数一开始是1000 点,以每年 10% 的速度在上升,那么要用 7 年多的时间,指数才能升到 2000 点以上。而从 2000 点上升到 3000 点,如果也是以10% 的速度上升的话,只需要 4 年多的时间。同样,从 10000点到 20000 点又需要 7 年多,从 20000 点到 30000 点只需要 4年多的时间。所以,以 1 开头的股票指数数据比以其他数字开头的股票数据要多很多。 这个说法有一定道理,因为科学家也发现,并不是所有数字都符合本福特法则。只有那些统计数字,比如说人口、海拔、股票才符合本福特法则;按规律排列的数字,比如发票或者身份证编号,经过人工修饰生成的数字都不符合本福特法则。 那么本福特法则在管理上有什么用处? 本福特法则的用处可大了,但是知道这个法则的人不多。于是,审计部门能用本福特法则来检验公司账本是否经过人工修饰。如果账本上数据的首位数字中,从 1 到 9 的出现频率是 接近平均的,那肯定是经过人工修饰的数据。 美国有一个叫詹姆斯·尼尔森的人,他是美国亚利桑那州的财政官员,管理着州政府很大一部分的开支。他每天要经手很多钱,负责给为政府干活的各个公司发钱。有**他心动了,想道:我不如自己开一家公司,左手拿政府的钱开支票, 右手就存到自己的公司,这样我不就把政府的钱揣到自己腰包里了吗?为了不让人抓住,他每一张支票的金额开得都不一样, 每张的金额都带有小数点,让人觉得特真实的样子。他一共开了 23 张支票,合计 200 多万美元,单张支票的金额有 86241、72117、97473、90831、84991 等。如果你懂得本福特法则的话, 你一下就看出猫腻了——7、8、9 开头的数字实在是太多了。根据本福特法则,金额以 1 开头的支票应该有 30% 左右,所以审计部门一下子就把他抓住,送进了监狱。