城读│为什么数据第一位数往往是1:隐藏在人类社会、自然界乃至宇宙背后的本福特定律

城读 2021-06-11 20:32

345


为什么数据第一位数往往是1:隐藏在人类社会、自然界乃至宇宙背后的本福特定律


本福特定律提供了理解地球这个巨大系统秩序的线索。

Connected: The hidden science of everything, Netflix, 2020.

Sources:
https://www.netflix.com/hk-en/title/81031737
https://towardsdatascience.com/benfords-law-a-simple-explanation-341e17abbe75
https://mathworld.wolfram.com/BenfordsLaw.html



最近我在看一部奈飞的科学纪录片《连接:万物背后的科学》(Connected: The hidden science of everything)——豆瓣和字幕组把片名翻译为《大数据时代:万物背后的科学》,主标题翻译有点奇怪。该片共六集,分别围绕六个不同主题,揭示人与人、人与社会、人与自然、自然之间、乃至宇宙之间如何隐秘又紧密的相互联系,充满令人惊讶的新知,改变你对世界的看法,同时还富有娱乐性,非常好看,强烈推荐(B站有全片,趁没被删赶紧去看)。
 
本片主持人和解说拉蒂夫·纳赛尔是一名科学记者,并担任纽约公共电台WNYC旗下电台和播客节目“Radiolab”的主任,纳赛尔在片中提问,追寻答案,走遍世界,穿越历史,上天入地,访谈相关人士,剥丝抽茧,用简洁易懂的语言解释科学原理,揭示宇宙万物之间意想不到的联系。
 
本片六集主题分别为:监控、粪便、尘埃、数字、云彩与核弹。贯穿六集的核心观点,揭示万物之间惊人的联系。例如,在第一集《监控》中,能够预测即将到来的飓风严重性从而改变迁徙时间的鸟类;第二集《粪便》讲述人类排泄物不仅可以告诉我们该地居民的药物滥用和毒品吸食情况,还可以引导科学家找到未来治疗细菌性疾病的方法;第三集《尘埃》讲述非洲撒哈拉沙漠的尘埃既有利于地球某些生态系统,帮助巴西亚马逊森林补充磷肥,从而有助于降低大气中的二氧化碳水平;同时又不利于另一些生态系统, 产生的藻类每年杀死佛罗里达州海湾地区数以亿计的鱼类。第四集《数字》讲述看书页码、街道门牌号、股市、报税、企业财务报表、城镇人口、音乐、犯罪率、出生率、死亡率、选举投票、社交账号关注人数、照片、河流长度、火山面积、星球之间的距离等背后隐藏的规律;第五集《云彩》讲述19世纪一场海难如何孕育了最早的天气预报,天空中的云彩和今天连接电子设备的云之间的相似性;第六集《核弹》讲述1940年代的核弹试验如何帮助今天鉴定画作的真假。纳赛尔说:“无论你在地球上任何一个地方呼吸,你同时也在呼吸地球上的另一个地方”,“无论好坏,我们都是相连的”。
 
最让我着迷的是第四集《数字》,讲述“充斥整个宇宙”的本福特定律,从城市到音乐,从报税到企业财务报表,从选举到社交媒体,从照片到视频,从自然界到宇宙,处处可见本福特定律。
 
本福特定律的发现
 


最早发现本福特定律的是加拿大天文学家和数学家西蒙·纽科姆(Simon Newcomb),他在查阅对数表时,注意到第一页的磨损和污渍比后面的页数要多得多,纽科姆在1881年发表论文《关于自然数中不同数字使用频率的说明》(Note on the frequency of use of different digits in natural numbers),首次论述这一现象,并给出计算公式。不过,纽科姆的论文并没有引起注意。
 


57年之后,美国物理学家弗兰克·本福特1938年发表了一篇题为《反常数字的定律》的论文,本福特似乎并不知晓纽科姆的论文,本福特也提出与纽科姆相同的观察与发现,并收集来自20个领域的不同数据库,例如河流流域面积、城市人口、人口出生率、死亡率、化合物的原子量、物理和化学常数、地址、《读者文摘》文章中的数字、财务费用等,其首位数字频率分布符合对数规律,该规律因为本福特而得名。随后,研究者们发现现实世界越来越多情况符合本福特定律。
 


什么是本福特定律?
 
如果给你一堆海量数字,然后从中随机抽取,问抽中的数字开头第一位出现1-9的概率分别是多少?你可能会认为是1/9(或者11.1%)。这个看法似乎很合理。
 
但是本福特定律则认为,1-9出现在数字第一位的概率是不一样的,而是呈递减趋势。本福特定律,又称为首位数字定律,该定律指出,在包含大量数字的数据库中,首位数字1出现的概率为30%,大大超过预期的11.1%;数字2出现的概率为17.6%;数字3出现的概率为12.5%;数字4出现的概率为9.7%;数字5出现概率为7.9%;数字6出现的概率为6.7%;数字7出现的概率为5.8%;数字8出现概率为5.1%;数字9出现的概率为4.6%。
 


在纪录片里,纳赛尔一一讨论人类社会、自然界和宇宙诸多符合本福特定律的例子。
 
城镇人口

统计美国所有大中小城市和镇人口数据,计算首位数字出现频率,符合本福特定律。
 


音乐

将古典音乐各个乐符出现频率进行统计,例如下图贝多芬的《月光》,发现符合本福特定律。流行音乐大体如是。
 


公司财务报表

通过对比安然2000年财务数据与本福特定律预测的曲线,发现安然公司财务数据明显造假。同理,可以检测个人和企业报税单、经济和财务统计数据、甚至选举投票是否造假。
 


体育赛事

各项体育赛事,例如足球进球数量,首位数字频率分布符合本福特定律。
 


犯罪活动

就连违法犯罪活动数量也符合本福特定律。
 


出生和死亡

甚至出生率和死亡率,也符合本福特定律。
 


社交媒体账户的粉丝数量
 
统计你的各个社交媒体账户(推特、脸书、照片墙等)的粉丝数量,你的粉丝的粉丝的数量等,首位数字频率分布均符合本福特定律。而那些粉丝数量不符合本福特定律的账户,十有八九是程序控制的僵尸账户或机器人账户。
 
那么微博粉丝、豆瓣粉丝、微信朋友数量、所有友邻的粉丝数量,公众号关注者数量,是否也符合本福特定律?
 


自然和宇宙

河流长度、火山面积、行星之间的距离等,也符合本福特定律。
 


巴塞罗那地球科学研究所研究火山的阿德利娜·盖耶(Adelina Geyer)惊叹于这个世界所展示的规律,“我感到自己真的很渺小,”她说,“我们研究地球,但我甚至不确定我们是否了解正在发生的事情的百万分之一。”
 
“地球是一个有序的系统,”纳赛尔说,“在某种程度上,本福特定律提供了理解这个巨大星球系统秩序的线索。”
 
什么样的数据符合本福特定律?

当然,并非所有数据的首位数字分布都符合本福特定律。
 
艺术家、发明家和工程师罗伯特·贡萨尔维斯(Robert A. Gonsalves)给出了一个简单解释:“当数据库包含的数字是多个相互独立因素作用的产物,将倾向于遵循本福特定律。”

城读相关阅读:

06.城读│城市生活本质上是一个巨大的数学问题
35.城读 | 统计数据会跳舞

117.城读│纪念汉斯·罗斯林(Hans Rosling):用跳舞的统计数据教我们认识世界

127.城读│人人都会撒谎!互联网大数据: 诊断人性的“豪斯医生”

139.城读│如何在不断分心的世界里深度工作?

148.城读│《核心经济》开放课程用全新方式教你理解真实的世界

164.城读│愿你在读书写作中找到自己的“瓦莱神父”

165.城读│幂律:隐藏在细胞、生物、城市、公司等复杂系统背后的简单规律

184.城读│城市树木赞歌

211.城读│学习21世纪统计思维

213.城读│当文学遇到统计学:用数字揭示写作中隐藏的秘密

215.城读│用图像思考:首部漫画形式的博士论文

234.城读│怎样聪明地做笔记:德国社会学家尼克拉斯·卢曼的卡片盒

235.城读│怎样识别统计图表的谎言?

237.城读│汉斯·罗斯林临终遗作:消除无知、注重事实、理解世界的十个原则

247.城读│看树不是树,看树还是树:树木、城市与自然的关系如何随时间而变化?

252.城读│剑桥大学统计学大卫·斯皮格豪特教授教你如何提高数据素养

279.城读│不被看见的女性:当大数据缺少了一半的人口……

311.城读│《科学》杂志推荐不确定时代的阅读书单

316.城读│每当变幻时,文字永流传

317.城读│真相还是伪真相?如何像一个数据科学家那样思考

322.城读│鳗鱼问题:人类对知识与意义难以遏制的渴求

324.城读│城市应该如何将数据用于公共利益?

330.城读│为什么数据科学需要女权主义?

339.城读│信息设计先驱爱德华·塔夫特所著5本数据可视化经典书籍

340.城读│大数据时代的隐私问题:奥威尔式vs.卡夫卡式

342.城读│黄奇帆用数据讲解中国经济

(点击文章标题,或进入公众号回复标题前的数字获取文章 )

城读 城市阅读的记录

 

微信公共订阅账号“城读”,每周推送城市阅读笔记

关注我们,请搜索账号 CityReads

或长按上方图片,识别二维码关注



推荐阅读