统计：概述 - 军军小站|张军博客

　　结束了概率，下面开始统计。这一篇，是统计的一个小介绍。

　　统计是研究数据的学科。它包括描述数据，推测群体信息，判断假设的真伪。统计是一门实用学科。人们利用统计，寻找下一个NBA巨星，推测奥斯卡奖项，寻找自己的真心伴侣。在电影“点球成金”中，球队的经理就是利用统计思想，来搜寻球员，管理球队，最终造就了一支劲旅。

点球成金

统计这件大事

　　如果说最早有统计意识的人，那莫过于古往今来的“王霸”之人。精明的王者，早早的意识到数据的重要性，也因此从统计数据中获得信息优势。刘邦占领咸阳后，萧何先去收集的，是王宫里的户籍、地理、人口等手册。后来楚霸王来了，则是烧杀抢掠一番。项羽在“大数据”意识上，就输给了刘邦阵营。

　　因数据而流传千古的，还有征服者威廉。这位来自诺曼底的王者，以旺盛的精力统治着英格兰。他派遣手下，走遍英格兰的每个村庄，编纂成统计书 (Domesday Book)，详细的记录了英格兰每个地区的人口、地理和物产，甚至于精确到每家养殖的牲口数目。无怪乎诺曼底王朝可以延续数百年。

Domesday Book

　　现代统计诞生于欧洲近代，主要服务于政府部门。统计部门的建立受益于启蒙主义思想。政府管理从中世纪的影响中走出，开始以理性和科学的方式，记录国家发展。农业社会向工业社会转型，政府需要更高效的方式，了解国家的方方面面。概率的思想融入统计学，统计从单纯的数字记录，向估计和推测发展。随着现代统计的发展，许多以前难以精确获得的数字，比如出生率，国民生产总值，战争耗费等，都通过采样估计的方式获得。

管中窥豹

道琼斯指数

北京的PM2.5指数

世界人口

　　这三者有什么共同之处呢？

　　首先，它们都一定程度代表了某个群体的状况，比如美国股市，北京的空气污染状况，和世界的人口。其次，它们都是通过对群体采样，来获得的结果。道琼斯指数包含了美国最重要的一些工业股，而不是所有的股票。PM2.5是北京的数个观测站采集到的。世界人口，是通过各地采样获得的。

PM2.5

　　通过样本(sample)，来研究整个群体(population)，是统计学的一大特征。这背后的哲学是，用部分来理解整体。利用统计工具，我们还可以推测，样本中信息与真正的整体信息，有多大的误差。这个研究门类，被称为统计推断 (statistical inference)。它实际上利用了概率论工具，根据采样，对群体的状况作出推论，并给出推论的不确定程度。

确定性的消失

　　我们希望结论靠谱，就不能忽视误差。在日常生活中，我们也会不经意的用统计的方式思考，但往往会忽视误差。从一袋大米中抓出一把，我们会推测整袋大米的质量。从认识的北京朋友，我们会推断北京人的性格特征。从身边的程序员同事，推测码农的收入和气质。这样很容易得到结论，但也很容易以偏概全，导致自己的结论大大偏离现实。严格的统计方法需要说明结果的可靠性。

　　从确定论到不确定论，是人类理性的一次大飞跃。在这一观点下，自然科学发生了质的变化。许多早期的科学结论，出现了问题。比较典型的就是：“如果在某一时刻知道所有原子的运动状况，就可以预测宇宙的未来”。观测的数据，如果没有相关的误差描述，不被认为是有效的。更有信奉统计理念的狂热者，比如拉普拉斯。他研究潮汐时，给出优美的理论。但他宣称自己的理论不可信：由于自己的数据只有数千个，达不到统计理论的健壮性。

　　从群体中抽取一个样品，那么这个样品究竟是群体的哪个个体，是一个随机变量。统计学的不确定性由来于此。这也是统计学与概率论研究的结合点。结合我们对该随机变量的特征有所了解，比如该随机变量符合高斯分布，那么可以根据抽出的样品，来计算分布的平均值和方差，从而得到群体的状况。我们还可以对群体作出一些假设的理论，根据采样结果，来判断结论真伪的概率。确定性的消失令人不安，却为统计学打开了一扇大门。

大数据时代

　　大数据时代的一个有趣想像，是人们可以对一些数量巨大的群体进行直接的运算。比如，我们可以迅速的计算出所有股票的市值，Facebook的用户发帖总数等等。曾经的一些采样统计，在计算机的巨力面前，似乎显得有些没有必要。是啊，如果可以直接得到群体的信息，我们何必拘泥于恼人的不确定性呢？

统计：概述

　　姑且不论计算速度和数据采集速度的限制，许多问题的本质，就阻止了我们美梦。比如简单的连续方程积分，就无法真正的摆脱不确定性。自然测量的本质的连续的，计算机运算是离散的。用离散的系统，只能尽力的趋近，却无法真正精确。再者，许多数据是无法测量的。比如假设检验、决策，乃至统计为基础的机器学习。它们基于一个无法测量的真相：所有可能性中“最好”的那一个。这一所谓的“最好”，可能只是理论存在。即使有再多的计算机，也无法采集这样的数据。大数据时代，统计非但没有过时，还找到了更大的舞台。

统计：概述

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义