引言
最近学习机器学习的时候,发现概率论有些概念模糊了(加上觉得这门课学校讲课讲的不怎么样。。(#^.^#)),因此准备重新拾起概率论学习
什么是概率论
概率论是研究 随机现象 数量规律的数学分支。 ——李修贤
概率论是研究随机性或不确定性等现象的数学。更精确地说,概率论是用来模拟实验在同一环境下会产生不同结果的情况
随机现象
我们先来看一个现实例子。航空公司电脑订座系统的普通采用旅客和公司都带来极大方便,但是也对管理工作提出了更高的要求。例如一架200座的飞机需要出售多少座位?不考虑其他因素。简单常用的方法就是限定出售200座。
不过,这不是个好的答案,因为常常乘客临时不来上机,造成浪费。于是就有了超售。
据统计,国内航班中订座不来上机的旅客超过5%,因此实施超售是一个正确的选择,但是超售会造成拒绝登机,某一些明明持有票的却不能上机,虽然航空公司可以通过给自愿推迟者某种补偿来化解矛盾。但是会产生负面影响
理论上讲,超售越多,空位损失越小,但拒绝登机的可能性越大;相反地,超售越少,空位损失会越大拒绝登机可能性越小。因此,这是一个优化问题。航空公司要确定准确的超售数额,这就要求确定该航班订座旅客不来上机的人数,但这个数量是未知的大体上原因都是偶然因素的影响。因此,我们要处理的是一个受许多偶然因素影响的变量这就是概率论研究的对象
超售问题是一个很典型的概率问题。现在假定每个订座旅客准时上机的可能性为95%,则采用适当的概率模型可以算出在不同的 出售额N 下,发生拒绝登机的可能性P,如下表:
N | P |
---|---|
201 | 0.000 |
202 | 0.002 |
203 | 0.007 |
204 | 0.015 |
205 | 0.032 |
206 | 0.062 |
207 | 0.109 |
航空公司可以通过这些数据制定自己的超售和补偿方案。实践证明,超售可以带来巨大的经济效益,而且以超售为起点,当代航班业发展出一套很先进的管理方法——收益管理。
- 随机现象
- 随机变量:它的数值受很多偶然因素的影响,事先无法确知
现象
一.决定性现象
- 必然事件:在一定条件下,必然会发生的事情
- 不可能事件:在一定条件下,必然不会发生的事情
二.随机现象
在基本条件不变的情况下,一系列试验或观察会得到不同的结果
对于随机现象通常关心的是在试验或者观察中某个结果是否出现,这些结果称为随机事件,简称事件。例如在大街上碰到漂亮的小姐姐,漂亮的小姐姐不常有(#^.^#),这是个随机现象,常用A,B,C,D表示随机事件
频率稳定性
表面上是偶然性的起作用的地方,这种偶然性始终是受内部隐蔽的规律支配的,而问题只是在于发现这些规律。——恩格斯
对于随机事件A,若在 N 次试验中出现 n 次,则称:
$$F_{N}(A)=\frac{n}{N}$$
为随机事件A在N次试验中出现的频率
例子一:抛硬币
下面举两个比较有权威性的例子:
在抛掷一枚硬币时,即有可能出现正面也可能出现反面。假如硬币均衡,理论上出现正面和反面的机会应该相同,即大量实验中出现正面的概率应该接近50%,历史上不少人做过试验,结果如表:
试验者 | 抛掷硬币次数 | 出现正面次数 | 频率 |
---|---|---|---|
蒲 丰 | 4040 | 2048 | 0.5069 |
皮 尔 迅 | 12 000 | 6019 | 0.5016 |
皮 尔 迅 | 24 000 | 12012 | 0.5005 |
例子二:字母出现频率
在英语中某些字母的出现频率远远高于另外一些字母,在进行更深入的研究之后,人们发现各个字母被使用的频率相当稳定。统计表如下:
字母 | 频率 |
---|---|
空格 | 0.2 |
E | 0.105 |
T | 0.072 |
O | 0.0654 |
A | 0.063 |
N | 0.059 |
I | 0.055 |
R | 0.054 |
S | 0.052 |
H | 0.047 |
D | 0.035 |
L | 0.029 |
C | 0.023 |
F | 0.0225 |
U | 0.0225 |
M | 0.021 |
P | 0.0175 |
Y | 0.012 |
W | 0.012 |
G | 0.011 |
B | 0.0105 |
V | 0.008 |
K | 0.003 |
X | 0.002 |
J | 0.001 |
Q | 0.001 |
Z | 0.001 |
日常中不乏有这样子有趣的例子,例如衣服和用具总是在同个部位破损,下雨天底面各处都是差不多同时淋湿
等等,不难发现生活到处体现频率稳定性。
统计规律性
随机现象有其偶然一面,也有其必然性的一面,这种必然性表现为大量试验中随机事件出现的频率的稳定性,即一个随机事件出现的频率常在某个固定常数附近摆动,这种规律就叫 统计规律性
频率与概率
频率的稳定性说明随机事件发生的可能性大小是随机事件本身固有的、不随人们意志而改变的一种客观属性,因此可以对它进行度量
对于一个随机事件A,用一个数$P(A)$来表示该事件发生的可能性大小,这个数$P(A)$就称为随机事件A的概率
1.频率具有非负性
$$F_{N}(A)\ge 0$$
2.必然事件
$$F_{N}(\Omega)= 1$$
3.频率可加性(A,B是两个不会同时发生的随机事件):
$$F_{N}(A+B)= F_{N}(A)+F_{N}(B)$$
扩展
当N足够大时,用它的频率来作为概率的近似值