X.d 笔记

小Web,大世界

0%

数据分析学习笔记三:概率论 - 基础概率

基本概率论其实也挺简单,而且相当实用,比如我花了两块钱买了个双色球,想知道有多少可能性能中500W,你会说很低很低吧,基本不可能吧,但概率会告诉你具体低到多少!

已知的中奖规则如下:

一等奖 六红一蓝 500万
二等奖 六红 100万
三等奖 五红一蓝 3000
四等奖 五红 OR 四红一蓝 200
五等奖 四红 OR 三红一蓝 10
六等奖 有蓝就行 5

组合数

先来看下基本概率公式,从N个样本中选出n个 (n<N),可以选出的组合数:记做$C_n^N$

组合数: $C_n^N = \begin{pmatrix} N \ n \end{pmatrix} = \frac{N!}{n!\left( N- n\right)!}$

另外还有一种情况,如果选出的n的样本里面有排列的话,比如A,B 和 B,A认为是两种不同的组合,那么应该使用下面的公式计算
组合数2(带顺序) $ P_n^N = n!\begin{pmatrix} N \ n \end{pmatrix} = \frac{N!}{\left( N- n\right)!}$

根据公式,从33个红球里面选6个的情况有 : $\frac{33!}{ 6! \times (33-6)!} = \frac{33 \times 32 \times 31\times 30 \times29 \times 28 \times 27!}{6\times5\times4\times3\times2\times1\times27!} = 1107568$

可得出33远6的组合数 $C_6^{33} = 1107568 $, 也就是说6个红球全部中的情况的概率是$\frac{1}{1107568 }$

我还是先把中500W的概率计算出来再往下说吧,计算的公式或定理在下面会提到

首先 6个红球全部选中的概率记做 $P(A) = \frac{1}{1107568 }$ ,另外16个蓝球里面选中对的那个球的概率记做 $P(B) = \frac{1}{16}$,虽然一看就知道,但可以自行用公式算一下。

选中红球的结果并不影响选中蓝球,所以这两个事件 可以称为 独立事件

独立事件 同时发生的概率可以用乘法运算,所以中500W的概率即为 $P(500W) =\frac{1}{1107568 } \times \frac{1}{16} = \frac{1}{17721088}$

概率计算

概率计算主要有以下这些公式,要多练习多用就熟悉了,练习时,使用纸和笔去画,会如同神助。

事件的补: $ P(A)=1 - P(A^c)$

加法: $P( A \bigcup B )=P(A) + P(B\ P(A \bigcap B)$

互斥事件:如果两个事件没有共同的样本点,则称这两个事件互斥

互斥事件时的加法公式: $P( A \bigcup B )=P(A) + P(B)$

条件概率:如果在B事件已经发生的的情况下,A发的的概率,记做 $ P ( A | B )$

比如,已经确认了6个红求都中了,记录事件B那么
中一等奖的概率即为 $P ( A_1 | B ) = \frac{1}{16}$
中二等奖的概率即为 $P ( A_2 | B ) = \frac{15}{16}$

条件概率的计算计算1:$P(A|B) = \frac{P(A \bigcap B)}{P(B)}$
条件概率的计算计算2:$P(B|A) = \frac{P(A \bigcap B)}{P(A)}$

乘法公式1: $P( A \bigcap B )=P(B) P(A | B) $
乘法公式2: $P( B \bigcap A )=P(A) P(B | A) $

刚才计算一等奖时提到了独立事件,这里再搬下概念:

如果满足 $P(A|B) = P(A)$或 $P(B|A) = P(B)$ 时,则A与B为独立事件,否则,两个事件是相关的,比如双色球里面蓝球的概率是1/16,不管红球的选中状况如何。

独立事件的乘法公式 : $P( A \bigcap B )=P(A) P(B) $

看到这里,就应该可以把三、四、五、六等奖的中奖概率全部算出来了。三等奖五红一蓝的计算也很简单,用乘法公式就能算出来,这里用A,B,C,D,E做为5个被选中的红球,用F做为未被选中的红球
$P(A \bigcap B \bigcap C \bigcap D \bigcap E \bigcap F)$
推断: $P(A) = 6/33$ , 当A发生后,少了一个球,那么$P(B|A) = 5/32$,依次类推 $P(C|(B \bigcap A)) = 4/31$
最终:$P(F) = 27/28$ (当拿走5个正确的红球后,要拿走剩余28个里面的一个错误的红球)。
所以:按照乘法公式慢慢解开可以算出概率$ \frac{6}{33} \times \frac{5}{32} \times \frac{4}{31} \times \frac{3}{30} \times \frac{2}{29} \times \frac{27}{28} = \frac{19440}{797448960} \approx 0.0000243$

小结一下一二三等奖概率,后面的也可以根据加法乘法公式自己算出来。

奖项 奖金 概率1 概率2
一等奖 500W 一千七百多万分之一 0.0000000564299
二等奖 不到一百万 一千七百多万分之十五 0.0000008464491
三等奖 3000块 八千万分之两千 0.0000243777357
四等奖 200 有兴趣自己算 5红0蓝 或 4红1蓝
五等奖 10 有兴趣自己算 4红0蓝 或 3红1蓝
六等奖 5 有兴趣自己算 1蓝 0红、1红、2红

TIPS:算出来后,可以用事件的补公式 1 - P(1等奖) - P(2等奖) - P(3等奖) - P(4等奖) - P(5等奖) - P(6等奖) 就可以算出买一个彩票屁都不中的概率了,这个结果是不是很准呢,哈哈。

贝叶斯定理

从贝叶斯定理开始,统计学的的难度就会稍微增大了,但是也非常重要,主要是概率分布、假设检验,方差分析线性回归等,层层相扣,后面的会用以前面的知识为基础。贝叶斯(Bayes)定理广泛用于决策分析,主要是当已知某个事件的概率时,又发生了一个事件,可以利用条件概率,计算出后验概率。

两事件情形:
$$
P(A_1 | B ) = \frac{ P(A_1 ) P( B | A_1 ) }{ P(A_1 ) P( B | A_1 ) +P(A_2 ) P( B | A_2 ) } \\
P(A_2 | B ) = \frac{ P(A_2 ) P( B | A_2 ) }{ P(A_1 ) P( B | A_1 ) +P(A_2 ) P( B | A_2 ) } \\
$$

多种事件情形:
$$
P(A_i | B ) = \frac{ P(A_i) P( B | A_i ) }{ P(A_1 ) P( B | A_1 ) +P(A_2) P( B | A_2 ) + \cdots + P(A_n ) P( B | A_n) }
$$

举个简单的例子,比如已知访问本页面的访客的性别概率为:男:95%,女5%,又已知访问美美网的访客性别概率分别为:男:10%,女90%,如下

性别 本页面访客性别 美美网访客性别
0.95 0.10
0.05 0.90

有一个访客过来看本页面了,这个访客是女的概率应该为 5%,叫做先验概率
又已知:刚才这个访客同时访问过美美网,那么,这个访客是女性的概率是多少呢?

简单使用一个表格法,这里把这个访客的可能性当独立事件去算一下。

访客性别 先验概率 条件概率 联合概率 后验概率
$A_i$ $P(A_i)$ $P(B \mid A_i)$ $P(A_i \bigcap B)$ $P(A_i \mid B)$
0.95 0.10 0.095 0.095/(0.095+0.045) = 0.678
0.05 0.90 0.045 0.045/(0.095+0.045) = 0.322

这里算出的后验概率,即是对先验概率的一个补正,如果一个访客访问了本页面,男女概率比为:0.95:0.05,但如果记录到这个访客同时访问了美美网,那么男女概率就变成0.678:0.322了。当然,如果说访问本站的访客同时又访问了一个男性网站,那么主男性的概率就更大了。

数学期望实际上就是平均数了,我们又有了一种新的算法求平均数了,以前前是觉得求平均数会超过int ,long ,double等类型的最大范围,现在好了,用数学期望算法,一切OK,另外有的时候我们可能不知道每个样本的具体数量,但知道它们的占比,一样可以求出平均数出来。

$E(x) = \mu = \sum{x f(x)}$

利用数据期望公式,算出平均买一注双色球,可回收的钱为(这里忽略4、5、6等奖,算出的结果也是不准的,可以自已把456算好了加上去)

$5000000 \times 0.0000000564299 + 1000000 \times 0.0000008464491 + 3000 \times 0.0000243777357 \approx 1.1858188391141673 $ (PS:自己算了一下,发现主要开支在1、2、6等奖,加起来可以回馈出1.4块,剩余3、4、5等奖基本上只有0.1块,1到6等奖基本上可以回馈1块5,可见双色求还不算特别黑,我之前没算的时候还以为福利彩票公司能赚3/4只拿1/4用来发奖呢,总体中奖上平均数是 1块5,(票面两块),是否觉得不真实,如果你中的是一,二等奖,就会觉得真实了。)

下面开始来说这个不真实性:方差,之前在统计基础里面说过方差了,计算路线如:方差-》标准差-》偏度、协方差-》相关系数-》加权平均,虽然然计算了这么多,但一般情况下,方差越大,说明范围越广。偏度计算出来后,基本可以解释这种情况了,我这里不算也知道,彩票的偏度严重接近于-1,则为严重左偏,90%以上的样本都在1.5块左边(0元,没中奖)。

方差的概率公式重新定义一下:$Var(x) = \sigma^2 = \sum{(x - \mu )^2 f(x)}$