X.d 笔记

小Web,大世界

0%

数据分析学习笔记四:概率论 - 概率分布

哈哈,最近股票跌的好猛,我是不是可以抄底了?但是我是非常保守的,只有确定90%以上能赚钱甚至是95%、99%以上能赚钱才会去买股票的说,人们常说一入股市深似海,亏的多赚的少,所以,为了保证不亏,我决定使用正态分布去科学炒股了!不知道是否能找到中意的票呢?

根据经验法则:如果知道股标的标准差和平均数(友情提示:发挥下爬虫岂不是很容易?),那么根据经验法则,68%的股票在一个标准差内,那么再去掉多的一测(赚钱的),如果现在的股价为 平均股价 - 标准差,那么亏钱的概率就为 (1-0.68) / 2 = 16%,赚钱的概率就为84%,如果股价已经小于两个标准差外的话,赚钱的概率就为97.5%啦。

投资有风险,入市需谨慎,以上仅为笑谈,呵呵呵。。但经验法则之所以好用,主要有一点是因为它适用于于各种概率分布情况,但一般正态分布情况居多。所以我在考虑问题时都没有想股票的每天收盘价的分布是否服从正态分布就敢把经验法则往上套。不过实际上来说,我们考虑的大多数问题都是正态分布,所以其它不重要的,也不谈说了。

前两节提到的一些公式大多是一些基础,最好还是背下来,比如方差、概率求法等。后续的公式最重要的是理解,不用死记了,如果不是做科研,个人认为实际应用还是比较重要,推导的过程可以加深理解,但我们是用来解决实际问题的,而且一般在numpy,R或excel里面都已经内置了相关的函数。

离散型概率分布:

将概率函数记作$f(x),$离散型概率分布性质如下

  • $f(x) >=0 $
  • $\sum f(x) = 1 $

其中,如果每个x分布的概率都相等的情况下,称作离散均匀型,离散均匀型的概率

  • $f(x) = 1/n$

在离散型概率分布中,概率的分布,有明显的一些分布形态时,可以利用分布形态的特性做相关研究,会事半功倍,常见的分布形态有二项概率分布和柏松概率分布

二项概率分布

二项概率分布: 满足以下四个性质

  1. 试验由一系列相同的n个试验组成
  2. 每次试验有两种不同的结果,一个成功,一个失败,成功的概率为p,失败的概率则为1-p
  3. 每次成功和失败的概率都是相同的,即每次成功和失败的概率都为(p,1-p),不受次数影响
  4. 试验是相互独立的

对于二次项分布来说,举个例子,比如根据一个服装店的统计数据来看,每个人平均每次购物的消费总额为100块,又统计出每天进店每5个人就会有1个人进行购物,即购物的几率为20%,店里平均每天客流量5000人,那么平均的销售额则为50000.2100 = 10W。

这是一个明显的二项概率分布,假设平均消费肯定是100,但每个人进入后,可以买或不买,不一定就是20%,有时5个人进店就有4个人买了,有时5个人进店一个都没买,我想知道有一天5000人进店了,5000个人都头脑发烧撞到20%上,买了商品,这样的概率是多少呢?

$f(x) = \left( \begin{matrix}n \ x \end{matrix} \right) p^x(1-p)^{(n-x)}$
其中$\left( \begin{matrix}n\ x\end{matrix} \right)$ 代表x个样本里面选出n个的组合数,即$\frac{x!}{n!(x-n)!} $

即: $f(5000) = \left(\begin{matrix} 5000 \ 5000 \end{matrix}\right) \times 0.2^{5000} \times (1-0.2)^0 = 0.2^{5000} \approx 0 $

这里有个速查表 ,可以不用计算,直接根据已有的数据(总样本数,选择数量 ,成功几率),查出你想要的概率是多少。

伯努利分布

伯努力分布实际上是二项分布的一种特殊情况,主要用来研究两种情况的概率情况(比如投票,二选一,然后通过抽样来研究两个选项的概率情况。),一些二项概率分布转化为伯努力分布后会大大降低计算的复杂度。

柏松概率分布

柏松概率分布: 满足以下两个性质

  1. 在任意两个长度相等的区间上,事件发生的概率是相同的
  2. 事件在任意一区间上是否发生事件,与其它区间上是否发生事件是独立的

$f(x) = \frac{\mu^xe^{-\mu}}{x!}$

柏松分布经常用于模拟排队时的随机到达问题,贝尔实验室利用泊松分布模拟电话到达次数。当然也可以做一些模拟正常人的上网行为的一些测试工具。

另外,还有比如超几何分布,与二次项分布不同的是,超几何分布,每次试验的成功率不一定相同,所以算的也比较复杂,先不研究这个了。

连续型概率分布

连续型,相对于离散型来说,主要是样本是不可数的,比如0-1个小时里面有无数个点,可能是任意一个时间点,样本数量没有个数限制。连续型概率分布主要有 均匀概率分布 、正态概率分布 、指数概率分布。

连续型概率一般以区别来计算,任意一个单点的概率为0。

均匀型概率分布

均匀型的分布其实就是连续型里面的古典法,每一小段的概率都是相等的,实在太简单就不写公式了,在a - b(b>a)里面的均匀分布理应如下

$\frac{1}{b-a} a<x<b$
$0 other$

正态分布

很简单的一个问题,为什么很多大公司招聘都喜欢去重点高校、211等名校里面去,只有好学校才能出好学生吧,大家都知道,好学校也会生产一些垃圾,野鸡学校也会出高手。其实很简单,也是一个概率分布问题,去产出概率高的学校去招聘会降低招聘成本,所以很多职位的要求是名校毕业,把学校或学历不符合条的的人距之门外,没有机会。

散点图

正态分布是概率中最最重要的知识点了,远比其它知识点要重要,从上面的例子来看,基本上生活中太多的事物都是服从正态分布的,普通水平(均值)附近的比较密集,极好或极差的分布的比较少。

正态分布也叫高斯分布(发明人)、钟形分布(形态),现实生活中很多事件都可以服从正态分布,表现为平均值中间比较集中,越往边上走概率越低,计算也比较简单,如果从a到b就是a-b区间上面的面积。涉及到微分就不说了。

标准正态分布,是 平均值 为0,标准差为 1 的一个正态分布。好处就是非常直观,而且有一张标准正态分布表可以随时查对。现实生活中很多正态分布可以通过公式转换为正态分布,所以我们一般去研究,会先把分布转换为标准正态分布再进行计算。

正态分布的公式还是写一下:$f(x)= \frac{1}{\sigma \sqrt{2\pi}} e^{\frac{-(x-u)^2}{2\sigma^2}}$

公式实在很复杂,看都不想看,不过还好,转换的公式相当简单 $z=\frac{x-\mu}{\sigma}$ ,有点像z分数 ,可以换任何非标准的正态分布转换为标准的正态分布。

抽样分布

长话短说:对一个总体进行若干次抽样,每次抽样的平均值为$\overline{x}$,进行N多次抽样后,那么 $\overline{x}$ 的分布服务正态分布。若每次抽样的个数为$n$,还已知总体的方差为$\sigma^2$,那么可以得出 $\overline{x}$ 公式:

  • 根据 $\sigma_{\overline{x}}^2 = \frac{\sigma^2}{n}$
  • 可以得出 $\sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}}$

如果n越大,那么$\sigma_{\overline{x}}$ 也就会越小,分布的曲线也会更接近于正态分布,形态会变的高又尖。 $\overline{x}$分布的中间值好会越接近与总体的数据期望$\mu$