X.d 笔记

小Web,大世界

0%

数据分析学习笔记五: 假设检验

听说电视有一条铁律:跳崖不会死,由于是网友的调侃,一点都不严肃,那我今天也特别无聊,就想来推翻这个铁律!,于是,我先随便一想,搜集了

  • 萧远山:老婆死了,心灰意冷往下一跳,被树档住了,没死
  • 无崖子:被丁春秋打下山崖,没死
  • 郭襄/杨过/小龙女:跟着杨过跳下去,没死(这里是同一个悬崖、为保障抽样类别独立,只能算一个样本)
  • 裘千尺:被调断手脚筋后扔下去,没死
  • 张无忌:和姓朱的一起掉下去,没死
  • 灭绝老尼姑:六大门派跳下去都被张无忌接住没死,就灭绝推开张无忌挂了。

样本较少,6个,5死1生,死亡率为 1/6 ,现在我就需要通过这几个数字去证明这个铁律是错的!

假设检验

首先,总算进入了统计学中最绕口,最容易患迷糊的知识了,就是假设检验,其实如果多多练习,应该就会驾轻成熟了,假设检验基本上会用到我们之前提到的所有知识,就从一个表开始吧。

假设检验是数据分析中最基本的工具,通常我们要提出假设再去证明,然后下结论,所以如何提出假设非常重要
H0又叫零假设,一般都会在认为零假设成立的基础上根据显著性水平做判断。这个表会告诉你如何做假设,并且如何证实或犯错,犯的错又是哪种类型错误,其实我也看的眼晕,经验之谈如下:

  • 接受H0的情况:一般用于试旧,比如检查产品是否合格,检验是否达到净含量,是否不含仿佛剂,等等。
    这种情况下,一般用H0表示目前情况+希望情况:如 (H0=不含防腐剂 Ha = 含防腐剂) ,(H0=净含量>=200ml Ha = 净含量<200ml)
  • 拒绝H0的情况:一般用于尝新,比如新技术是否有效,新的代码运行效率增高,新的优化使待机时间更长等等。
    这种情况下,一般用H0表示目前情况,但不希望结果是目前情况,如 (H0=待机<=8小时 Ha = 待机>8小时) ,(H0=代码执行时间>=5秒 Ha = 代码执行时间<5秒)

首先我先把这6个样本转换为伯努力分布,令不死 = 0 ,死了 = 1,那么,我们要做一个假设:

原假设 $ H_0 = 跳崖不会死 = \mu = 0$
备假设 $ H_a = 跳崖不一定会死 = \mu != 0 $

那么根据伯努力公式可得:

  • $\overline{x} = \frac{1}{6}$
  • $s_x = \frac{5}{36}$

是不是很累,就算有伯努力这么给了的公式也还是要算,后面还要去查T分布,正态表,真是累,做为学习没关系,做为应用的话,必须得操把好刀了,一般是python和r,但对于这么简单的假设检验,我使用excel就远远足够,而且扩展性也会相当强,更加直观。

首先,我需要输入的已经条件如下:

  1. 数据列表,即5个0(代表没死),1个1(代表死了)
  2. 原价设,在Excel里面选择”数据有效性”->”序列”,给3个选项<=、>= 、=,然后要假设的值大小,填数字
  3. 计算分为总体标准差已知和未知两种,已知的情况下,也要给出已知的值,这样会根据已知的进行计算
  4. 显著性水平,通常要给个0.05代表95%的结论确定性

当然,这个”跳崖不会死铁律”并非公理,仅是网友恶搞,所以有时根据“铁律”来说,电视剧也是会犯错的,比如来绝老妮姑跳楼死了,是就犯了第一类错误,关键是,你会有多大的忍让这个触犯了铁律的电视剧呢,我这里给个5%,就是说,允许0.05的显著性水平容错。

下面这个Excel文件就是一个非常简单的实现,可以下载

Excel

看来说服力还是不足,无法推翻“跳崖必死的荒唐铁律”,但我不到黄河心不死,看看要怎么样才能推翻吧。

  1. 最简单的方法,增加样本数量,这样的话,n提高了,那么整体方差就会差小,相对于p-值而言就会更精确(当然,要多找几个跳崖死了的样本^_^,让概率高些)
  2. 一般需要增加样本数量(提高分母),这样会减小方差,也可以增加一点显著性水平,就可以做出拒绝原假设的返推论了,比如将显著性水平从0.05提高到0.1、0.2等。
  3. 给个已知的总体标准差,比如按照经验法则,90%的人都应该不会死,那么0 +- 2个标准差应该都在0.5之前吧,因为伯努力分布是虚拟结果,所以这里给个已知标准差为0.1时,也可以拒绝原假设,证明铁铁律是错的了。

请不要小看Excel,很多东西在Excel完成的又快又好,而且会比编程语言更直观,而且并不失复用性。那么,我在网上随便找了了个假设检验的例子,用刚才的Excel直接套套:

对于瓶装饮料,包装上净含量为300ML,本检验局对其进行检测看看是否欺骗消费者,抽取了100瓶该饮料,数据如下:(省略)

那么,在Excel里面,只需要把100个数据复制到第一列,原假设设置为>=300即可,简单的几个设置就可以清晰的看到结果了,可以看出商家在搞小猫腻,容量不够!没图我会乱说:

Excel

统计的最后:线性回归、方差分析

统计的最后,也是最简单的,最难的,最实用的,我就一笔带过了。建议看看数学书,多多跑实例。基本各种软件包都包含这些功能。但不一定要强记,知道什么时候可拿这些东西操出来用就OK了。

简单的线性回归方程: $E(y) = m + bx$

求b: $ b = \frac{\sum{(x_i-\overline{x})(y_i-\overline{y})}}{\sum{(x_i-\overline{x})^2}}$
求m: $m = \overline{y} - b\overline{x}$

误差平方和: $ SSE = \sum{(y_i-\hat{y})^2}$
总差平方和: $ SST = \sum{(y_i-\overline{y})^2}$
回归平方和: $ SSR = \sum{(\hat{y} - y_i)^2}$

$ SST = SSE + SSR $

判定系数: $r^2 = \frac{SSR}{SST}$
相关系数 : $ (m的符号.)\sqrt{r^2}$

当然这只是最简单的线性回归了,简单线性回归只支持一个变量,现实中的问题远比这个复杂的多。

后续:实战永远第一位,数据挖掘、线性代数、机器学习!

总体情况
H0 为真Ha 为真
结论接受H0结论正确第二类错误
拒绝H0第一类错误结论正确