数据分析学习笔记五: 假设检验

听说电视有一条铁律:跳崖不会死,由于是网友的调侃,一点都不严肃,那我今天也特别无聊,就想来推翻这个铁律!,于是,我先随便一想,搜集了

  • 萧远山:老婆死了,心灰意冷往下一跳,被树档住了,没死
  • 无崖子:被丁春秋打下山崖,没死
  • 郭襄/杨过/小龙女:跟着杨过跳下去,没死(这里是同一个悬崖、为保障抽样类别独立,只能算一个样本)
  • 裘千尺:被调断手脚筋后扔下去,没死
  • 张无忌:和姓朱的一起掉下去,没死
  • 灭绝老尼姑:六大门派跳下去都被张无忌接住没死,就灭绝推开张无忌挂了。

样本较少,6个,5死1生,死亡率为 1/6 ,现在我就需要通过这几个数字去证明这个铁律是错的!

假设检验

首先,总算进入了统计学中最绕口,最容易患迷糊的知识了,就是假设检验,其实如果多多练习,应该就会驾轻成熟了,假设检验基本上会用到我们之前提到的所有知识,就从一个表开始吧。

阅读更多

数据分析学习笔记四:概率论 - 概率分布

哈哈,最近股票跌的好猛,我是不是可以抄底了?但是我是非常保守的,只有确定90%以上能赚钱甚至是95%、99%以上能赚钱才会去买股票的说,人们常说一入股市深似海,亏的多赚的少,所以,为了保证不亏,我决定使用正态分布去科学炒股了!不知道是否能找到中意的票呢?

根据经验法则:如果知道股标的标准差和平均数(友情提示:发挥下爬虫岂不是很容易?),那么根据经验法则,68%的股票在一个标准差内,那么再去掉多的一测(赚钱的),如果现在的股价为 平均股价 - 标准差,那么亏钱的概率就为 (1-0.68) / 2 = 16%,赚钱的概率就为84%,如果股价已经小于两个标准差外的话,赚钱的概率就为97.5%啦。

投资有风险,入市需谨慎,以上仅为笑谈,呵呵呵。。但经验法则之所以好用,主要有一点是因为它适用于于各种概率分布情况,但一般正态分布情况居多。所以我在考虑问题时都没有想股票的每天收盘价的分布是否服从正态分布就敢把经验法则往上套。不过实际上来说,我们考虑的大多数问题都是正态分布,所以其它不重要的,也不谈说了。

前两节提到的一些公式大多是一些基础,最好还是背下来,比如方差、概率求法等。后续的公式最重要的是理解,不用死记了,如果不是做科研,个人认为实际应用还是比较重要,推导的过程可以加深理解,但我们是用来解决实际问题的,而且一般在numpy,R或excel里面都已经内置了相关的函数。

离散型概率分布:

将概率函数记作$f(x),$离散型概率分布性质如下

阅读更多

数据分析学习笔记三:概率论 - 基础概率

基本概率论其实也挺简单,而且相当实用,比如我花了两块钱买了个双色球,想知道有多少可能性能中500W,你可能说很低很低吧,基本不可能吧,但概率会告诉你具体低到多少!

已知的中奖规则如下:

一等奖 六红一蓝 500万
二等奖 六红 100万
三等奖 五红一蓝 3000
四等奖 五红 OR 四红一蓝 200
五等奖 四红 OR 三红一蓝 10
六等奖 有蓝就行 5

组合数

先来看下基本概率公式,从N个样本中选出n个 (n<N),可以选出的组合数:记做$C_n^N$

阅读更多

数据分析学习笔记二:基本的统计知识记录

今天主要总结一下最基础的公式,基本上都是书上照搬,统计的基本公式最重要的作用就是后续做区间估计,方差分析,线性回归等实际应用场景,当然了,就算对统计皮毛都不知道的人都知道一些基本的,比如平均数等。

对于大学贡献给网游的本人来说,只能勤练反补了,主要门槛也就两点:一个是英语要OK,做为最终需要应用落实来说,程序的变量总要会写、Google上的关键字总要会打吧。另外就是数学要OK,后面的很多概率公式、分布函数等等都需要有高数基础,不过数学不是必选项,它会告诉你公式的演绎原理让你更为深入的理解,当然如果没有可以直接应用于各种分析,但对于复杂的问题可能会遇到瓶颈,所以不懂高数的,学完后再补习一下大学课本也是个不错的选择。

平均数(mean)、中位数(median),众数(mode)

在概念上,平均数分为样本平均数与总体平均数,实际上算法都是一样的,但在统计上,后续算一些其它的变量时需要分开,$\mu$是后续非常用的一个变量。

阅读更多

数据分析学习笔记一:使用numpy + pandas + matplotlib画图

最近准备学习数据分析技术,感觉相当的实用,做为一个学习计划抽出来学习下,最近大块时间不多,隔断时间会作些笔记更新。

数据分析就是要分析数据得出一些结论,从而做出正确的决策。当然,这些分析思路并不在本笔记中,有时也可能发表下个人观点,尽量以实例进行说明。如果想自学,推荐自行看书或MOOC,个人推荐《商务与经济统计》,推荐的理由是里面的讲解与习题大部分都是实际生活的统计应用,非常适合开展思路与练习。

从商业数据开始说起,这个Excel文件是一份比较普通的销售记录中随便抽取的100行,数据的结构说明如下面的:

列数据 说明
Customer 编号
Type of Customer 顾客类型:普通/促销
Items 购买件数
Net Sales 净销售额
Method of Payment 支付方式
Gender 性别
Marital Status 婚姻状况
Age 年龄

本篇主要是利用python的matplotlib去做一些图,首先把这些引入先放执行,并把文件读出来。这里有Matplotlib的示例,可以根据自己要画的图形去看,库功能挺多的,会活用就非常强大。

1
2
3
4
5
6
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

file = pd.ExcelFile('PelicanStores.xlsx')
data = pd.read_excel(file, sheetname='Data')
阅读更多