X.d 笔记

小Web,大世界

0%

数据思维:增加对数据的敏感性!

最近从各大招聘网站上看,很多职位上有这么一条 对数据敏感 ,这是一条模糊的概念,其实是由于最近的大数据和人工智能太过热门,所以多了这么一条要求,其实招这些人的公司并不能完全明白 数据敏感到底是一种什么样的能力 ?

数据敏感 DEMO

如果看过一两篇关于数据的文章,你对于这个图就不会陌生:

这里以一个买房的过程,举个栗子:

  1. 你想买房,那肯定会自觉的关心城市的房价,在一定的时间范围内,对房价数据感兴趣,收集 一些需要的房价信息, 对房价会有一定了解,积累为 常识

  2. 当你有了一定的 常识 后,再去看房网站去看列表时,才会 发现 一些房价小于相似房源的 低价房

  3. 因为你想捡便宜,这些 低价房就是你优先看的目标。所以你点进去,再把相似的房源也点进去,通过各项数据 分析 对比,可以知道为什么会便宜

  4. 经过大量的 分析 后,你已经 转化 了一套别人不能具有的 知识,比如:影响房价的最高的三个因素,一种类型的房的共性、特性,等等。

通过上面的例子,也就是本人的浅见,数据敏感的能力分为四个层级:1. 收集 => 得到常识2. 必现 => 得到异常3. 分析 => 得到信息4. 转化 => 得到知识

收集 =》 常识

在实际的工作过程中,当然数据肯定不会去一些购房网站去收集数据的,而且真正关注房价的人,录入数据的正确方式也不是去购房网站去翻网页。

在企业内,收集数据的主要场地应该是公司内部数 和 外部权威网站,以房价为例,我上网搜到一个网站的数据看上去还不错:http://www.creprice.cn/depth/yearBookAll.html

上面的链接可以不用打开,我已经截好图:

说明:这个网站上大部分数据都是收费的,一般来说,对于数据分析的企业一般建议直接去买高质量的行业数据。 省下的时间、人力成本远大于充的数据会员费用。
你也可以用各种科技把已经购买的数据保存下来,这样可以转换为自己的分析程序可用,而且会员过期了也不怕 :grinning:

上面的数据就是一份已经整合过的样例,多看些这样的数据,就能形常识吗?未必。

具备收集的能力,并不是胡乱的瞎看,有一套自我收集的系统,怎么去打造一套自己的结构化信息收集系统,根据信息不同,个人的不同也会不同。但是,你一定要找到一套收集数据的规律。

发现 =》 异常

对于上面那个图,如果你已经行成了常识,那么对于下一个数据过来时,你就能很自然的发现有没异常了,比如你在购房网站上看到的房,就能很自然的区分哪些房价属于正常范围,哪些房价很低,找到异常与机会。

发现异常屏不是一个简单的思考过程,有的时候,你需要一些计算,就比如上面的数据,平均房价 16500 ,但是中位数确只有 9700,那么我大胆估计房价区间的箱线图是如下:

那么后续碰到,就有了科学的异常判断。当然这只是个例,判断异常的方法根据业务场景的不同也会千变万化!

分析 =》 信息

对于一个从事房产数据研究的人来说,只关心房产数据肯定是及其不负责的。拿上面的信息来说。数据里面还有,平均面积总套数 等等,好像和房价无关?

如果是对数据敏感,肯定需要对相关数据也要关心,比如说你从其它地方知道,2017年 大学生毕业数量 800W,那我就大胆用这个数字再估计市场对房的需求量?当然肯定是不准的,但是如果你从不同领域掌握了各种不同的信息,再进行结合分析,那就可以进行信息了。

不管对企业还是个人,有价值的信息是宝贵的,掌握更多的信息,做的决策也就更加正确。

综上所述,分析 数据,除了要有基本的 数学基础 ,尤其是 统计学概率论 。 还要 了解业务,即数据分析是建立在 数学常识 之上的一种能力。

转化 =》 知识

知识站在数据的最顶端,如果说信息可以做出 决策,那么 知识就可以做出 规划,它不仅可以用于日常判断,还能做出边界原则,让人的思考范围不要过界,指导个人或企业的 格局观

关于从 数据信息 再到 知识 的流程,市面上大多数的书都在教你如何思考,如何整理、如何记忆、如何建立联系之类的,方法万千。 从理论上来说应该分为以下几步:

  1. 建立自己的知识库,用自己的方法进行分类。
  2. 日常收集、思维训练
  3. 定期回顾、整理、归纳
  4. 持续改进、对知识产物进行输出

对于具体的方法,各路领袖都有分享心得,个人建议找一两个有效的坚持即可,可以搭配科技,可能更为有效、不要为了找方法而陷入不停的去找方法的过程中!

数据思维

Goole 的面试可算堪称难度之最,他们只招精英人才,数据思维 是 Google 拟招聘的硬性要求,先看一个面试题目:

芝加哥有多少钢琴调音师? 说明:不允许上网搜索、翻阅资料,纯回答。并说明理由!

如果不具有数据思维,随便回答一个数字,即使是蒙对了,也是过不了关的。 但是如果你对面试官一条一条推理:

  1. 芝加哥共有 1000万 的家庭
  2. 假设 1% 的家庭 拥有钢琴。
  3. 假设 10% 的钢琴拥有者会调音
  4. 结论 = 10000000 * 0.01 * 0.1 = 10000

可以看到我上面的数字非常夸张,结果也肯定是错的,但是这些数字并不重要,重要的是你思考问题的过程。当然我上面的推理过程也很粗糙,实际面试中,加加入更多的因素,去优化你推理过程,只要你的推理过程可靠,那么,就可以定义出解答问题的 公式 !这些不太重要的数据,上网一查,代入公式中,也就很快能得到结果了。

思考过程可以从不同的切入点进入,比如你也可以从芝加哥每年举行的钢琴交流会做入口进行推导等等。不管是什么问题,只要你最后的结论是推导出来的,而且思维缜密,那Google的第一关应该就能顺利通过。

小结

  1. 如果你是文科类支持者,爱好艺术创作,不喜欢数据推理,可以直接放弃。
  2. 增加自身各方面见识,总是没有错的。
  3. 如果是在练习初期,不要怕浪费时间,拿出纸和笔,像解小时候的数学应用题一样去进行推论
  4. 认识工具,工具的功能是辅助作用,并不是帮你思考