写完了前三个小部分发现连介绍部分都没写,所以说预处理有多么重要。
技术人员对大数据的印象会和有不同、各种名词,算法,会让人敬而远之,就像搞程序一样,外行人认为是技术牛X,内行人看着都是狗屎代码。
数据挖掘介绍
可能大家已经看过不少大数据介绍的视频了,很多介绍诸如大数据知道哪里会犯罪,大数据知道你正在电脑上干嘛,大数据知道哪些货好卖了,甚至还有视频放屁说大数据能预测双色球中奖号码!也许你会觉得很酷,认为大数据就是这么牛,然后再一看算法,又完全不知道如何套用,就一直把美好存心中了,唯一的用处就是每每别人讨论大数据时,可以插上两句话,让别人认为你有点内行。
见的多了的词汇
大数据、机器学习、云计算、数据挖掘,这些是一个概念吗?为何这些关键字总会一起出现?
大数据一般就是指用普通服务器无法处理的数据,比如TB级别的数据,如果要对数据进行一些处理,比如搜索这么多数据中的一条记录,很难通过一个服务器,一个程序去搞定。大数据技术就是解决这类问题的,一般大数据会与数据挖掘产生一定的关系,因为大数据如果不进行挖掘,数据就如一座矿山停在那里,山里面的金矿一直在山里面。大数据处理技术一般可以很好的为下一步的数据挖掘服务,企业的核心竞争力也是在数据挖掘这一块。
数据挖掘也并不是一门独立的学科,是由各种各样的知识,聚焦在一起,去大数据里面探索金矿的知识,包括了数学如概率统计、线性代数、微积分等,计算机科学:如计算机理论、数据结构与算法、可视化技术,根据要挖掘的数据性质不同,还需要专业业务知识,各种社科知识等。总之只要你手上的工作是从数据里面找出有用的数据,不一定非得是大数据,那么你就可以说你在做数据挖掘了。
云计算:当你有了数据之后,写出了算法之后,想去跑一跑,但如果算法需要的计算量很大,那个人电脑估计就独木难支了,可以去云计算服务器去买,云计算和传统的服务器的区别就是用多少,买多少,不用了就不给钱了,扩展起来也容易。
机器学习,专指数据挖掘里面的学习,和计算机相关的部分,里面有很多算法,很多技巧,将数据挖掘的理论知识变为可能。深度学习,实际上就是神经网络算法多加几层而已。
笔记不会做太多的介绍,总之,不要看太多的软文,放手去做才是最重要的,并不像你想的那么难呢?不要去看那些离我们太远的分析,最好就是拿身边在用的数据就行。