数据挖掘学习指南--概念详解

数据挖掘(Data mining)又译为资料探勘、数据采矿。一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。


设想一个情况,假如说我电脑上的一个文件夹存放着十万张图片,这些图片里面有三张是我有用的图片,其他的也是有用,但是我暂时不需要它们,我的目的是要找出这十万张图片中对我有用的图片,请问我应该怎么操作。

明显这个问题样本太多,人工操作的话很难解决这个问题,在这种情况下我们必须要借助一些计算机处理方式来解决问题,我们暂定这种方式就是数据挖掘。



数据挖掘的三个阶段:

第一阶段:电子邮件阶段

大概在20世纪70年代开始,平均的通讯量以每年几倍的速度增长。

第二阶段:信息发布阶段

从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。

第三阶段: EC(Electronic Commerce),即电子商务阶段

1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。

第四阶段:全程电子商务阶段

随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。



如何使用数据挖掘

分析方法分类

  • 分类 (Classification)
  • 估计(Estimation)
  • 预测(Prediction
  • 相关性分组或关联规则(Affinity grouping or association rules)
  • 聚类(Clustering)
  • 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)


处理经验

第一,目标律:业务目标是所有数据解决方案的源头。

第二,知识律:业务知识是数据挖掘过程每一步的核心。

第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要。

第四,试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现。

第五,模式律(大卫律):数据中总含有模式。

第六,洞察律:数据挖掘增大对业务的认知。

第七,预测律:预测提高了信息泛化能力。

第八,价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性。

第九,变化律:所有的模式因业务变化而变化。




行业应用

价格竞争空前激烈,语音业务增长趋缓,快速增长的中国移动通信市场正面临着前所未有的生存压力。中国电信业改革的加速推进形成了新的竞争态势,移动运营市场的竞争广度和强度将进一步加大,这特别表现在集团客户领域。移动信息化和集团客户已然成为未来各运营商应对竞争、获取持续增长的新引擎。

随着国内三足鼎立全业务竞争态势和3G牌照发放,各运营商为集团客户提供融合的信息化解决方案将是大势所趋,而移动信息化将成为全面进入信息化服务领域的先导力量。传统移动运营商因此面临着从传统个人业务转向同时拓展集团客户信息化业务领域的挑战。如何应对来自内外部的挑战,迅速以移动信息化业务作为融合业务的竞争利器之一拓展集团客户市场,在新兴市场中立于不败之地,是传统移动运营商需要解决的紧迫问题。


常用的经典算法

1. C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法

2. K-means算法:是一种聚类算法。

3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中

4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。

5.EM:最大期望值法。

6.pagerank:是google算法的重要内容。

7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。

8.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。

9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)

10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。


知乎相关问题

如何系统地学习数据挖掘?

什么是数据挖掘?

怎么培养数据分析的能力?

如何成为一名数据科学家?

编辑于 2018-02-08 11:29