• 1. 大数据挖掘严宇宇 2013-4-18
  • 2. 大数据处理技术的重要性Gartner(高德纳)公司研究认为,新产生的数据量每年正以50%的速度递增,而这个速度使得每年新增的数据量不到两年就会翻一番。
  • 3. 大数据的基本特点大量化(Volume) 多样化(Variety) 快速化 (Velocity) 价值(Value)
  • 4. 大数据的基本特点数据的可验证性(Verification) 可变性(Variability) 真实性(Veracity) 邻近性(Vicinity)
  • 5. 从数据分析到数据挖掘数据本身不同(数据量的不同,数据类型的不同) 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 数据分析有明确目标的特点,数据挖掘是一个知识发现的过程。 数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上。 大数据挖掘是传统手工业式的数据分析的现代大工业形式。
  • 6. Web挖掘基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息。 可分为三类:内容挖掘 结构挖掘 用户访问模式挖掘
  • 7. 数据挖掘的基本流程信息收集 数据集成 数据规约 数据清理 数据变换 数据挖掘过程 模式评估 知识表示数据规约,数据清理,数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能花费在信息收集阶段,而其中至少60%以上的精力和时间花在数据预处理的过程中。
  • 8. CRIAP-DM数据挖掘过程示意图业务理解 数据理解 数据准备 建模 评估 部署
  • 9. 数据挖掘的评估准确性 性能 功能性 可用性 辅助功能
  • 10. 数据挖掘的应用发展营销领域的零售业 直效行销界 制造业 业务金融保险 通信业 医疗服务业 各种政府机关
  • 11. 数据挖掘的应用发展尿不湿和啤酒 某百货零售企业将强大的数据挖掘软件用在销售数据库上,得出了一个有意思的结论,那些前来为周末采购啤酒的男性客户往往会想起妻子让他们买纸尿裤,或者那些周末前来购买纸尿裤的男性客户会同时为自己购买啤酒,所以他们会将两种商品都放入购物车里。于是该零售企业很快将销售纸尿裤和啤酒的柜台放到不远的地方,进而销售量大增。
  • 12. 数据挖掘的应用发展Target和怀孕预测指数 美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:"你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。"店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
  • 13. 数据挖掘研究发展对于大规模数据的存储、管理和使用,包括在分布式环境上建立数据仓库的方式方法。 知识发现语言的形式化描述和算法,既研究专门用于知识发现的数据挖掘语言。 数据挖掘过程中的可视化方法,使知识发现的过程能够更容易被用户理解,业便于在知识发现的过程中进行人机交互。 生物信息和基因的数据挖掘。 Web数据挖掘的各个方面。
  • 14. 数据挖掘十大经典算法C4.5 一种分类决策树算法 The K-means algorithm即k-means算法 SVM(Support Vector Machine) 支持向量机 The Apriori Algorithm 最大期望(EM)算法 PageRank AdaBoost KNN,K最近邻分类算法 Naive Bayes朴素贝叶斯 CART,分类与回归树
  • 15. 分类算法应用直邮营销 客户流失模型 垃圾邮件处理 信用卡分级
  • 16. 分类算法基于决策树的分类算法 决策树其叶节点是类别名称,中间节点是带有分枝的属性,每个分枝对应该属性的某一可能值。 if(obj.相貌==‘ 帅’) then{ if(obj.财富>=1000000000) then{ print(obj.Name+"高富帅"); }else{ print(obj.Name+“是帅哥"); }else{ if(obj.财富>=1000000000) then{ print(obj.Name+”是高富"); }else{ print(obj.Name+"是屌丝"); } }
  • 17. 分类算法:决策树构建过程(1)我们先根据训练子集形成一个初始的决策树。 (2)如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中。 (3)重复该过程一直到形成正确的决策集。
  • 18. 分类算法:神经网络神经网络是通过对人脑的基本单元————神经元的建模和链接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、记忆和模式识别等智能信息处理功能的人工系统。神经元结构
  • 19. 分类算法:神经网络简单BP神经网络蠓虫分类问题可概括叙述如下:生物学家试图对两种蠓虫(Af与Apf)进行鉴别, 依据的资料是触角和翅膀的长度,已经测得了9 支Af和6 支Apf 的数据如下: Af: (1.24,1.27),(1.36,1.74) ,(1.38,1.64) ,(1.38,1.82) ,(1.38,1.90) ,(1.40,1.70) , (1.48,1.82) ,(1.54,1.82) ,(1.56,2.08). Apf: (1.14,1.82),(1.18,1.96) ,(1.20,1.86) ,(1.26,2.00) ,(1.28,2.00) ,(1.30,1.96). 现在的问题是: (i )根据如上资料,如何制定一种方法,正确地区分两类蠓虫。 (ii )对触角和翼长分别为(1.24,1.80) ,(1.28,1.84) 与(1.40,2.04) 的3 个标本,用所得到的方法加以识别。
  • 20. 分类算法:神经网络matlab代码: clear p1=[1.24,1.27;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; p2=[1.14,1.82;1.18,1.96;1.20,1.86;1.26,2.00 1.28,2.00;1.30,1.96]; p=[p1;p2]'; pr=minmax(p); %归一化 goal=[ones(1,9),zeros(1,6);zeros(1,9),ones(1,6)]; %分类结果 plot(p1(:,1),p1(:,2),'h',p2(:,1),p2(:,2),'o') net=newff(pr,[3,2],{'logsig','logsig'}); %建立神经网络 net.trainParam.show = 10; net.trainParam.lr = 0.05; %学习步长 net.trainParam.goal = 1e-10; %误差 net.trainParam.epochs = 50000; %迭代次数 net = train(net,p,goal); %训练 x=[1.24 1.80;1.28 1.84;1.40 2.04]'; y0=sim(net,p) y=sim(net,x) figure(1) plot(y0(1,:),':og') hold on plot(goal(1,:),'-*'); egend('预测输出','期望输出','fontsize',27)
  • 21. 分类算法:神经网络结果:(1.24,1.80) ,(1.28,1.84) 与(1.40,2.04) 的3 个标本分类结果 (0.0448,0.9503) (0.3432,0.6821) (0.8027,0.2499)
  • 22. 分类算法:神经网络
  • 23. 分类算法:KNN,K最近邻算法右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。
  • 24. 分类算法的评估假设一个用于二分类的分类器最终得出的结果混淆矩阵预测值实 际 值010AB1CD 其中,d是“实际为1而预测为1”的样本个数,c是“实际为1而预测为0”的样本个数,其余依此类推。
  • 25. 分类算法评估因为我们比较关注正例的情形,所以设置了两个相应的指标:TPR与FPR。 TPR:True Positive Rate,将实际的1正确地预测为1的概率,d/(c+d)。 FPR:False Positive Rate,将实际的0错误地预测为1的概率,b/(a+b)。ROC曲线Lift曲线Lift=pv/k,其中pv=d/(b+d)表示采用分类器正类的识别比例,k=(c+d)/(a=b=c=d)表示用随机方式抽取出正类的比例 RPP=(b+d)/(a+b+c+d)表示正类预测比例
  • 26. 聚类算法聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。对于n个样本的集合, 给定一个阈值T。 (1)任取一个样本,例如 ,把 作为第一个类的中心 。 (2)然后从样本集中依次取 ,计算 与 的距离 。 若 ,则判定属于 为中心的那个类; 若 ,则把 作为新的类中心 。 (3)然后再对剩下的样本取一个 分别计算与 , 的距离 。 若其中较小者 ,则判定 属于较小的那一类; 否则,就把 作为新的一个类的中心 。 如此继续循环,直至对全体样本作完处理。完成之后,我们就得到了 几个类别 ,而这些类别中的样本和这些样本中心的距离都不大于阈值T。
  • 27. 聚类算法K-Means聚类 对右图上的坐标点做聚类分析 大小512*512,分成3类
  • 28. 聚类算法结果:
  • 29. 关联算法支持度:数据集中包含几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿不湿的次数是50,那么此关联的支持度是5%。 置信度:计算公式:(A和B同时出现的概率)/(A出现的概率)。 Support(AB)=P(AB) Confidence(AB)=P(B|A)
  • 30. 关联算法:Apriori算法的执行实例交易标号销售内容1牛奶,冰淇淋,果酱,面包2冰淇淋,果酱,面包,咖啡3牛奶,面包,果酱4牛奶,咖啡5牛奶,面包,巧克力6冰淇淋,面包,咖啡7牛奶,果酱,面包,香蕉8咖啡,面包,葡萄
  • 31. 关联算法:Apriori算法的执行实例所有满足最小支持度3的1-项频集,其中的支持度是该产品在整个数据集中出现的次数。 支持度销售内容5牛奶3冰淇淋4果酱3咖啡6面包
  • 32. 关联算法:Apriori算法的执行实例递归执行,所有满足最小支持度3的2-项频集如下,支持度销售内容3面包,咖啡4牛奶,面包3冰淇淋,面包4面包,果酱
  • 33. 关联算法:Apriori算法的执行实例再次递归执行,所有满足最小支持度3的3-项频集只剩下一条。支持度销售内容3牛奶,果酱,面包
  • 34. 关联算法:其它引入概念层次,:蒙牛牌牛奶是牛奶,伊利牌牛奶是牛奶。 则可分为同层关联规则和层间关联规则。 多维的关联规则
  • 35. 序列挖掘在数据挖掘中的序列挖掘指的是从一个序列中的数据找出统计规律。 回归分析:一元线性回归、多元线性回归、非线性回归..... 时间序列:AR模型(Auto Regression Model),MA模型(Moving Average Model) ,ARMA模型(Auto Regression Moving Average model) ARMA模型方程:
  • 36. 序列挖掘北京市城乡居民定期储蓄比例序列拟合与预测图
  • 37. 数据挖掘建模语言PMML数据挖掘建模语言PMML是Predictive Model Markup Language(预言模型标记预言)的缩写,是一种基于XML的数据挖掘建模语言。 主要由:标题(Header)、数据字典(Data Dictionary)、数据流(Data Flow)、挖掘模型(Mining Schema)、数据转换(Data Transformation)、模型(Model)、数据挖掘计划(Mining Schema)、目标(Targets)等六个部分组成。