P50 第6章:挖掘大型数据库中的关联规则6.1关联规则挖掘6.2由事务数据库挖掘单维布尔关联规则6.3由事务数据库挖掘多层关联规则6.4由关系数据库和数据仓库挖掘多维关联规则6.5由关联挖掘到相关性分析6.6基于约束的关联挖掘6.7小结数据挖掘:概念和技术什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leaderanalysis、聚集、分类等。
P55 概念描述特征化和比较什么是概念描述?数据概化和基于汇总的特征化解析特征化:分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结什么是概念描述?描述性vs.预测性数据挖掘描述性数据挖掘:预测性数据挖掘:概念描述:特征化:对所选择的数据集给出一个简单明了的描述,汇总比较:提供对于两个或多个数据集进行比较的描述概念描述和OLAP区别概念描述:能够处理复杂的数据类型和各种汇总方法更加自动化OLAP:只能限制于少量的维度和数据类型用户控制的流程特征化和比较什么是概念描述?数据概化和基于汇总的特征化分析特征化:分析属性之间的关联性挖掘类比较
P16 **数据预处理2009年4月27日**2.1数据预处理的原因正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义**数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98]数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力**数据预处理的形式数据清理数据集成数据变换数据归约**2.2描述性数据汇总均值分布式度量sum()count()min()max()代数度量average()mean()加权平均截断平均减小极端值的影响整体度量中位数众数中列数(max+min)/22.2.1度量数据的中心趋势
P53 第3章数据仓库和数据挖掘的OLAP技术本章要点数据仓库的基本概念多维数据模型数据仓库的系统结构数据仓库实现数据立方体技术的近一步发展从数据仓库到数据挖掘数据仓库的发展自从NCR公司为WalMart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。
P62 *2008年3月数据挖掘概念与技术*第1章引言本章要点数据仓库的发展数据挖掘数据挖掘的类型数据挖掘常用技术数据挖掘解决的典型商业问题*数据仓库的发展自从NCR公司为WalMart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库:大都客户/服务器结构。近年来:数据仓库体系结构从功能上划分为若干个分布式对象,可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。
P150 Linux操作系统实用教程第1章Linux基础1.1Linux简介1.2利用VMWare虚拟机搭建学习环境第1章Linux基础本章概述与目前流行的Windows相比,Linux是一个免费开放源代码的操作系统,其支持多用户多任务等优秀特点,吸引了一大批从事Linux研究和应用的爱好者,本章主要向初学者介绍什么是Linux,Linux的特点和优势,Linux的版本以及学习环境的搭建,以便初学者能够从总体上了解Linux操作系统,并且搭建自己学习Linux的环境。第1章Linux基础1.1Linux简介Linux是免费的、不受版权制约、与UNIX兼容的操作系统。由芬兰人LinusTorvalds于1991年开发出来,目前由来自世界各地的爱好者进行开发和维护。Linux自从诞生以来,凭借其稳定、安全、高性能和高扩展性等优点,得到了广大用户的欢迎。
P0 简单说一说Storm这个东西Storm的原理/集群架构/编程模型…那些年遇到的一些坑我们都用它来做什么Storm的硬伤--资源调度/生态实时类SQL与拓扑的高度模块化Storm基础--它是干什么的?Storm基础--集群架构Storm基础--在此之上要做的事那些年遇到的一些坑跑着跑着拓扑应用挂了,worker不断重启失败!
P20 海量数据处理之大跃进--自主bi系统"天到实时"耿一斐数据行业现状一、各大公司日益重视数据二、数据产品涉及的行业越来越多三、数据产品市场越来越广泛BI系统,搜索,推荐是数据的几种较为直接的使用形态。数据应用面临着越来越多的挑战数据量越来越多,G---T---P客户要求响应,day---hour---minute--second隔天信息BI系统架构图适用场景该系统一般隔天执行,统计数据基于Hadoop生态体系,M/R,hive等都已基本成熟。Mapreduce,hive-sql开发较易。Mysql关系型数据库支持各种组合,关联查询,易于数据展现。重度依赖调度系统推荐一款开源的调度系统(Zeus)1、友好的界面显示、全中文,配置简单
P12 开始!大家好~~~~~我是这次的分享者赖志鹏,主要分享内容是BI大数据BI商业智能把商业智能看成一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供数据支持。数据仓库模型设计与业务的关系分析需求,与客户沟通需求。建模确定输入寻找数据源预处理(不一定存在)数据挖掘(不一定存在)输出结果算法手机号码中
P21 公开课主题:浅析Storm流式计算主讲人:肖康主要内容Storm简介Storm原理和架构Storm实战*Storm简介-案例分析统计某个服务被访问的客户端地域分布情况日志中记录了客户端IP把IP转换成地域按照地域进行统计Storm简介-案例分析Hadoop貌似就可以轻松搞定日志存HDFS运行MapReduce程序map做ip提取,转换成地域reduce以地域为key聚合,计数统计从HDFS取出结果Storm简介-案例分析如果有时效性要求呢?小时级:还行,每小时跑一个MapReduceJob10分钟:还凑合能跑5分钟:够呛了,等槽位可能要几分钟呢1分钟:算了吧,启动Job就要几十秒呢秒级:…分析MapReduce不满足时效性要求的原因一批数据启动一次,处理完进程停止启动本身是需要时间的:输入切分、调度、起进程共享集群Job比较杂
P31 Storm及交通实时数据处理报告人:汪杰宇绪论知识Storm架构一个简单的Storm例子Storm在交通数据处理中的应用目录背景:大数据的产生GBTBPBEBZB数据量的增长:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。有市场研究机构预测(2009年):到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1GB=2^30字节1TB=2^40字节1PB=2^50字节1EB=2^60字节1ZB=2^70字节背景:大数据处理模式主要的处理模式可以分为流处理(streamprocessing)和批处理(batchprocessing)两种。批处理是先存储后处理(store-process),而流处理则是直接处理(straight-throughprocess)。(有时也分为在线、离线、近线三种)
P38 目录什么是FIS前端集成化方案前端自动化工具ANTGRUNTGlup FIS什么是FIS自动化工具+集成化方案集成化方案--组件化天气搜索栏网址导航实时热点组件化优势结构清晰目录直观可复用组件化的问题实际使用效果如何?组件化的问题资源加载引用资源繁琐使用成本高连接数过多不用了还要自己删组件化的问题资源加载维护打包策略资源冗余缓存利用组件化的问题这样的组件化太痛苦!
P46 nodejs是一个平台让Javascript运行在浏览器之外的平台shirlyzhang为什么适合开发服务器端程序呢?shirlyzhang模块机制异步IO,事件轮询机制模块系统遵循commonJS规范方便的定义和引入1shirlyzhangvarhttp=require('http');varuser=require('./routes/user')得到模块的导出对象module.exportsshirlyzhangrequire的一个重要行为就是它缓存了module.exports的值并且在未来再次调用require时返回同样的值。它依据被require文件的绝对路径来进行缓存。
P33 RDS最佳实践阿里巴巴数据库技术-玄惭*我们的团队.我们来自阿里集团数据库技术团队,负责维护RDS所有线上的数据库实例,.团队成员里有去IOE的直接操刀人,也有丰富双11经验的工程师.涵盖了:Oracle,MySQL,SQLSERVER,Postgresql*目录最佳实践-优化路线图最佳实践-定位瓶颈最佳实践-设计优化最佳实践-SQL优化最佳实践-RDS弹性升级*我们使用RDS中遇到了什么?为什么我的RDS慢了?为什么我的RDScpu,iops,连接数100%?为什么我的RDS空间满了?*最佳实践-路线图定位瓶颈设计优化
P21 iSearch4性能优化之路一浪概要引擎系统架构优化结果总结索引结构优化查询流程优化其他优化iSearch4引擎系统架构
P19 iSearch5的性能挑战iSearch5性能优化我们做了什么Searcherresultcache Bitmap索引索引截断索引排序索引分层其他优化Searcherresultcache35%query重复出现索引实时更新Cache失效策略结果合并100%性能提升上次查询时doc集合新增Bitmap索引宝贝类型:90%+是一口价类型的高频词:男女正品2013倒排求交,计算量大正排过滤,不适合高频词性能提升100%索引截断原始链A截断链B截断链C截断链性能提升70%索引排序绝大部分query和某几个类目相关很多term和某几个类目相关排序后性能30%排序后倒排索引大小下降30%排序前排序后索引分层分层前单集群分层后双集群性能提升30%其他优化异构机器调度大增量merge粗排
P15 SearchPlanner-搜索共享业务平台亚夫曾经的淘宝搜索系统架构100+个不同应用调用搜索服务20+个不同功能的子系统构成了淘宝的搜索系统存在的问题:无法提供完整的搜索服务用户体验不一致,算法团队的各种创新成果不能共享存在严重的安全隐患引擎及其它系统更新换代困难各应用重复工作,效率低下现在的淘宝搜索系统架构解决了旧架构的各种不足,将N*M的复杂关系,变为了N+M各业务在SearchPlanner平台上互相融合,涌现出了一系列创新型业务,成为了一个创新支撑平台面临的技术挑战:稳定性开发效率数据驱动的业务快速迭代SearchPlanner整体架构提供三个层次的服务:完整的搜索业务服务搜索的基础服务平台的基础服务
P21 iSearch5商品搜索特色功能引擎平台调度系统喜德iSearch5插件机制总述iSearch5正排定制iSearch5查询流程控制iSearch5截断与分层iSearch5引擎插件定制能力算分插件QRS插件文档处理插件动态摘要插件Functionexpression插件Sorter插件iSearch5正排定制
P31 OpenSearch—可定制式开放云搜索平台一淘及搜索事业部国泊(郭瑞杰)大纲个人介绍性能优化2008年7月毕业于中科院计算所,工学博士,研究方向实时搜索2008.8新的启程:重新实现查询引擎新的启程:组建团队,重新实现索引引擎(indexlib)1.反思:优化存储、online解耦飞天2.应用:全网搜索开启HA3准实时搜索时代(Swift+HA30.6)应用:CNZZ通用站内搜索(替换soso站内)1.提出产品想法2.团队组建&探路:外包式定制开放定制3.技术决策:与全网搜索服务必须分离
P80 设计模式详解何谓设计模式在面向对象程序设计(OOP)过程中,我们经常会遇到很多重复出现的问题,总结解决这些问题的成功经验和最佳实践便形成了设计模式(DesignPattern)。其核心思想是将可重用的解决方案总结出来,并分门别类。从而指导设计,减少代码重复和优化体系结构。采用设计模式的益处重用,避免代码重复冗余优化体系结构提升系统的可维护性和弹性代码更加容易测试,利于测试驱动为性能优化提供便利使软件质量更加有保证增强代码可读性,便于团队交流有助于整体提升团队水平设计模式、重构和Antiparttern设计模式是成功经验和最佳实践的总结,指导设计人员采用正确精良的设计。