• 1. 以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据http://www.xfyun.cn/
  • 2. 大数据技术发展Native lib Checksum 机制 ShortCircuit Read一头奔跑的大象,不断进化YARN 架构不断优化Yarn(第二代Mapreduce) NameNode Federation不断完善的生态系统SQL数据操作(Hive、Impala、Shark) 脚本语言(Pig) ETL(Flume、Sqoop) 内存计算&流计算(Impala、Shark、Storm) 工作流(oozie)运维管理工具简易的集群部署功能 服务配置管理 集群状态监控
  • 3. 大数据技术发展大数据技术有哪些不足 大数据技术本身百花齐放,如何用好每项技术是个难题 大数据技术内部融合性不够 大数据技术与其他传统技术的融合性不够 我们缺少什么? 缺乏一个能融合现有大数据技术的技术
  • 4. 技术领域如何解决大数据技术应用难的问题?
  • 5. 大数据基础技术的风向标Apache Hadoop Ecosystem Doug Cutting Cloudera & Apache
  • 6. 大数据基础技术的风向标The Ecosystem is the System Hadoop has become the kernel of the distributed operating system for Big Data a de-facto industry standard No one uses the kernel alone A collection of projects at Apache Avro support across components解读以Hadoop为核心,融合其他技术的平台系统 Avro是实现融合的关键技术
  • 7. Cloudera在做-Hadoop应用体验
  • 8. Cloudera在做-Hadoop开发体验Develop With CDK
  • 9. 讯飞如何应对这个技术挑战?Maple
  • 10. 讯飞大数据开放平台以数据导向为理念 以Hadoop为核心 融合优秀技术 因地制宜的使用技术 提升大数据用户体验Maple 大数据开放平台
  • 11. 讯飞大数据开放平台的构成大数据全新应用体验Evolution基础集群Maple-SDKMaple-BDWS
  • 12. 讯飞大数据开放平台-架构图Flume-ngSqoopETLHadoop(存储&计算)Storm&SparkHive&PigHbaseRedis缓存搜索引擎数据库语音云应用层AppsMaple-SDKMaple-BDWS
  • 13. 大数据开放平台的门户Maple-BDWS
  • 14. 大数据工作站-Maple-BDWS功能 代码托管 编译部署 工作流设计 任务调度 数据&任务信息浏览 特点 多个集群管理 多版本集群兼容 支持多项目管理 在线编译部署(One button to use)
  • 15. 大数据工作站- Maple-BDWS
  • 16. 大数据开放平台的灵魂Maple-SDK
  • 17. SDK For Integration TechnicalMaple-SDK
  • 18. 大数据开发包-Maple-SDK数据建模(DataSource) Avro-Mapreduce编程库 Flume-ng扩展组件(Flume-ng-ext) 统计分析(Maple-Report) 分布式索引(Maple-Index)
  • 19. 大数据建模(DataSourcec) 适用于大数据的动态、自动建模系统 实现数据导向理念的基础Data Source
  • 20. 基本属性用大数据的眼光看数据-DataSourceSchemaPartition数据格式文本格式Avro格式列存储格式数据库文件存储位置HDFSLocalFsDataBaseMemory
  • 21. 用大数据的眼光看数据-Data SourceSchemaPartitionData Source一个字“多” 常用Partition策略 Hash Partition 日期Partition动态特性 随Partition不同会变化 不同Partition的Schema支持合并成新的Schema Schema的属性(适应并描述数据的变化特性) 字段名 字段稀疏性 字段类型分布
  • 22. 围绕DataSourcce建立的数据导向APIData SourceInOutMERGERS & JOINOut ToData SourceOut ToSolrDBHiveQL On SourceSharkQL On SourceSpark Load SourceImpala On SourcePig On Source
  • 23. 实现融合的关键技术-Avro
  • 24. 开发者Thrift & Protobuf已经很成熟了,为什么选择Avro?有实践的程序媛Avro开发中代码生成是可选的,Avro支持通用数据读取,更适应大数据变化的特性。
  • 25. Avro在讯飞大数据开放平台的应用数据存储Avro-Mapreduce任务开发数据收集高性能的数据序列化 简化的面向对象、富于设计的Mapreduce 支持Generic、Specific、Reflect(限于Java语言)支持通用数据读取 支持多种语言 内置多种压缩算法支持 与文本相比节省10倍存储空间 更高的读取性能多语言支持 与Flume-ng融合实现结构化日志收集 精简的数据格式,更高的数据传输速度
  • 26. 分布式结构化日志收集系统
  • 27. 分布式结构化日志收集系统部署节点超过1000个 每天收集千亿数据 用Avro封装了FlumeEvent,实现了结构化日志收集 支持Log自定义结构体 支持Log Array、Map等数据类型 得益于Avro,传输数据更精简,速度更快 Flume-ng提供SDK,支持业务类功能扩展
  • 28. 围绕Flume-ng的优化结构化日志多点监控以AvroFile为缓存的FileChannelPlus,极大的提升速度&稳定性 支持Stable的改进版HDFS-Sink 分布式节点监控&智能配置管理服务,弥补Flume-ng配置管理复杂的问题 支持多语言的Loglib
  • 29. Avro-Mapreduce云知道实时日志检索系统
  • 30. 云知道数据流程图日志收集与日志检索融为一体
  • 31. 云知道千亿级别目前每天日志索引记录15亿+ 支持检索几个月数据,索 即用即搜云知道
  • 32. Data SourceAvro-MapreduceSunflower语音云统计分析系统http://www.xfyun.cn/services/analysis/mobileapp
  • 33. 讯飞开放平台统计分析基于以上想法和对分布式计算原理的理解,我们开发了全新的统计分析解决方案 Maple-Report基于Hive的实现,分解后的Sql语句有上千条,运行太慢了七大类,50多个小类统计分析功能,综合指标上千个 基于Pig的统计分析脚本,也有好几百行,执行速度也很慢日2亿次PV,在语音重度服务下,日志量进千亿条优化的方向 对于同一份数据不同维度和指标的统计分析能否一次完成? 小时报表的计算结构能否被日报表利用,以此类推
  • 34. 统计分析解决方案 Maple-ReportMaple-ReportData SourceReport-DefineReport-Engine体现数据导向理念 报表定义与计算引擎分离 同数据源的多维度、多指标一次计算完成 小时、日、周。。。数据依次复用Report-EngineAvro-Mapreduce
  • 35. 承载公司级大数据战略数据汇聚Maple通过Maple实现数据&技术分享平嵌云平台研究院移动互联智能电视
  • 36. 最后向那些以Doug Cutting为代表,依然耕耘在技术前线,勤于Coding的前辈致敬,是他们带给我们实实在在的大数据技术! Q&Ahttp://www.xfyun.cn/