高光荣:大数据系统核心技术


大数据系统引擎技术简介 高光荣 ACM Fellow、IEEE Fellow 中国计算机学会(CCF)海外杰出贡献奖获得者 特拉华大学终身教授 CAPSL实验室主任 ET International公司 创始人 CCF-大数据-12-13-2014 1 Outline • Motivation: – 大数据Hype Cycle的最新预测 – Symbiotic trend between big data and big compute • Background:大数据系统面临的严重挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新 • 大数据系统发展在中国的机遇与挑战 • 总结 CCF-大数据-12-13-2014 2 CCF-大数据-12-13-2014 3 Gartner Report Hype Cycle and Big Data • This Hype Cycle sits mainly on the Peak of Inflated Expectations. And big-data has just passed the peak. • We encourage department-level experimentation without enterprise commitment over the next three to five years. CCF-大数据-12-13-2014 4 Challenges and Opportunities Symbiotic of Bigdata and Big compute • Symbiotic HPC computing and data-Intensive processing • Heterogeneity: including sensors, controllers, mobile devices, etc. • Massive opportunity of concurrency • Vast dynamic and distributed environment • Asynchronous stream processing • Realtime continuous interaction with environment • Energy efficiency, resiliency and security challenges [Supercomputing 2014 特邀论坛,Gao,11/19/2014] 5 Outline • Motivation: – 大数据Hype Cycle的最新预测 – Symbiotic trend between big data and big compute • 大数据系统引擎面临挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新 • 大数据系统发展在中国的机遇与挑战 • 总结 CCF-大数据-12-13-2014 6 基础需求 • 能从大数据中 挖掘出有价值 的信息 性能需求 • 不仅关注要如 何挖掘数据, 更关注这个过 程有多快 功能需求 • 对实时数据的 复杂分析正成 为最普遍的需 求 成本需求 • 大数据技术需 要的大量的处 理资源对成本 造成压力 进一步提高性能,降低成本,让“大象”飞起来 新的需求需要新的技术 CCF-大数据-12-13-2014 7 让大象飞起来的关键 8 适合飞行的引擎 新的模型:从地面动力学模型 到空气动力学模型 新的结构:从腿到翅膀、热气 球、滑翔伞? CCF-大数据-12-13-2014 Outline • Motivation: – 大数据Hype Cycle的最新预测 – Symbiotic trend between big data and big compute • Background:大数据系统面临的严重挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新 • 大数据系统发展在中国的机遇与挑战 • 总结 CCF-大数据-12-13-2014 9 大数据引擎的核心技术 大 数 据 引 擎 大数据引擎执行 模型和结构技术 大数据引擎系统 软件技术 大数据引擎编程 模型和优化技术 CCF-大数据-12-13-2014 10 CCF-大数据-12-13-2014 11 Terminology Clarification • Parallel Model of Computation – Parallel Models for Algorithm Designers – Parallel Models for System Designers • Parallel Programming Models • Parallel Execution Models • Parallel Architecture Models Execution Model API Abstract Machine Models Programming Environment Platforms Users Users Execution Model Programming Models 12 CCF-大数据-12-13-2014 Execution Model API Abstract Machine Models Programming Environment Platforms Users Users Execution Model Programming Models High-Level Programming API (MPI, Open MP, CnC, Xio, Chapel, etc.) Software packages Program libraries Utility applications Compilers Tools/SDK Hardware Architecture Machine Runtime System Language Runtime 13 CCF-大数据-12-13-2014 引擎执行模型API 抽象引擎模型 Programming Environment Platforms Users Users Execution Model Programming Models High-Level Programming API (MPI, Open MP, CnC, Xio, Chapel, etc.) Software packages Program libraries Utility applications Compilers Tools/SDK 引擎硬件结构 引擎运行时系统 Language Runtime 14 CCF-大数据-12-13-2014 并行执行模型及结构技术—挑战 可扩展 能效 弹性 兼容性 可编程 显著减少那些 影响编程效率 的障碍 使应用能很 好的扩展到 超大规模并 行平台 最大化利用 动态节能机 会,平衡能 效、弹性和 性能 对软件栈的 全部组件提 供良好的管 理、故障检 测和恢复 去除或显 著减少移 植到未来 平台的约 束要求 挑战 CCF-大数据-12-13-2014 15 系统软件—多核时代的挑战 17 多核、众核系统引发的挑战 多核、众核处理 器芯片(CPU)使 得传统的操作系 统面临空前的根 本性挑战 大规模片上细粒 度并行打破了传 统OS控制的一 统天下 对于系统软件, 如何充分利用大 规模并行实现高 性能、高扩展性、 低能耗、弹性、 可编程性和效率? Intel 8核处理器 AMD 12核处理器 英伟达448核 众核处理器 由多核众核处理器 组成的多核、众核系统 CCF-大数据-12-13-2014 系统软件—美国和西方技术走势 18 执行模型及结构技术的创新:运 行时系统软件独立技术和学科的 兴起和迅速发展。 系统软件在 美国和西方的 最新技术走势 对于并行多核系统软件构思,必 须打破操作系统一统天下的栺局 ! 动态细粒度执行模型、结构的 运行时系统技术的研发。 面向应用在实用案例中摸索前进。 以实用性为前提,全面考虑高性 能、高扩展性、低能耗、弹性、 可编程性和效率的需求。 避免研发误区。 CCF-大数据-12-13-2014 并行编程模型和优化技术—概述 当 前 优 化 技 术 集 中 在 静 态 优 化 方 法 目标机器动态调度 能耗自感知和弹性控制 自适应并发和资源管理 BSP执行模型 计算机系统结构 CCF-大数据-12-13-2014 19 并行编程模型和优化技术—挑战 20 多核时代为并 行编程模型和 优化技术带来 巨大挑战 并行编程模型和优化技术如何动态 利用这样的机会? 静态的并行编程模型和优化技术不 能适应多核时代大规模并发资源的 编程和管理 多核芯片对于片上并发和其它资源 管理是空前的机会 CCF-大数据-12-13-2014 并行编程模型和优化技术—最近走势 细粒度 并行编 程模型 编程模型和优化技术 主要针对动态细粒度 执行模型及结构 避免研 发误区 避免盲目跟进,以实 际应用为导向,避免 研发误区 综合考虑 多方面的 性能需求 以实用性为前提考虑 高性能、高扩展性、 低能耗、弹性、可编 程性和效率的需求 与系统软 件技术交 叉前进 并行编程模型和优化技术的 创新,正在与运行时系统软 件技术密切交叉前进 解决重大 实际应用问 题的能力 面向应用在实用案 例中摸索前进 CCF-大数据-12-13-2014 21 我们的有关工作举例 22 我们的工作 一、核心技术基地 建成数据流为背景动态细粒度 多线程引擎核心技术的基地 (1996-2010) 二、巨型计算机 承担全套以细粒度多线程系统 软件总体设计和工程实现- 成 功用于世界领先采用众核芯片 技术的巨型计算机(ETI获投资 总额超过3千万USD,2004- 2011)。 三、研发超并行执行模型 承担超大型以数据流为背景的 引擎执行模型(codelets) 的 重大研发课题(2010-2015) 四、研发超并行引擎 承担以数据流为基础的 runtime系统软件重大研发课 题: (DART/Dynax/SWARM, 2013-2015) CCF-大数据-12-13-2014 Outline • Motivation: – 大数据Hype Cycle的最新预测 – Symbiotic trend between big data and big compute • Background:大数据系统面临的严重挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新 • 大数据系统发展在中国的机遇与挑战 • 总结 CCF-大数据-12-13-2014 24 Inspiration: Jack Dennis CCF-大数据-12-13-2014 General purpose parallel machines based on a dataflow graph model of computation Inspired all the major players in dataflow during seventies and eighties, including Kim Gostelow and I @ UC Irvine [By Arvind: ISCA 2006 Keynote] 25 25 26 Evolution of Multithreaded Execution and Architecture Models Non-dataflow based CDC 6600 1964 MASA Halstead 1986 HEP B. Smith 1978 Cosmic Cube Seiltz 1985 J-Machine Dally 1988-93 M-Machine Dally 1994-98 Dataflow model inspired MIT TTDA Arvind 1980 Manchester Gurd & Watson 1982 *T/Start-NG MIT/Motorola 1991- SIGMA-I Shimada 1988 Monsoon Papadopoulos & Culler 1988 P-RISC Nikhil & Arvind 1989 EM-5/4/X RWC-1 1992-97 Iannuci’s 1988-92 Others: Multiscalar (1994), SMT (1995), etc. Flynn’s Processor 1969 CHoPP’77 CHoPP’87 TAM Culler 1990 Tera B. Smith 1990- Alwife Agarwal 1989-96 Cilk Leiserson LAU Syre 1976 Eldorado CASCADE Static Dataflow Dennis 1972 MIT Arg-Fetching Dataflow DennisGao 1987-88 MDFA Gao 1989-93 EARTH CARE PACT95’, ISCA96, Theobald99 Marquez04 HTVM/ TNT-X Gao et. al. 12/18/2014 CCF-大数据-12-13-2014 CCF-大数据-12-13-2014 27 CPU Memory Fine-Grain non-preemptive thread- The “hotel” model Thread Unit Executor Locus Coarse-Grain vs. Fine-Grain Multithreading A Pool Thread CPU Memory Executor Locus A Single Thread Coarse-Grain thread- The family home model Thread Unit [Gao: invited talk at Fran Allen’s Retirement Workshop, 07/2002] 以堵为主?还是以疏为主? 数据流关键技术之一 29 CCF-大数据-12-13-2014 Title 避开洪水的同时 保持数据流畅 30 CCF-大数据-12-13-2014 数据流关键技术之二—流水线并行 31 大数据的初级解决思路 每次将一杯清水 倒入烧杯 每次倒出一杯 调制好的糖水 每次调制一杯糖水 这对有处理海量数据需求的用户而言,这的确是雪中送炭;但这种方法 难道就是十全十美的吗??? 数据流的解决思路 管道不断从清水瓶中 抽出清水到烧杯中 在烧杯中不断地 调制糖水 管道不断的从烧杯中 抽出调制好的糖水 流水线的方式调制糖水提供了一种更好的大数据处理解决方案,虽然对“调 制糖水”的工艺要求更高、更精确但是所带来的性能提升亦令人满意。 CCF-大数据-12-13-2014 数据流-大数据技术优势的初步例证 HT vs. Spark的加速比 1.5 2 2.5 3.7 1.3 2.6 3.7 5.2 1.7 1.7 6.2 7.4 1.7 1.5 8.2 11.4 2 1.6 9.8 14.5 1 3 5 7 9 11 13 15 17 Wordcount Terasort K-means PageRank 加速比 加速比统计结果 第一组 第二组 第三组 第四组 第五组 图注:在各个测试用例中,测试数据量大小由第一组至第五组逐渐增大 CCF-大数据-12-13-2014 32 HT vs.MapReduce 0 5 10 15 时间 成本 比MapReduce 成本下降1/4 比MapReduce 提速十倍 CCF-大数据-12-13-2014 33 HT Outline • Motivation: – 大数据Hype Cycle的最新预测 – Symbiotic trend between big data and big compute • Background:大数据系统面临的严重挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新 • 大数据系统发展在中国的机遇与挑战 • 总结 CCF-大数据-12-13-2014 34 数据流大数据技术在中国落地和起飞 的可行方案 35 • 他山之石可以攻玉 • 跨越式发展 引进国外最先进的数据流大数据引擎技术,实现高起点的大 数据产业,“消化吸收再创新”,避免陈旧技术的革新负担 。 从中国制造到中国创造,再到中国标准,建立新的大数据 技术标准,实现跨越式发展,最终技术上反超国外。 CCF-大数据-12-13-2014 大数据在中国的产业应用 正化蛹成蝶,呼之欲出! 36 CCF-大数据-12-13-2014
还剩32页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 2 人已下载

下载pdf

pdf贡献者

zts2014

贡献于2014-12-24

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf