基于SQL Server的大数据解决方案设计及实现


基于SQL Server的大数据解决方案 设计及实现 孙巍 高级项目经理 Customer Advisory Team 微软亚太研发集团云创新中心 About CAT CAT is Customer Advisory Team from R&D to connect customer and product group 议程 Agenda • 大数据时代 • 你真的需要大数据吗? • 关于大数据的一些事 • 微软有大数据方案吗? 大数据到底意味着什么 对一些人而言, “Big Data”意味 着使用NoSQL系统或者并行关系数 据库系统 0 100 200 300 400 500 600 700 800 900 1000 966 848 715 619 434 364 269 227 基于行业的数据量分布 (in Petabytes, 2009) 1 zettabyte? = 1 million petabytes = 1 trillion terabytes = 1 quadrillion gigabytes 大数据的一些统计 Sources: "Big Data: The Next Frontier for Innovation, Competition and Productivity." US Bureau of Labor Statistics | McKinsley Global Institute Analysis Petabytes 火星 地球 35ZB = 如果使用DVD记录这些数据 这些DVD可以累积到火星一般的路程 可以做个类比 你真的需要大数据吗? IT领域目前最热门的话题 你真的需要大数据吗? • Yes,我们所有人都需要 我如何基于天气和交通 流量的模式优化我的车 队? 我们的品牌和产品 的口碑如何? 我如何更好地预测我 的支出? 但是。。。 • 构建 OR 使用 • 构建一个大数据平台或解决方案 • 使用大数据平台或解决方案 • 80/20 • 大数据是一项系统工程,不能仅仅是购买或使用某个产品就可以解决 问题 • 大数据需要很多很多资源和技术 • 大数据离我们很远吗? 关于大数据的一些事 10 希望你还没有晕 管理大数据 11 保守派 少壮派 使用并行数据库系统 eBay – 10PB on 256 nodes 使用NoSQL系统 Facebook - 20PB on 2700 nodes Bing – 150PB on 40K nodes NOSQL 为什么是这个名字... NO to SQL 这个不是在说SQL不应该再被使用或者说SQL已死 NOT Only SQL 应该是重新认识一些问题找到更好的方法 NOSQL? • 更好的数据模型灵活性 • 将JSON作为一种数据模型 • 没有“schema first”的需求 • 从采集的数据中快速获得洞察力 • 宽松的一致性模型例如 eventual consistency • 除了C/Java,在学校没学过什么其他的东西 • 讨厌例如SQL这类声明式的语言 2类主流的NOSQL 系统 • 键/值存储 • 例如: MongoDB, CouchBase, Cassandra, Windows Azure, … • 灵活的数据模型,例如JSON • 通过键的Hash支持集群 • 基于键获取单一的记录 • Hadoop • 为存储和处理海量数据而设计的可扩展容错框架 • 典型的没有数据模型 • 记录存储在分布式文件系统 WHY?? REDUCE TIME TO INSIGHT SQL: NoSQL:  不需要清洗  不需要ETL!  不需要装载!  当数据落地之后就可以分析 RDBMS 数据到达 派生schema 清洗数据 转换数据 装载数据 SQL Queries 1 2 3 4 5 6 数据到达 应用程序 1 2 现实中存在的2个世界 Structured Unstructured& 关系型数据库系统 结构化数据已知schema ACID Transactions SQL 强制一致性 ETL 需要长时间获得洞察力 成熟并且稳定 NoSQL 系统 非结构化或半结构化数据,没有schema No ACID No transactions No SQL 最终一致性 No ETL 快速获得洞察力 Beta, alpha, 0.x… 微软的HADOOP策略 • 向 Apache 基金会提交变更 • 免费下载 • AD与Systems Center的集成 • Hadoop-as-a-service-on-Azure • Visual Studio集成 • 支持C# • 性能和可扩展 • 高可用 • 易于使用 关系型数据库还是Hadoop? (未来谁是主宰?) 关系型数据库和Hadoop是基于不同的需求而设计出 的系统 21 数据仓库一体机 • • • • • •  Windows Server 2012 Storage Spaces  Windows Server 2012 Hyper-V  SQL Server 2012 xVelocity 列存储 PDW计算节点 PDW控制节点 A数据库 。。。 客户端请求 。。。 B数据库 C数据库 Customer Sales Country Supplier 列存储技术 提供新一代性能 Products 列存储技术提供强大性能 • 可更新的聚集列存储 • 数据以列形式存储 • 内存优化技术提供新一代性能 • 灵活可更新,同时满足批量导入或小量数据的加载更新需求 高至 50X 性能提升 高至 15x 压缩比例 节省时间和 成本 实时 数据仓库 PDW数据仓库一体机 VS. HADOOP数据仓库 (HIVE) 性能测试• 硬件 • 基于9台HP服务器的集群, 双路CPU, 4核心, 16GB内存, 4块 SAS 数据磁盘 • 软件 • SQL Server PDW Version “next” o 1台控制节点, 8 计算节点 • Windows Hadoop Version 0.20.203, Hive Version 0.7.1 o 1 命名节点, 8 数据节点 • Windows Server 2008 • 基于TPC-H (SF 800)的测试表 • lineitem: 612GB, 48亿条记录 • orders: 140GB, 12亿条记录 PDW数据仓库一体机 VS. HADOOP数据仓库(HIVE) Query 1: SELECT count(*) FROM lineitem Query 2: SELECT max(l_quantity) FROM lineitem WHERE l_orderkey > 1000 and l_orderkey < 100000 GROUP BY l_linestatus 0 1000 2000 Query 1 Query 2 Hive PDW 秒 © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION. 数据仓库一体机系统 Hadoop 计算模型 - 具有交易的概念 - 面向交易的工作特性 - 强制ACID - 具有任务的概念 - 面向任务的工作特性 - 没有并发控制 数据模型 - 带有已知架构的结构化数据 - 读写模式 - 所有的数据都可以是任何格式 - 非结构化或半结构化 - 只读模式 硬件配置 - 以一体机形式购买 - 通过廉价硬件自行组装 容错 - 假设极少发生故障 - 没有查询级别的容错 - 假设经常发生故障 - 简单且高效的容错 关键特性 - 效率,优化 - 可扩展性和灵活性 27 单纯的关系型数据库系统或单纯的Hadoop 将不再是默认的选择 28 不直接装载 非结构化数据 提升可扩展性 容错 SQL Server PDW一体机 基于Hadoop的系统 Databas e HDFS (Hadoop) SQL Server 2012 PDW Powered by PolyBase POLYBASE: 数据处理的突破性技术 SQL 统一查询,结构化和非结构化数据 • 查询关联Hadoop表和关系型数据库表 • 采用标准SQL语言 • Select, From Where 沿用现有 SQL 技能 无需IT人员 介入 节省时间和 成本 分析多样 的 数据类型 演示:关系型与半结构化的整合 总结 • 大数据这个话题不仅仅只是Hadoop • 未来并不是一个某一个架构或方案能够一统天下的格局,需要对大数 据有一个清晰的认识 • 微软积极参与大数据的方案和设计 欢迎莅临 2013中国数据库技术大会
还剩31页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

pm36

贡献于2014-10-15

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf