BigInsights:解读IBM基于Hadoop的数据分析平台

openkk 12年前
     <div id="news_body">     <p>        毫无疑问,大数据成了 2012 年的热门词。根据国外统计机构的报告,大数据处理在今年的市场规模已经达到 700 亿美元并且正以每年 15-20% 的速度增长。几乎所有主要的大科技公司都对大数据感兴趣,对该领域的产品及服务进行了大量投入。其中包括了 IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo 等,而且这个列表还在继续。</p>     <p>        IBM 也在 2011 年中旬对外发布了针对大数据处理和分析技术:在 SmartCloud 平台上新增基于 Apache Hadoop 的服务 <a href="/misc/goto?guid=4958330830933420158" target="_blank">InfoSphere BigInsights</a> 分析软件。在日前举行的中国程序员、数据库工程师<a href="/misc/goto?guid=4958330831736029607" target="_blank">“2011 IBM DB2 迁移之星大赛”</a>媒体活动上。IBM 软件集团大中华区信息管理软件总经理卢伟权、IBM 中国开发中心信息管理总经理朱辉就相关话题分享了自己的看法。</p>     <p>        <strong>3年前布局 Hadoop 研发</strong></p>     <p>        据介绍,IBM 对 Hadoop 的研究开始于2~3年前。截止到目前,研究成果涉及作业调度、查询语言等多个方面。作为典型应用成果,IBM InfoSphere 大数据分析平台包括 BigInsights 和 Streams,二者互补,Biglnsights 对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams 采用内存计算方式分析实时数据。InfoSphere 大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。</p>     <p style="text-align:center;"><img border="0" alt="BigInsights:解读IBM基于Hadoop的数据分析平台" src="https://simg.open-open.com/show/c1d2076bbb137456b12f7a86f4329eaf.jpg" width="500" height="366" /></p>     <p>        <strong>BigInsight 整体框架图</strong></p>     <p>        BigInsights 基础版和企业版均包含了 Apache Hadoop 和大量的开源软件技术,<strong>具体包含的开源项目:</strong></p>     <ul>      <li>Apache Hadoop 包括 Hadoop Distributed File System (HDFS)、MapReduce 框架和通用的实用工具,是一种适用于数据密集型应用的软件框架,可用于开发分布式计算环境</li>      <li>Pig 是用于 Hadoop 的一种高级编程语言和运行时环境</li>      <li>Jaql 是基于 JavaScript Object Notation (JSON)的一种高级查询语言,也支持 SQL</li>      <li>Hive 是一种数据仓库基础架构,设计用于支持批量查询和分析 Hadoop 管理的文件</li>      <li>HBase 是一种以列为主的数据存储环境,设计用于支持 Hadoop 中的稀疏填充的大型表格</li>      <li>Flume 是一种用来数据收集并将其加载到 Hadoop 中的工具</li>      <li>Lucene 是一种文本搜索和索引技术</li>      <li>Avro 是一种数据序列化技术</li>      <li>ZooKeeper 是分布式应用程序的一种协作服务</li>      <li>Oozie 是工作流/作业编排技术</li>     </ul>     <p>        除了开源技术,BigInsights 还包含了 IBM 开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,以实现与企业软件的整合和 Hadoop 增强的效果。</p>     <p style="text-align:center;"><img border="0" alt="BigInsights:解读IBM基于Hadoop的数据分析平台" src="https://simg.open-open.com/show/f627b6a99012900b5cb5d0d20c51f532.jpg" width="500" height="270" /></p>     <p>        <strong>IBM 中国开发中心信息管理总经理朱辉</strong></p>     <p>        在 IBM 中国开发中心信息管理总经理朱辉看来,BigInsights 并没有替代 OLAP(Online Analytical Processing)或 OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在 DBMS 或数据仓库中”。IBM 的 Hadoop 解决方案已经问世了,客户可以进行测试。</p>     <p>        <strong>Hadoop 无法单一解决大数据问题</strong></p>     <p>        此外,朱辉认为目前面临的大数据分析和处理问题,业界需要一整套全面的解决方案。“当前任何一种单一的产品都无法完整解决面临的大数据的问题和 挑战。现在行业当中大家听得最多的是 Hadoop,但我不认为基于任何一个例如 Hadoop 这样的单一产品就能够解决目前的问题。传统的数据仓库在这当中仍然扮演一个非常重要的角色,至少是海量数据巨大的产生源。”</p>     <p>        此外,据当天与会的 IBM Big Data 开发资深经理王远洪介绍,IBM CDL (中国开发实验室)的研发人员参与了 BigInsights 项目的全球研发,并积极帮助国内客户在本地验证 IBM 基于 Hadoop 的数据分析平台项目。</p>     <p style="text-align:center;"><img border="0" alt="BigInsights:解读IBM基于Hadoop的数据分析平台" src="https://simg.open-open.com/show/c5b2ea4996c37e070e714233e05014b1.jpg" width="500" height="290" /></p>     <p>        <strong>IBM 软件集团大中华区信息管理软件总经理卢伟权</strong></p>     <p>        在当天的活动中,IBM 软件集团大中华区信息管理软件总经理卢伟权介绍了本次中国程序员、数据库工程师“2011 IBM DB2 迁移之星大赛”活动情况。此次大赛于 2011 年 9 月 20 日在北京正式拉开帷幕,分为预赛、复赛、决赛三个阶段。预赛采取了网上答题的方式进行,选取成绩最好的 100 名选手进入复赛;进入复赛的选手则根据地域、兴趣自行组队,按照组委会公布的应用相关的方向和领域,向组委会提交团队的 Proposal,由评委最终选出进入决赛环节的 10 支队伍,参加 3 月 14 日于北京进行的总决赛。除获得奖金、证书等奖励外,竞赛优胜队伍还将获得参观 IBM 美国实验室的机会。</p>     <p>        在早些时候,甲骨文也曾宣布其大数据系统 Big Data Appliance 将能够支持 Hadoop,而且微软也暗示将在 Azure 云平台和 Windows Server 上对 Hadoop 进行支持。此外,亚马逊的 Elastic MapReduce 云服务也是基于 Hadoop。可以相信,大数据的解决方案会受到业界的极大关注。<br /> </p>     <div id="come_from">      来自:      <a id="link_source2" href="/misc/goto?guid=4958330832531106661" target="_blank">CSDN</a>     </div>     <p></p>    </div>