大数据分析应用解决方案v0.2


胡启稳 www.huqiwen.com 大数据分析应用解决方案 胡启稳 2013年 胡启稳 www.huqiwen.com提纲 1 什么是大数据 2 大数据相关技术 3 大数据的应用场景 4 电网应用的一些想法 5 RaySearch/OCR 胡启稳 www.huqiwen.com何为大?—数据度量 • 1Byte = 8 Bit • 1KB = 1,024 Bytes • 1MB = 1,024 KB = 1,048,576 Bytes • 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes • 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes • 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes • 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes • 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes • 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes 胡启稳 www.huqiwen.com大数据的时代背景 facebook 社交网络… 淘宝、 ebay 电子商务 … 微博、 Apps 移动互联网… 21世纪是数据信息大发展的时 代,移动互联、社交网络、电子商务 等极大拓展了互联网的边界和应用范 围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器, 智慧地球)、车联网、GPS、医学影 像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯 狂产生着数据。 “大数据”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的 程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学 和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域 中。 胡启稳 www.huqiwen.com大数据时代到来 全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据… 新的时代,人们从信息的被动接受者变成了主动创造者 胡启稳 www.huqiwen.com大数据时代到来 TB PB ZBEB 大量新数据源的出现则导致了非结构化、 半结构化数据爆发式的增长 根据IDC 监测,人类产生的数据量正在呈指数级增 长,大约每两年翻一番,这个速度在2020 年之前会 继续保持下去。这意味着人类在最近两年产生的数 据量相当于之前产生的全部数据量 数据量增加 数据结构日趋复杂 .这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 .大数据时代正在来临.. 胡启稳 www.huqiwen.com中国企业大数据现状 半结构化数据 结构化数据 非结构化数据 企业非结构化数据越来越多中国500强企业日数据生成量 中国500强企业数据中心数据年增长率 中国企业级数据中心数据存储量正在快速增长, 非结构化数据呈指数倍增长,如果能有效的处理 和分析,非结构数据中也富含了对企业非常有价 值的信息。 胡启稳 www.huqiwen.com什么是大数据-푉3 • Variety:种类 Velocity:速度 Volume:数量 IBM 按数量、速度和种类等简单的 푉3来定义大数据 胡启稳 www.huqiwen.com什么是大数据-4V “大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。 体量大Volume 多样化Variety 价值密度Value 快速化Velocity 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能、 咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 胡启稳 www.huqiwen.com大数据要解决的问题 Volume 海量的数据规模 Variety 多样的数据类型 流数据 实时/即时数据 批量数据 TB PB EB ZB 结构化数据 非结构化数据 半结构化数据 Velocity 快速的数据流转 Value 巨大的数据价值 胡启稳 www.huqiwen.com 集群化非结构化 流式 分析 组织 多种数据源 大数据分析 大数据分析不同于传统BI分析  结构化数据  数据规模一般为TB规模  集中式,为了分析进行大量数据移动,数据向计算靠近  批处理为主  结构化/非结构化混合分析能力  数据规模从数十TB到PB级别  分布式计算,计算向数据靠近  支持流式分析 事务 关系型数据库 批处理 数据仓库 分析 传统BI分析 (MapReduce) 胡启稳 www.huqiwen.com提纲 1 什么是大数据 2 大数据相关技术 3 大数据的应用场景 4 电网应用的一些想法 5 RaySearch/OCR 胡启稳 www.huqiwen.com什么是大数据技术 大数据技术将被设计用于 在成本可承受(economic ally)的条件下,通过非常 快速(velocity)的采集、 发现和分析,从大量化(v olumes)、多类别(vari ety)的数据中提取价值 (value),将是IT 领域新 一代的技术与架构 企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从 这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合 胡启稳 www.huqiwen.com一些相关技术  分析技术: • 数据处理:自然语言处理技术 • 统计和分析:A/B test; top N排行榜;地域占比; 文本情感分析 • 数据挖掘:关联规则分析;分类;聚类 • 模型预测:预测模型;机器学习;建模仿真  存储 • 结构化数据:海量数据的查询、统计、更新等操作效 率低 • 非结构化数据:图片、视频、word、pdf、ppt等文 件存储、不利于检索、查询和存储 • 半结构化数据:转换为结构化存储;按照非结构化存 储  解决方案: • 数据存储:HDFS、HBase • 分布式计算:Hadoop(MapReduce技术) • 流计算:(S4/storm) 数据采集 数据储存 数据管理 数据分析与挖掘  大数据技术: • 数据采集:ETL工具 • 数据存取:关系数据库;NoSQL;SQL等 • 基础架构支持:云存储;分布式文件系统等 • 计算结果展现:云计算;标签云;关系图等 胡启稳 www.huqiwen.com大数据平台架构 Hadoop Manage Console 安装、部署、配置、监控、告警和访问控制 Sqoop 关系数据 ETL 工具 Flume 日志收集工具 Mahout 数据挖掘 Pig 数据流处理语言 Hive 数据仓库 Map/Reduce 分布式计算框架 Hbase 实时、分布式、高维数据库 HDFS 分布式文件系统 Zookeeper 分布式协作服务 胡启稳 www.huqiwen.com提纲 1 什么是大数据 2 大数据相关技术 3 大数据的应用场景 4 电网应用的一些想法 5 RaySearch/OCR 胡启稳 www.huqiwen.com大数据的方向 发现和预测 分析和挖掘 大数据 数据  云计算是基础设施架构  大数据是灵魂资产  分析、挖掘是手段  发现和预测是最终目标 胡启稳 www.huqiwen.com大数据在各行各业的应用 金融服务 信用评分、欺诈检测,定 价,程式交易,索赔分析, 承销,客户利润 零售业 消费者行为分析;分类、 放置和设计优化;运营分 析,供应链管理;需求预 测 制造业 供应链优化,需求预测, 库存补货,保障分析,产 品定制,新产品研究开发 医疗保健 药物相互作用,初步诊断, 疾病控制;疾病成因分析, 就诊行为分析;临床决策 支撑 能源 交易,供给,需求预测, 合规,智能电网 政府 安全管理、舆情研判、预 防犯罪,智能交通,感知 民众需求,提升服务形象 胡启稳 www.huqiwen.com电子商务全网比价 对电子商务网站的商品进行:  单价比较  价格走势  个性推荐 胡启稳 www.huqiwen.com电子商务服务提升  自身服务提升:亚马逊每天生成630万份订单,大数据帮助亚马逊提高 对客户的洞察力,随时跟踪用户需求变化。 识别客户 区分客户 快速适配  对外提供业务:淘宝每天 活跃数据量50TB,提供各种 行业分析报告(顾客的特征、 什么最好卖、行业的竞争对 手、广告投放的效果、我的 顾客的行为…..) 胡启稳 www.huqiwen.com电信运营商  Who/Whom:电话号码的背后是IT系统内人的信息  When:通话记录和上网记录的背后是人的行为  Where:基于手机和固网定位的背后是人的位置  What:流量分析和内容检测的背后是人的需求 电信运营商详细记录了人在现代化社会的信息指纹 信息 指纹 上海某运营商  每分钟8万条位置 更新信息(徐家 汇商圈)  每小时近300万次 移动电话呼叫  每天70-100TB 及30亿次点击的 互联网访问量 胡启稳 www.huqiwen.com银行业 互联网的应用普及使金融信息化程度迅速深化,电子银行、电子交易服务、电子货币 与支付服务、在线金融信息服务以及其他通过网络提供的金融产品及服务迅速得到推 广扩散,金融业务版图被不断重构。 花旗、UBS等银行能够综合客户的资产负债、支付以及流动性状况,对客户行为开展 360度环评,提高贷款业务的精准率,降低违约风险。 投资银行的交易前台如能有效使用“流分析”(stream analysis)技术对实时交易行为、 市场走向、风险环境进行关键指标的监控预测,就能明显提高业绩表现。 信用卡组织和第三方支付服务机构通过对大规模支付交易数据的挖掘分析,可以探查 出潜在的支付欺诈和违法行为,有效降低监管合规成本。 胡启稳 www.huqiwen.com网络舆情监控 胡启稳 www.huqiwen.com关系可视化 胡启稳 www.huqiwen.com优化网站服务界面 服务网热点 政务门户网 30% 5% 胡启稳 www.huqiwen.com提纲 1 什么是大数据 2 大数据相关技术 3 大数据的应用场景 4 电网应用的一些想法 5 RaySearch/OCR 胡启稳 www.huqiwen.comRaySearch规划 企业级非结构化数据检索分析平台 数据库/磁盘/网站/FTP多数据源支持 以图搜图 上传图片搜索,不同的搜索体验 结果智能分类 对搜索结果进行自动分类方便 进一步查找信息 Word/Excel/PPT/PDF/网页 多格式文档内容解析 图片、扫描文档 OCR识别后搜索 OCR识别 语义检索 拼写检查、智能纠错、同义识别、 语义处理、结果关系分析 支持大数据应用 千万数据 毫秒响应 支持分布式架构 中文分词 精确搜索 灵活安全控制 方便与业务系统集成 文档在线预览 丰富的检索语法支持 胡启稳 www.huqiwen.com技术架构 胡启稳 www.huqiwen.com已经完成的功能 • 常用文档格式解析:word、excel、ppt、PDF、图片OCR识别 • 索引的管理维护 • 相似图片的检索 • 搜索结果的在线预览 已经完成的功能 • 相似图片检索的算法更新(人脸识别、内容识别) • 网络爬虫功能,对指定的系统/web进行自动爬取入库 • 基于语义的检索 • 结果的自动分类/聚类 • 多数据源支持 • 分布式支撑 待优化/完成 胡启稳 www.huqiwen.comRaySearch系统截图 文档内容搜索与在线预览 以图搜图:相似图片,图片内容搜索
还剩29页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

xiaodjy

贡献于2016-04-21

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf