P178

spark技术内幕深入解析spark内核架构设计与实现原理 文档

Apache Spark是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员,为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。Spark在过去的一年中获得了极大关注,并得到广泛应用,Spark社区也成为大数据领域和Apache软件基金会最活跃的项目之一,其活跃度甚至远超曾经只能望其项背的Hadoop。

keshikeji 2017-05-08   408   0
P9

大数据_大时代_大商业 文档

从 2012 年 开 始, 大 数 据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。到 2016 年,学界与商界达成共识,“大数据”是“数据化”趋势下的必然产物!数据化最核心的理念是:“一切都被记录,一切都被数字化”,它带来了两个重大的变化

bingmiao 2017-05-04   274   0
P2

基于云计算与医疗大数据的apriori算法优化 文档

医疗数据的参考价值随着医疗技术的发展不断升高,很多临床研究人员将其目标放在医疗大数据中。面对如此庞大的医疗大数据规模,运用传统的储存容量已远远不能满足其数据运算的需求,云计算则可很好解决这个难 题。而医疗大数据中所蕴含的信息量过大,将其蕴含信息量的重点提取出来是本次研究的重点。研究主要针对现有的医疗大数据引进了 Apriori 算法的优化运算,运用 Mapreduce 优化 Apriori 医疗数据挖掘算法对医疗大数据进行处理。

mazheNo1 2017-05-01   360   0
P7

面向医疗大数据的云雾网络及其分布式计算方案 文档

针对云计算应用于医疗大数据场景时存在业务处理时延较高的问题,提出了一种基于边缘计算的新型云/雾混合网络架构,该架构利用医院中的路由器或交换机等边缘设备,在云服务器与医疗检测设备之间构建一个雾计算层,通过将云服务器中的医学影像等医疗大数据分析结果主动缓存至雾计算设备,并与雾设备上来自医疗检测终端的数据进行对比计算,得出诊断结果,达到降 低业务处理时延的目的。考虑到边缘设备的计算能力较弱,进一步提出了一种多设备分布式计算方案,利用带约束的粒子群优化负载均衡(CPSO-LB)算法,达到任务处理时延最小的目标。仿真结果表明:基于 CPSO-LB算法的云/雾混合网络能有效地降低医疗数据处理时延;当采用10个雾计算设备,处理的医疗数据量在6~10Gb时,与云计算网络相比时延性能提升了50.95%~37.37%。

mazheNo1 2017-05-01   272   0
P33

  rtmp规范翻译1.0 文档

本备忘录描述实时消息协议块流。块流是一种应用层协议,主要用于通过一种合适的传输层协议(例如TCP)复用、打包多媒体数据流(音频,视频和交互数据)。

270562884 2017-05-01   2434   0
P220

  ya100性能测试报告 文档

本文测试的目的是用来对比 Spark 三种存储格式txt、parquet、ya100的性能差异。因机器环境以及配置的不同,测试结果可能略有差异,该测试报告仅对笔者的软硬件环境负责。

maoying 2017-04-26   210   0
P37

  数据挖掘常见算法 文档

数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上。

maoying 2017-04-26   2621   0
P24

智慧的交通业 文档

我们很荣幸能为大家推荐这本由IBM全球企业咨询服务部编撰而成的智慧之作,《大数据与分析解决方案集》这一卓越成果,不仅是IBM多年咨询经验与创新实践的深刻洞察与体现,更是IBM与各行业、各领域有志在大数据时代开拓创新、卓越领先的企业同仁的一份真诚分享。作为行业引领者,IBM始终走在新趋势的前沿,从硅谷到北京,大数据的话题正在广泛被传播。近年,随着社交网络、移动互联网、企业信息化的迅猛发展,IBM已经看到现有运营体系与不断增长的业务需求之间的冲突:一方面,现有的IT系统无法针对海量数据进行有效的收集、处理和分析;另一方面,企业高层管理人员不能及时识别现有数据中隐含的信息,进而无法识别潜在业务风险,错失商业机会。这也正是企业在大数据时代所面临的重大挑战。

liking100 2017-04-26   271   0
P59

apache kylin实践 文档

Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay Inc. 开发并贡献至开源社区,并于 2015 年 11 月正式毕业成为 Apache 顶级项目。

czpae86 2017-04-26   395   0
P36

memcached权威指南 文档

free & open source, high-performance, distributed memory object caching system 自由&开放源码, 高性能 ,分布式的内存对象缓存系统

houbin 2017-04-24   720   0
P5

  医疗大数据:四大应用案例让你大开眼界 文档

医疗行业是让大数据分析最先发扬光大的传统行业之一。目前,医疗健康领域积累了大量的、多类别的医疗数据,将这些海量数据进行结构化处理,将会产生巨大的商业价值,从而使整个医疗产业链受益。

jeff058 2017-04-14   3856   0
P8

分布式缓存: 它为何对在 Web 上实 现可预测的可伸缩性 至关重要,其价值从 何处体现 文档

如果目前的 Web 具备可预测性会怎样呢? 组织可以持续为自己的互联网应用程序添加更多用户;这些用户可通过更多方式访问它的网站;以及提供更多更加丰富的内容

wzdy0815 2017-04-14   580   0
P6

  git服务器搭建全过程 文档

GitHub是一个免费托管开源代码的Git服务器,如果我们不想公开项目的源代码,又不想付费使用,那么我们可以自己搭建一台Git服务器。

jn7163 2017-04-12   448   0
P33

大数据实时体系的架构和应用 文档

关于我2010年加入腾讯数据平台部负责分布式计算平台,集群调度的开发,现负责实时计算体系基础建设和基于实时计算平台的推荐系统建设和业务推广。

bluedesire 2017-04-11   2747   0
P67

腾讯大数据平台与推荐应用架构 文档

提纲腾讯大数据发展概况大数据平台之基础架构大数据应用之实时精准推荐2月活跃用户8.3亿,最高同时在线2.1亿;在线人际关系链超X000亿;月活跃4.4亿;日均消息量超X0亿;腾讯数据现状月活跃用户数6.5亿;日均相册上传超过X亿,日写操作总数过X0亿;腾讯游戏月活跃用户超X亿;手机游戏月活跃用户超X亿;日均pv超X亿,手机侧近超X亿;日均uv超X千万,手机侧超X千万;

bluedesire 2017-04-11   487   0
P37

hadoop存储与计算分离实践 文档

p 传统集群部署实践p 云上集群部署实践p 传统集群部署实践

opentianya 2017-04-10   3432   0
P229

学习Apache Flink 文档

With the advent of massive computer systems, organizations in different domains generate large amounts of data at a real-time basis. The latest entrant to big data processing, Apache Flink, is designed to process continuous streams of data at a lightning fast pace. This book will be your definitive guide to batch and stream data processing with Apache Flink.The book begins by introducing the Apache Flink ecosystem, setting it up and using the DataSet and DataStream API for processing batch and streaming datasets. Bringing the power of SQL to Flink, this book will then explore the Table API for querying and manipulating data. In the latter half of the book, readers will get to learn the remaining ecosystem of Apache Flink to achieve complex tasks such as event processing, machine learning, and graph processing. The final part of the book would consist of topics such as scaling Flink solutions, performance optimization, and integrating Flink with other tools such as Hadoop, ElasticSearch, Cassandra,and Kafka.

opentianya 2017-04-10   1071   0
1 2 3 4 5 6 7 8 9 10