P33

  Hadoop中HDFS源代码分析 文档

统中一致性问题,是Chubby的开源实现。 4. HBase:是一个开源的、基于列存储模型的分布式数据库,是Bigtable 的开源实现。HBase 使用HDFS 作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

gps2012 2013-01-14   519   0

盘点2014:十家最酷的大数据创业公司 资讯

、定制化的内容和相关搜索结果。该平台基于一组开源 Apache 技术,其中包括 Hadoop、HBase 和 Cassandra,也包括用于实时收集、分析、服务数据的 Kiji 开源框架。年初该公司发布了

jopen 2014-12-25   21239   0

现实世界中哪些地方用到了Java? 资讯

Hadoop 以及其他大数据处理技术都是用 Java 或者其他,例如 Apache 的基于 Java 的 HBase 和 Accumulo 以及 ElasticSearchas。但是 Java 在此领域并未占太大空间,如

jopen 2014-12-10   23140   0
Java  

大数据存取的选择:行存储还是列存储? 资讯

不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase 采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些

jopen 2012-07-02   15981   0

谈谈分布式计算的算子层 经验

achitecture里,Storm的定位在流式处理,而做类似ad-hoc的service layer是HBase。如果换做是我们目前的增量计算框架的愿景的话,我认为,流式和ad-hoc这层有望被增量计算引擎统一。为什么?

jopen 2015-01-16   18290   0

Hadoop YARN中内存和CPU两种资源的调度和隔离 经验

的”,因为一个节点上的内存会被若干个服务共享,比如一部分给YARN,一部分给HDFS,一部分给HBase等,YARN配置的只是自己可以使用的,配置参数如下: (1)yarn.nodemanager

jopen 2014-07-09   14872   0

Memcache,Redis,MongoDB(数据缓存系统)方案对比与分析 经验

通过高速服务器Cache缓存数据库数据 2.内存数据库 (这里仅从数据缓存方面考虑,当然,后期可以采用Hadoop+HBase+Hive等分布式存储分析平台) 三、主流解Cache和数据库对比: 上述技术基本上代表

jopen 2014-09-02   396591   0

云平台hadoop搭建以及wordcount实例运行 经验

cmd一样! hadoop4win :是一个集成包包括cygwin、hadoop、jdk、hbase。这些都是hadoop需要的,安装上hadoop4win都包括了,直接运行hadoop就行了。这

jopen 2016-01-04   22817   0

大数据处理的开发经验 资讯

分布式文件系统(HDFS)——之外,也有一个大数据工具的生态系统构建在 Hadoop 之上,包括以下内容: Apache HBase 的是针对大表的分布式数据库。 Apache Hive 是一个数据仓库中的基础设施,它允许在 HDFS

jopen 2014-04-13   13945   0

云计算:拼的是运维 资讯

里也有N多的中间件框架和技术。另外分布式文件系统 GFS/TFS,分布式计算系统 Hadoop/Hbase 等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。 对于云计算工程方面,现在最难的是运维。管

jopen 2014-09-24   15548   1

Hadoop的生命周期有多久? 资讯

我希望在后Hadoop时代下面这些技术能够更具竞争性。 尽 管许多Apache社区的项目和商业化Hadoop项目都非常活跃,并以来自HBase、Hive和下一代MapReduce(YARN)的技术不断完善 着Hadoop体系,我依然认为,

jopen 2015-01-10   10742   0
Hadoop  

你一定需要 六款大数据采集平台的架构分析 资讯

Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Flume Agent。

jopen 2016-01-13   37001   0

宜信正式开源其AIOps落地三大利器 资讯

S离线历史数据进行批量处理。Wormhole不光支持落地多Sink,还支持流上处理,还可以在落HBase之前流上做一些数据清洗扩展等操作。目前我们的任务机器人HIT的训练主题“问题诊断”的计算模型都是

jopen 2017-09-11   21822   0
开源  
P39

  大数据解决之道 - 淘宝OceanBase开发组 文档

赖 14. 解决方案从前 Oracle 小型机 高端存储现在 MySQL,OceanBase,Hbase,Oracle,MongoDB等 普通PC服务器 15. DBMS:分库与分表业务逻辑支持扩展性

noblemoon 2012-03-21   4675   0
P22

  大数据应用 - 数据安全和数据分析 文档

L 控制? 15. 数据安全的相关工作静态数据安全 访问控制:Apache Accumulo,Hbase 加密:HADOOP-10150 数据脱敏/匿名化 去标识符,但基于准标识符(quasi identifiers)仍能重新标识化

cpp45 2015-01-18   627   0
P20

  kettle 基础整理 文档

取前一条数据或者后一条数据,一般用于环比、同比 分组,group by需要SORT,memory不需要 从Hbase中查询数据 获取配置文件中参数或者数据流中的参数,赋值给字段 将字段设置成变量 19. 案例介绍(1)

junb_chen 2017-04-23   1508   0
数据挖掘   培训   HTTP   SQL   XML  

分布式系统(Distributed System)资料 经验

介绍:支持PB数据量级的多维非关系型大表, 在google内部应用广泛,大数据的奠基作品之一 , Hbase就是参考BigTable设计。 Bigtable的主要技术特点包括: 基于GFS实现数据高可靠,

jopen 2015-07-10   24825   0

大数据系统数据采集产品的架构分析 经验

Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Flume Agent

jopen 2015-11-02   40026   0

大数据-数据采集和集成 经验

,当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容,可以实现和hdfs,hbase和主流Nosq数据库之间的数据同步和集成。而淘宝的DataX则主要可以实现常见主流的结构化数据库(Oracle

BraHewitt 2016-04-13   27311   0

利用大数据技术进行图处理 资讯

而依然存在可伸缩性的问题。另一个相当年轻,却在2013年非常流行的数据库便是 Titan 。作为后端无关的图数据库,它支持 HBase 和 Cassandra 的可伸缩架构,并且如 2013年的一篇博文 所报道的,它在内部使用了一

jopen 2014-04-15   8946   0
1 2 3 4 5 6 7 8 9 10