后Hadoop时代的大数据架构 经验

SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。 Hbase :一种分布的、可伸缩的、大数据储存库,支持随机、实时读/写访问。 Sqoop

b77m 2015-04-22   140189   0
P30

  git版本管理器 文档

开源分布式版本控制工具 —— Git 之旅 背景 Git 是一个开源的分布式版本控制软件。在英式英语中,Git 指一个愚笨或者不开心的人,恐怕与 Git 发明人——Linux 教父 Linus Torvalds

1428353237 2016-11-07   658   0
P11

  云计算Hadoop:快速部署Hadoop集群 文档

中未来的霸主地位。   Hadoop简介   Apache Hadoop 是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种

pdffile 2013-01-05   503   0

Apache Hadoop 2.0 Alpha 发布 资讯

Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 Apache Hadoop 2.0 今天发布了首个 alpha 版本,该版本

jopen 2012-05-27   18210   1

云数据迁移移工具 Sqoop 1.4.0-incubating 发布 资讯

的数据导入到关系型数据库中。Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 Apache Sqoop 1.4.0 主要新特性有:

fmms 2011-11-29   20318   1
Hadoop  

JPA 持久层框架 DataNucleus Access Platform 3.0.3 发布 资讯

form/ Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。

openkk 2011-11-05   8947   0

数据仓库平台 Apache Hive 0.8.0 发布 资讯

元数据的持久化等。 Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 Apache Hive 0.8.0 发布了,发行说明请看

jopen 2011-12-19   15283   0
Hive  

Hadoop + HBase + Solr = Lily 开源项目

文物数据库,新闻管理系统,内容收集系统,数字资产管理,结构化数据管理。 Hadoop提供分布式文件系统,HBase是一个运行在Hadoop之上的No-SQL数据库。HBase具有可伸缩和自动切片功

码头工人 2019-01-17   1174   0

Jafka - 一个高性能的消息系统 经验

Jafka 是一个高性能的分布式消息系统。Jafka已经开源,使用github托管,主页地址: https://github.com/adyliu/jafka Jafka 1.0版本已经发布,同步到Maven中央仓库。

jopen 2012-06-02   31586   0

Lucene4.0 / Solr 4.0 的新特性 资讯

positions 在索引的编码方式 增加了不同的相关排名系统 增加了用于支持 append-only 文件系统的编码 (例如 Hadoop DFS). 增加 DirectSpellChecker 可直接从 Levenshtein

jopen 2012-07-07   13902   0
Google  

[Apache Kafka]Kafka集成 经验

Service)这类技术,但是数据量很大时便会出现性能瓶颈。而且这些方案不适合横向扩展。 Storm 是开源的分布式实时数据处理系统。它可用于很多场景,如实时分析(real-time analytics)、在线机器学习(online

JoyceFKJ 2016-01-25   25575   0
P11

  Hadoop在ubuntu下安装配置手册 文档

的目录,设置hadoop的堆大小为2000。 4) 配置ssh无密码登录信息 在 Hadoop 分布式环境中,NameNode主节点需要通过 SSH 来启动和停止DataNode从节点上的各类进程。我

li270606338 2013-08-28   2926   0
P7

  Hadoop实战-初级部分 之 Hadoop IO 文档

Shell 基本操作介绍 第五部分:Hadoop 分布式文件系统1 第五部分:Hadoop 分布式文件系统2 第五部分:Hadoop 分布式文件系统3 第六部分:MapReduce 开发1 第六部分:MapReduce

singing 2014-01-07   2012   0

想染指系统架构?看这篇就够了 经验

最大化吞吐量 为目标。 来源及延伸阅读 理解延迟与吞吐量 可用性与一致性 CAP 理论 在一个分布式计算系统中,只能同时满足下列的两点: 一致性 ─ 每次访问都能获得最新数据但可能会收到错误响应 可用性

justphb 2017-04-17   70314   0

GitHub上整理的一些工具 经验

,工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berserkJS(基于Phantomjs的改进版本)

jopen 2015-11-18   110476   0
Github  

GitHub上整理的一些工具 资讯

工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berser

jopen 2015-02-16   97295   1
Github  

GitHub上整理的一些资料 经验

,工作原理,配置文件以及方法,几乎一模一样。配置简单,功能强大) Ganglia:分布式监控系统 fleet:分布式init系统 爬虫相关(好玩的工具) Phantomjs berserkJS(基于Phantomjs的改进版本)

jopen 2014-11-25   115612   0
Github  

“Ceph浅析”系列之(—)—Ceph概况 经验

scalability.” 也即, Ceph 是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式的存储系统。应该说,这句话确实点出了 Ceph 的要义,可以作为理解 Ceph 系统设计思想和实现

jopen 2014-11-21   63794   0

基于Golang将MongoDB的数据同步到Elasticsearch 经验

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎。它能帮助你搜索、分析和浏览数据。Elasticsearch 是一个基于Lucene实现的搜索服务器,用Java开发实现。它提供了RESTful

jopen 2015-11-01   46534   0
P12

  用Linux和Apache Hadoop进行云计算 文档

Hadoop。 Apache Hadoop Apache Hadoop 是一个软件框架(平台),它可以分布式地操纵大量数据。它于 2006 年出现,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种

caoyu152152 2011-07-11   583   0
1 2 3 4 5 6 7 8 9 10