P40

  Hadoop 讲解 文档

是2005 Google MapReduce的一个Java实现。 MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如 同java程序员可以不考虑内存泄露一样,

hans511002 2012-06-24   728   0
P46

  云计算之Hadoop 文档

Hadoop dfs(Hdfs) MapReduce 分布式并行计算模型 Hadoop扩展 Hadoop base(Hbase)基于hadoop核心的高扩展性分布式数据库 Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心

huafenged 2011-08-17   4776   0
P46

  云计算之Hadoop 文档

Hadoop dfs(Hdfs) MapReduce 分布式并行计算模型 Hadoop扩展 Hadoop base(Hbase)基于hadoop核心的高扩展性分布式数据库 Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心

daibiao 2012-06-13   5056   0
P46

  云计算之Hadoop 文档

Hadoop dfs(Hdfs) MapReduce 分布式并行计算模型 Hadoop扩展 Hadoop base(Hbase)基于hadoop核心的高扩展性分布式数据库 Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心

qiu.n@sand 2011-10-26   5538   0
P11

  Apache Hadoop入门第一步 文档

Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。 Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用Apache Hadoop软

paradoxlee00 2012-04-11   5446   0
P11

  Apache Hadoop 入门第一步 文档

Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。 Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用Apache Hadoop软

xw56 2015-04-29   366   0

大数据处理的开发经验 资讯

Hadoop,一个允许对大数据集进行分布式处理的框架,可能是这些工具中最为人熟知的一个了。除了提供强大的 MapReduce 实现和可靠的分布式文件系统——Hadoop 分布式文件系统(HDFS)——之外,也有一个大数据工具的生态系统构建在

jopen 2014-04-13   13945   0
P39

  大数据解决之道 - 淘宝OceanBase开发组 文档

淘宝数据(2)在线非结构化数据(图片):2700+TB商品图片,商品描述图片实时响应,同城热备+异地灾备淘宝分布式文件系统TFS 7. 淘宝数据(3)在线结构化数据:数据库商品库、评价库、交易库、用户库、店铺库…商品库:14亿/8亿(下线/在线)商品

noblemoon 2012-03-21   4675   0

起点R3企业级搜索引擎 开源项目

你可以搜索出你企业所有相关的内容包括网站、邮箱、ECM, CRM。R3使用一中新的集群模式来实现分布式和集群功能,通过扩展计算能力,R3能够支持上千G文档,完成复杂的并行运算;R3能够以集群模式运行来

码头工人 2019-01-17   792   0

10款常见MySQL高可用方案选型解读 经验

可能因为网络分区发生脑裂现象。 ZooKeeper+Proxy ZooKeeper使用分布式算法保证集群数据的一致性,使用ZooKeeper可以有效的保证Proxy的高可用性,可以较好地避免网络分区现象的产生。

liuxv888999 2017-03-23   98796   0

Docker,云时代的程序交付方式 经验

Docker是开源软件,代码托管在GitHub上,使用Go语言编写。Go可以称得上是互联网时代专门为开发分布式、高并发系统而生的编程语言。Docker也可以说是Go语言的一个杀手级应用,而且在Docker生态圈里很多软件也都是使用Go语言编写的。

jopen 2014-08-26   168743   0
Docker  
P7

  hdfs命令 文档

bin/hadoop job -history all output-dir 5、 格式化一个新的分布式文件系统: $ bin/hadoop namenode -format 6、在分配的NameNode上,运行下面的命令启动HDFS:

开开123 2016-08-08   524   0

Hadoop/Spark生态圈里的新气象 资讯

顺便说一句,Spark不需要HDFS。 不过,分布式文件系统依然有用。对Cloudera的Impala来说,商业智能是一种理想的使用场合;而分布式列式存储系统Kudu针对商业智能进行了优化。Spa

jopen 2016-02-16   35271   0
Hadoop   Spark  

企业应用通用架构图 经验

上图中,除了“硬件负载均衡”节点外,其它节点都可以部署成集群(DB有点特殊,传统RDBMS要实现分布式/集群还是比较困难的,要看具体采用的数据库产品,并非所有数据库都能方便的做Sharding),Jb

jopen 2015-01-06   17937   0

数据挖掘(5):使用mahout做海量数据关联规则挖掘 经验

也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以

jopen 2015-08-30   18481   0

Docker与Ceph集成 经验

Docker与Ceph集成 Thu, Feb 4, 2016 介绍 Ceph是流行的分布式存储,同时提供块设备、对象存储和文件系统三种接口,能为物理机、虚拟机甚至是容器提供可靠的持久存储。 Docker通过volume

cmgk6331 2016-02-05   49621   0
Docker  
P2

  Zookeeper注意几点 文档

 Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的

xnbw 2016-01-11   2364   0

2分钟读懂大数据框架Hadoop和Spark的异同 资讯

Apache Spark 两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop 实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

jopen 2015-12-15   18423   0
Hadoop  

Zookeeper 在Hadoop中的应用 经验

Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

jopen 2015-06-24   24315   0

Hadoop和Spark框架的异同 经验

首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

oxzr6054 2016-09-02   14060   0
1 2 3 4 5 6 7 8 9 10