Spark1.0.0生态圈一览 经验

(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集, 也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及

jopen 2014-06-08   48536   0
P26

  基于Hadoop的电影推荐系统 文档

行处理大规模数据的分布式计算平台 Hadoop的核心框架包括两个部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的缩写)是分布式计算的基石,而Map

QCon专访彭渊:Fourinone是俄罗斯套娃中最小的一个 资讯

淘宝Fourinone是一个自主研发的分布式并行计算框架,它集成了Hadoop、ZooKeeper、MQ、分布式缓存四大主要的分布式计算功能,Fourinone的功能强大用途广泛,它实现了ZooKee

fourinone 2012-10-21   15218   0
P4

  阿里双十一流量处理系统 文档

进行扩展,实现分布式任务列队。 系统水平和垂直扩容能力 每个GROUP能处理的订单量在可控范围之内,一旦某一块出现瓶 颈的时候,可以随时部署一个或一套GROUP。 分布式任务处理 分布式任务队列 1.采用工作流机制,支持灵活的流程配置

xinkong6 2016-12-03   1364   0
P16

  Hadoop 源码的入门解析 文档

Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点:

sweetbaybe 2012-12-27   2723   0

系统架构演化历程 经验

访问的速度,同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。 7 分布式文件系统分布式数据库 8 使用NoSQL和搜索引擎 9 业务拆分 特征: 为

dy223 2015-03-26   21739   0

大型网站架构演化 经验

1.2.7使用分布式文件系统分布式数据库系统 1.2.8使用NoSQL和搜索引擎 1.2.9业务拆分 1.2.10分布式服务

jopen 2014-07-24   22655   0
架构  

微软拥抱了Git,看看它使用过的版本控制系统 资讯

微软在 宣布 Git 虚拟文件系统 GVFS 时透露了一个消息:昔日将 Linux 视为大敌的软件巨人将 Linux 之父 Linus Torvalds 开发的开源分布式版本控制系统 Git 用于管理

jopen 2017-02-08   9560   0
微软  

海量小文件存储与Ceph实践 经验

,mfs等)基础上做针对性改造优化以满足业务存储需求; 一. 通过对若干分布式存储系统的调研、测试与使用,与其它分布式系统相比,海量小文件存储更侧重于解决两个问题: 1. 海量小文件的元数据信息组织与管理:

jopen 2015-08-17   23286   0
P34

  HBASE 的原理与实验 文档

HBase与 HDFS HBase的对外接口 3. 引入HBASE的原因数据库系统已无法适应大型分布式数据存储的需要 改良的关系数据库(副本、分区等)难于安装与维护 关系模型对数据的操作使数据的存贮变得复杂

liu2511981 2012-05-17   582   0
P25

  云计算研究之数据中心 文档

3)软件系统:包括每个服务器上面的安装的单机的操作系统经过修改过的Redhat Linux。Google 云计算底层软件系统(文件系统GFS、并行计算处理算法Mapreduce、并行数据库Bigtable,并行锁服务Chubby Lock,云计算消息队列GWQ)

hiamchuan 2012-06-03   612   0
P72

  hadoop原理与实践01_v1.0 文档

全世界多个数据中心,有些附带发电厂 运营商向Google付费Hadoop的思想之源Google22 23. 分布式架构23 24. Google面对数据和计算的难题 大量的网页怎么存储? 存储的网页怎么搜索? 哪一个网站在前面展示?24

小辉x 2016-05-16   660   0

用Linux和Apache Hadoop进行云计算 博客

Hadoop。 Apache Hadoop Apache Hadoop 是一个软件框架(平台),它可以分布式地操纵大量数据。它于 2006 年出现,由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种

openkk 2011-03-30   1337   0

数据表和存储管理服务 HCatalog 经验

和Hive。 Hadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 下图是Hadoop的体系结构: 项目主页:

jopen 2011-11-29   36236   0

大规模并行处理计算平台 HPCC Systems 资讯

。类似 Hadoop 平台。Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 The most obvious and direct

openkk 2011-11-04   8569   0

来自百度的集群操作系统:Galaxy 经验

运维代价, 支持万台集群资源调度与管理,目前主要服务于百度网页搜索离线架构业务,解决分布式文件系统分布式表格系统,以及上层计算模块运维与部署问题。 架构图 特点 支持google

jopen 2015-09-26   12428   0
Galaxy  
P17

  Windows下Nutch的安装 文档

host:port for NDFS. 分布式文件系统使用的配置项,默认的是 local 表示 使用本地文件系统,如果使用 host:port 的形式表示使用分布式文件系统NDFS,此处的文件系统地址是 nameserver

ggyi2003 2011-07-31   5937   0
搜索引擎   HTTP   HTML   XML   nutch  
P17

  Nutch 入门 文档

host:port for NDFS. 分布式文件系统使用的配置项,默认的是 local 表示 使用本地文件系统,如果使用 host:port 的形式表示使用分布式文件系统NDFS,此处的文件系统地址是 nameserver

xcp881012 2012-08-19   3754   0
P22

  MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序 文档

] [-chmod [-R] PATH...]第4页2018年10月23日 5. 分布式概念分布式存储 64M 分布式计算 全国人口普查第5页2018年10月23日 6. Eclipse 远程连接Hadoop1

li270606338 2013-08-28   7576   0
P59

  大规模网站架构 文档

在任意时刻,只有两项能同时成立 不要浪费精力可能突破上面限制可用性一致性 分区耐受性 8. 新的事务策略-BASE策略避免分布式事务 基本可用(Basically Available) 软状态(Soft state) 选择最终一致(Eventually

aidxn527 2010-09-27   3834   0
1 2 3 4 5 6 7 8 9 10