Apache Beam实战指南之基础入门 经验

个稍显混乱的代码库,从多个组织合并,已发展成为数据处理的通用引擎,集成多个处理数据框架,可以做到跨环境。 Beam 经过三个孵化器版本和三个后孵化器版本的演化和改进,最终在 2017 年 5 月 17

nutch2.0初体验------三大亮点 资讯

添加了对nosql存储层的支持,nutch和google原先的模型很像了,google的分布式文件系统GFS,nutch的HDFS,同样是使用 mapreduce算法处理,存储层google的big

jopen 2012-06-02   17048   0
nutch  

什么是Docker? 经验

Docker容器将一块应用打包到一个完成的文件系统中,在该文件系统中包含了该应用要运行的所有要求:代码,运行时,系统工具,系统库 - 任何你安装在服务器上的东西。这就能保证他将会以同样的方式运行,无论它运行在什么样的环境中。 Docker的特点

icm 2016-04-21   10154   0
Docker  

变不可能为可能,Tachyon帮助Spark变小时级任务到秒 资讯

集群计算和大数据技术已经取得了很多进展,不过现在很多大数据应用使用的还是HDFS这一分布式分件系统。HDFS是一个基于磁盘的文件系统,将数据存储在磁盘上有一些问题,比如说面临法律的监管,由磁盘读写造成的延迟也

jopen 2016-03-03   17142   0

云存储架构三种经典流派全解读 经验

的演进、VSA和Helion的结合等技术。本文提炼出来自专家的观点,来帮助大家更好地对这三种目前云环境 下存储架构的经典流派进行解读。 UnitedStack:如何在OpenStack平台实现文件共享服务?

jopen 2015-01-06   35110   0

你应该知道的大数据领域12大动向 经验

行业观察人士表示,许多企业拿来试点阶段的大数据系统(尤其是那些整合Hadoop平台的系统)后,将它们部署到更广泛的生产环境。本文介绍的新闻主要旨在帮助公司进行这种转型。 下面看一下引起我们关注的12则与大数据

axcu9192 2016-07-05   27761   0

如何挑选合适的大数据或Hadoop平台? 经验

通用模块 :支持其他Hadoop模块的通用工具集。 Hadoop 分布式文件系统(HDFS ) :支持对应用数据高吞吐量访问的分布式文件系统。 Hadoop YARN :用于作业调度和集群资源管理的框架。

jopen 2015-02-19   45764   0

BigTable论文学习笔记 经验

Bigtable为Google设计的一个分布式结构化数据存储系统,用来处理Google的海量数据。Google内包括Web索引、Google地球等项目都在使用Bigtable存储数据。尽管这些应用需求

jopen 2013-12-09   47592   0

Docker周报第18期 资讯

ker创业公司将如何利用这一支点来撬动新的市场。 InfoQ Docker新闻 Docker发布分布式应用编排工具 2月26日,Docker在其官方博客发布之前在DockerCon上提到的三个编排工具:Machine、Swarm和

jopen 2015-03-01   14438   0
Docker  

Docker周报:Docker收购CI服务商Koality 资讯

Engine等。0.13版本中,Deis携手Ceph以提高可用性。Ceph是新一代的自由软件分布式文件系统。 《Docker时代,公有云面临的挑战和机遇》 :Docker 技术出来之前,其实Conta

jopen 2014-10-10   24479   0
Docker  
P28

  基于协同过滤的商品推荐引擎 文档

二、底层平台-Hadoop/mapreduce Hadoop是一个分布式系统基础架构,由Apache基金会开发用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 简单地说

hellokitty 2013-01-18   868   0
方案   Apache   HTTP   SQL   Go  

Galaxy 2.0 发布,支撑百度万亿实时连接库 资讯

支持200TB+容量,实例1400+分布式文件系统调度 支持实例1000+ 分布式表格系统调度 Galaxy是一个数据中心操作系统,目标是最大化资源的利用率与降低应用部署运维代价, 支持万台集群

jopen 2015-12-31   6558   0
P14

  CDH4.1.2 集群安装配置详细过程 文档

CDH4.1.2 CDH 是Cloudera 完全开源的Hadoop 分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。全称:Cloudera Hadoop。 它是在Apache

sandyfog 2014-09-25   4353   0

淘宝技术专家谈大型网站架构 经验

导读:本文作者是淘宝技术部技术专家陈康贤(花名龙隆),他是《大型分布式网站架构设计与实践》一书的作者,在本文中他分享了他对大型网站架构的理解,优优分享之,希望对你有帮助。 大型网站架构从来

jopen 2016-01-18   25483   0

漫谈大型网站架构 资讯

net/article/2015-12-17/2826505 【编者按】架构无处不在,今天我们请到了《大型分布式网站架构设计与实践》一书的作者陈康贤来分享他对大型网站架构的理解,另外,我们也正在专访陈康贤,如果

jopen 2015-12-17   24491   0
架构  
P16

  Hadoop 源码的入门解析 文档

Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点:

sweetbaybe 2012-12-27   2723   0

2015年IT领域里Docker和其它颠覆性的趋势 资讯

时代的到来,软件现在几乎无处不在。今天仍然面临的最大挑战是开发人员和IT运营团队如何构建复 杂的分布式应用,以及如何快速响应快速变化的市场和客户需求。容器化、混合云和融合式基础架构(converged

jopen 2015-03-05   13507   0
Docker  

开源的DevOps开发工具箱 经验

包管理工具来自动化安装软件和创建可重复、脚本化的 Windows 环境; Elita :Elita 是一个利用 git 和 salt 进行持续部署部署作为服务)和 API-driven 基础设施的引擎/框架;

jopen 2014-12-09   46194   0
DevOps  

13款开源Java大数据工具 经验

HDFS HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很

jopen 2014-04-30   52548   0
开源  

zookeeper入门基本介绍 经验

html 一、分布式协调技术 在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术?那么我来告诉大家,其实分布式协调技术主要用来解决分布式环境当中多个进

gmge6769 2016-01-27   47632   0
1 2 3 4 5 6 7 8 9 10