Nutch Hadoop 教程 博客

p (曾经的DNFS)分布式文件系统( HDFS )和MapReduce来安装Nutch的文章 。 本教程的目的是通过逐步讲解的方法,来讲解了如何在多节点的Hadoop文件系统上运行Nutch,包括能够同时索引(爬取)和搜寻多台机器。

Hadoopp 2012-09-28   6548   0
屌丝  

LinkedIn开源大数据计算引擎Cubert,并为此创建新的语言 资讯

提供一个合乎逻辑的声明性语言,然后被翻译成一个实物计划。这个计划执行分布式引擎(Map-Reduce、Tez 或者 Spark),在此物理操作者针对数据分区执行。最后,数据分区将由 HDFS 提供的文件系统抽象管理。 Cubert

jopen 2014-11-12   8535   0
Cubert  

heX:用HTML5和Node.JS开发桌面应用 经验

为此,我们做了大量的调研,经反复尝试,最终确定通过整合Chromium和Node.JS,来解决桌面应用开发中遇到的大量 繁琐的UI和交互开发工作。期间,发现一款类似的开源项目node-webkit,调研的结论是它

jopen 2013-09-19   113589   0

[Apache Kafka]Kafka集成 经验

时便会出现性能瓶颈。而且这些方案不适合横向扩展。 Storm 是开源的分布式实时数据处理系统。它可用于很多场景,如实时分析(real-time analytics)、在线机器学习(online machine

JoyceFKJ 2016-01-25   25575   0

使用Docker部署PHP应用的设计方案 经验

M容器和另外三个容器间有耦合关系,MySQL容器最独立。 虽然耦合性比较大,但这种端口耦合,文件系统耦合关系可以通过增加几个运行选项解决掉,后面有介绍。 由于容器对整个架构的划分,使得容器中的

jopen 2015-08-30   14918   0
Docker  

大数据处理框架,Apache Spark 1.5.2 发布 资讯

1.5.2 现已提供 下载 。 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。

jopen 2015-11-15   21282   0

大数据技术hadoop入门理论系列之二—HDFS架构简介 经验

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是: HDFS是一个高容错系统且能运行在各种低成本硬件上; 提供高吞吐量,适合于存储大数据集;

jopen 2016-01-12   16076   0
P32

  Hadoop 学习总结 文档

1. Hadoop---------------分布式开发框架 2. 目录 3. 数据纽约证券交易所每天产生1TB的交易数据 社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间 互

orangeking 2012-06-29   8911   0
P32

  Hadoop学习总结 文档

1. Hadoop---------------分布式开发框架 2. 目录 3. 数据纽约证券交易所每天产生1TB的交易数据 社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间 互

lxj2008 2014-01-19   553   0
P33

  系统概要设计中架构设计 文档

为什么要进行软件系统的设计 主要原因:系统分析模型过于简单和粗糙 目的:指明一种易转化成软件系统功能代码的解决方案,是对系统分析工作的进一步细化和具体实现。也就是进一步细化分析阶段提取的各个类(包括其操作和属性

chandada 2014-12-14   5283   0

我的后端开发书架2015 资讯

,扯的都是闲篇,厚厚的一本其实略读一下或看些精华笔记就行。 2. 算法的书 《数据结构与算法分析-Java语言描述》 够薄,数据结构与算法分析的点基本都涵盖了,而且示例代码还是Java写的。 《算法》 可与上

fpcm 2015-05-01   51270   1
书籍  

主流开源云计算软件大盘点 资讯

实体,依赖资源管理和检测点(借助经过改动的Linux内核),其行为总的来说 如同正常的服务器,有文件系统、应用程序、用户、用户组等。主机内存对OpenVZ容器来说更为灵活,原因在于没有被一个容器使用的内存可以轮换、供另一

jopen 2015-08-12   55644   0

五种基于 MapReduce 的并行计算框架介绍及性能测试 经验

点,如果能够对各类型的并行计算框架都进行深入研究及适当的缺点修复,就可以为不同硬件环境下的海量数据分析需求提供不同的软件层面的解决方案。 并行计算框架 并行计算或称平行计算是相对于串行计算来说的。

jopen 2015-07-15   71471   0
P128

  uml建模技术3系统概要设计中的架构设计 文档

5 为什么要进行系统设计 对于用例的分析我们可以产生一个分析模型,但是我们很少有直接根据这个分析模型去完成程序的实现。为什么? 首先我们应该了解用例得到的分析模型,只是表达了系统中的一些关键性的概念,而不能表达系统中的性能和系统的外观。

chandada 2014-12-14   687   0

Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来 资讯

System),用于存储不同设备所产生的海量数据;另一个是MapReduce,它运行在GFS之上,负责分布式大规模数据。基于这两个平台,Cutting最引人瞩目的作品——Hadoop诞生了(后来大家习惯认为

jopen 2016-02-15   25367   0

从业务驱动和技术实现角度谈腾讯大数据 资讯

分有益的地方,我们认为现在是一个很好 的时机将其中的一部分回馈给行业。从去年开始,我们逐步将腾讯分布式数据仓库(TDW)等对社区进行开源,这是我们整体计划中的一部分。我们希望 data.qq.com

jopen 2014-11-25   33331   0
P31

  内存计算Spark和 SQL on Hadoop 文档

L on Hadoop技术比较43+1大数据分析方案介绍 3. 安装配置与简介为什么需要SparkHadoop(MapReduce)极大的简化了大数据分析 但是,随着大数据需求和使用模式的扩大,用户的需求也越来越多:

pnx8 2014-08-17   756   0

不可忽略的数据库缓存重建 问答

对传统的分布式Cache系统进行了分析,指出了其在缓存重建中会对数据库产生巨大压力的问题。并分析了MongoDB的mmap方案是如何规避这一问题的。 如下图的架构,在数据库前端加上分布式的Cach

pleo 2013-06-23   8857   0
MongoDB   数据库   C/C++   Go  

Apache Beam实战指南之基础入门 经验

稳定性和对未来版本的兼容性。 有状态的数据处理模式,高效的支持依赖于数据的计算。 支持用户扩展的文件系统,支持 Hadoop 分布式文件系统及其他。 提供了一个度量指标系统,可用于跟踪管道的执行状况。 网上已经有很多人写过

新款 Lumia 不够诱人?诺基亚股价大跌 15.9% 资讯

基亚当前把美国市场视为必须赢取用户的主 要市场,然后再在全球市场加速发展。不过市场调研公司CCS Insight的分析师杰夫·布拉伯(Geoff Blaber)表示,问题在于诺基亚的新产品是否取得了巨

jopen 2012-09-05   4821   0
Lumia  
1 2 3 4 5 6 7 8 9 10