P3

  Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

是一个运行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行处理架构,有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。附带一下 Hadoop 基本进入了实用阶段

风云lucky 2011-07-22   513   0
Go  

pig的各种运行模式与运行方式详解 经验

将只访问本地一台主机;当 Pig 在 MapReduce 模式运行的时候, Pig 将访问一个 Hadoop 集群和 HDFS 的安装位置。这时, Pig 将自动地对这个集群进行分配和回收。因为 Pig

jopen 2013-11-22   82817   0

机器学习的11个开源项目 经验

类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机 器学习算法。MLli

jopen 2014-12-18   52979   0

推荐系统资源列表(List of Recommender Systems) 经验

came across as a Heroku add-on . It is based on Hadoop but seems to be based abandoned Mortar Recommendation

jopen 2015-06-18   18486   0

Oracle加入NoSQL阵营 资讯

Apache Hadoop、Oracle Data Integrator with Application Adapter for Handoop、Oracle Loader for Hadoop 和开源分布式统计语言

jopen 2011-10-17   32386   0
Oracle   NOSQL  

Facebook 的系统架构 经验

持久化由MySQL, Memcached [3], Facebook 的 Cassandra [4], Hadoop 的 HBase [5] 完成。Memcached 使用了MySQL的内存Cache。Facebook

jopen 2015-03-24   29946   0

大数据抽取工具,bboss v4.0.9 发布 资讯

取进度 修复了一系列bug。 bboss大数据抽取工具功能特点如下: 实 现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库表分区、按字段分区、表分区+分区字段二次分区三种方式并行

jopen 2015-08-28   10387   0
bboss  

Apache Spark 1.4 发布,开源集群计算系统 资讯

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用

jopen 2015-06-11   16817   0

分布式计算 Spark 入门介绍 经验

MapReduce和专用的迭代编程模型(如Pregel)等。论文中实现的RDD在迭代计算方面比Hadoop快二十多倍,同时还可以在5-7秒的延时内交互式地查询1TB的数据集。 第一作者 Matei

jopen 2015-01-07   65000   0

消息系统kafka及其变种Jafka、Metamorphosis (MetaQ) 经验

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2016-01-05   10274   0

Apache Kafka —一个不同的消息系统 资讯

所有发布的消息保留一段可配置的时 间。这让消费者很灵活,他们可以来去自由而不影响群集,并适合像Hadoop集群这样的脱机消费者。生产者能够选择那一个主题,主题的那一个分区,来发布 该消息。消费者自己也

jopen 2014-01-05   27142   0

微软正式发布分布式大规模图数据处理引擎 Graph Engine 1.0 预览版 资讯

克隆版)。HDFS 是 Hadoop 分布式文件系统。有趣的是,微软于 2011 年 放弃了海量数据架构 Dryad 转而支持 Hadoop 大数据框架 ,主要是因为其客户不断要求能在Hadoop环境中储存、管理并分析各种数据。(关于

yge3 2015-05-16   11710   0
微软  

几种常见的基于Lucene的开源搜索解决方案对比 博客

Lucene 的,支持分布式,可扩展,具有容错功能,准实时的搜索方案。 优点:开箱即用,可以与 Hadoop 配合实现分布式。具备扩展和容错机制。 缺点:只是搜索方案,建索引部分还是需要自己实现。在搜索

openkk 2012-08-23   4505   0
P31

  毕玄-HBase简介与实践分享 文档

HBase Features(Cont.)和Hadoop无缝集成 Hadoop分析后的结果可直接写入HBase; 存放在HBase的数据可直接通过Hadoop来进行分析。 12. HBase能用于Online场景吗?Why

hadoopfans 2011-08-16   4086   0

大数据抽取工具,bboss 4.0.8 发布 资讯

bboss大数据抽取工具4.0.8发布 bboss大数据抽取工具功能特点如下: 实现 db 到hadoop hdfs 数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取

jopen 2015-08-01   11007   0
bboss  

MapReduce中combine、partition、shuffle的作用是什么 经验

aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比较难以的概念。下面需要用心看,然后自己就能总结出来了。 概括: comb

jopen 2016-01-18   18332   0
P27

  APM Python Application Performance 文档

Cassandra(FB) Elasticsearch Hadoop 基于Hadoop及Elasticsearch的大数据存储根据不同的业务需求选择适合的技术方案 云智慧选择Hadoop及Elasticsearch作为最终存储系统

cd62 2015-01-29   509   0
P11

  HIVE 入门 文档

org/hadoop/HiveHIVE入门刘春安 2. Hive定义,作用 数据类型 创建表 查看表结构命令 修改表 导入数据 编写HQL 自定义函数目录 3. Hive 是建立在 Hadoop 上的数

kunshou 2012-09-13   533   0

Spark 集群概述 经验

一个非常成熟的分布式操作系统,可以用来运行除 Spark 以外的很多系统。 Hadoop YARN - Hadoop 的 资源管理器。 术语表 术语 解释 Application 在 Spark 上运行的工作,

jopen 2015-10-22   10414   0

一个DBA眼中的HBase 经验

Hadoop,HBase,NO-SQL是当今业界比较火的一些名词。满互联网都是对它的他们的赞许,其实光芒的背后还有部分缺点。本文只是我vogts的一些观点和想法。 HBase的优点: 分布式,

dmc3 2015-07-25   14364   0
1 2 3 4 5 6 7 8 9 10