开源项目,开源代码,开源文档,开源新闻,开源社区

像以实现智能实时地保护Hadoop生态系统中大数据的安全。 Eagle在eBay的使用场景目前，Eagle的数据行为监控系统已经部署到一个拥有2500多个节点的Hadoop集群之上，用以保护数百

jopen 2016-01-06 30988 0

Hadoop 开源分布式/云计算/大数据

现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS)，但Hadoop下的Common、Avro、Chukwa、Hive、HBas

jopen 2016-01-18 18790 0

分布式/云计算/大数据

的实际测试，做了该调整后，写入QPS有两倍以上的提升理论基础这里的理论基础自然是es-hadoop项目。类的调用路径关系为： EsSpark -> EsRDDWriter -> RestService

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云计算/大数据 ElasticSearch

开源的新型列式存储系统，是 Apache Hadoop 生态圈的新成员之一（ incubating ），专门为了对快速变化的数据进行快速的分析，填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景，以及架构进行简单介绍。

MadFlemming 2016-08-11 65206 0

HBase Hadoop 数据存储存储系统分布式/云计算/大数据

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看

flylong 2016-09-01 15746 0

Hadoop HBase 分布式系统分布式/云计算/大数据

Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat.

jopen 2012-02-04 249329 0

Hadoop 工作流引擎

计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架，能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

fmms 2012-01-01 43838 0

搜索引擎 Hadoop Lucene

Cascading是一个应用程序框架，能够帮助开发人员快速开发基于 Apache Hadoop 的健壮数据分析和数据管理应用程序。项目主页： http://www.open-open

openkk 2012-06-09 26819 0

Hadoop 分布式/云计算/大数据

e上面记笔记。不过最近对于Hadoop看得比较多，对它的发展也比较关心，最近了解得越多，也就越相信Hadoop的未来，这里写一篇文章与大家分享分享，为什么我相信Hadoop一定是分布式计算的未来。

fmms 2012-02-19 111837 0

Hadoop 分布式/云计算/大数据

hadoop2.2.0集群搭建 PS：apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装 hadoop-2

jopen 2014-04-01 16479 0

分布式/云计算/大数据 Hadoop2

前言在上一篇文章：“用 Hadoop 进行分布式并行编程第一部分基本概念与安装部署”中，介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 并且详细介绍了如何安装

jopen 2014-01-23 13905 0

Hadoop 分布式/云计算/大数据

Bigtop 是一个工程的系统开发包，对Apache Hadoop生态系统的测试。 Bigtop的主要目标就是构建一个Apache Hadoop生态系统的包和交互式测试的社区。这个包括对各类不同级别工程进行

jopen 2014-05-13 35312 0

分布式/云计算/大数据 Apache Bigtop

前言 Hadoop2.0介绍 Hadoop 是 apache 的开源项目，开发的主要目的是为了构建可靠，可拓展 scalable ，分布式的系统， hadoop 是一系列的子工程的总和，其中包含

jopen 2014-03-26 36055 0

Hadoop 分布式/云计算/大数据

·2数据处理与分析：传统方式 ·3大数据性质的变化 ·4大数据处理和分析的新方法 4.1Hadoop 4.2NoSQL 4.3大规模并行分析数据库 ·5大数据方法的互补 ·6大数据供应商发展状况

jopen 2014-05-04 117963 0

Hadoop 分布式/云计算/大数据

org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce

jopen 2013-07-11 38600 0

Hadoop 分布式/云计算/大数据

Rhino项目是由Cloudera、Intel和Hadoop社区合力打造的一个项目。这个项目旨在为数据保护提供一个全面的安全框架。 Rhino项目为 HBase 0.98 贡献了关键的安全特性。它

jopen 2014-08-24 12421 0

Rhino 分布式/云计算/大数据

本文原名 “Don’t use Hadoop when your data isn’t that big ” ，出自有着多年从业经验的数据科学家 Chris Stucchio ，纽约大学柯朗研究所博士

jopen 2014-08-31 32528 0

Hadoop 分布式/云计算/大数据

64-bit only ）辅助工具： WinSCP + Putty Hadoop 版本： 2.5.0 Hadoop 的 Eclipse 开发插件（ 2.x 版本适用）： http://pan

jopen 2014-09-02 31951 0

Hadoop 分布式/云计算/大数据

观。当采用map中间结果压缩的情况下，用户还可以选择压缩时采用哪种压缩格式进行压缩，现在hadoop支持的压缩格式有：GzipCodec，LzoCodec，BZip2Codec，LzmaCod

jopen 2014-08-27 12298 0

分布式/云计算/大数据 Hadoop

快速开发，快速运行，基于Go工具包。实现基于 Hadoop 的 ETL 和特性抽取工具。快速入门 Crunch is optimized to be a big-bang-for-the-buck

jopen 2014-11-20 35244 0

Crunch 数据挖掘

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ）经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

工作流引擎服务器 Hadoop Oozie 介绍经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍经验

Cascading - 基于Hadoop的数据管理和分析框架经验

为什么Hadoop将一定会是分布式计算的未来？经验

hadoop2.0集群搭建详解经验

用 Hadoop 进行分布式并行编程, 第 2 部分经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍经验

Hadoop 2.0集群配置详细教程经验

一文读懂大数据：Hadoop，大数据技术及相关应用经验

Hadoop 统计文件中某个单词出现的次数经验

一个全面的、用于Apache Hadoop数据保护的安全框架：Rhino 经验

你的数据根本不够大，别老扯什么Hadoop了经验

Hadoop伪分布配置与基于Eclipse开发环境搭建经验

hadoop作业调优参数整理及原理（主要为shuffle过程）经验

Go开发的基于Hadoop的ETL抽取工具：Crunch 经验

K-means Hadoop 的相关搜索

关键词

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎 经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ） 经验

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

Kudu:支持快速分析的新型Hadoop存储系统 经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

工作流引擎服务器 Hadoop Oozie 介绍 经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍 经验

Cascading - 基于Hadoop的数据管理和分析框架 经验

为什么Hadoop将一定会是分布式计算的未来？ 经验

hadoop2.0集群搭建详解 经验

用 Hadoop 进行分布式并行编程, 第 2 部分 经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍 经验

Hadoop 2.0集群配置详细教程 经验

一文读懂大数据：Hadoop，大数据技术及相关应用 经验

Hadoop 统计文件中某个单词出现的次数 经验

一个全面的、用于Apache Hadoop数据保护的安全框架：Rhino 经验

你的数据根本不够大，别老扯什么Hadoop了 经验

Hadoop伪分布配置与基于Eclipse开发环境搭建 经验

hadoop作业调优参数整理及原理（主要为shuffle过程） 经验

Go开发的基于Hadoop的ETL抽取工具：Crunch 经验

K-means Hadoop 的相关搜索

关键词

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎经验

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ）经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

Kudu:支持快速分析的新型Hadoop存储系统经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

工作流引擎服务器 Hadoop Oozie 介绍经验

lucene + hadoop 分布式搜索运行框架 Nut 介绍经验

Cascading - 基于Hadoop的数据管理和分析框架经验

为什么Hadoop将一定会是分布式计算的未来？经验

hadoop2.0集群搭建详解经验

用 Hadoop 进行分布式并行编程, 第 2 部分经验

对Hadoop进行打包,分发和测试的工具：Apache Bigtop 介绍经验

Hadoop 2.0集群配置详细教程经验

一文读懂大数据：Hadoop，大数据技术及相关应用经验

Hadoop 统计文件中某个单词出现的次数经验

你的数据根本不够大，别老扯什么Hadoop了经验

Hadoop伪分布配置与基于Eclipse开发环境搭建经验

hadoop作业调优参数整理及原理（主要为shuffle过程）经验