开源项目,开源代码,开源文档,开源新闻,开源社区

mapreduce实现全局排序

jopen 2013-10-10 36005 0

Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programmingmodel），是一个用于处理和生成大规模数据集（processing and generating large data sets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。

jopen 2013-10-10 26724 0

MapReduce

最近在和人交流时谈到数据相似度和数据共性问题，而刚好在业务层面有类似的需求，今天和大家分享这类问题的解决思路

jopen 2015-09-02 13564 0

MapReduce 分布式/云计算/大数据

在文章《 MapReduce原理与设计思想》中，详细剖析了MapReduce的原理，这篇文章则通过实例重点剖析MapReduce

jopen 2014-12-19 17044 0

MapReduce 分布式/云计算/大数据

P22

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序

li270606338 2013-08-28 7576 0

Hadoop 分布式/云计算/大数据 Go

在新文章“MapReduce模式、算法和用例”中，Ilya Katsov提供了一个系统化的综述，阐述了能够应用MapReduce框架解决的问题。

openkk 2012-02-24 103805 0

MapReduce 算法

P18

Map/Reduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的，Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是，Map/Reduce是一个编程模型（programming model），是一个用于处理和生成大规模数据集（processing and generating large data sets）的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。

wanghaoms 2013-03-05 3360 0

分布式/云计算/大数据

Apache Crunch（孵化器项目）是基于Google的FlumeJava库编写的Java库，用于创建MapReduce流水线。与其他用来创建MapReduce作业的高层工具（如Apache Hive、Apache Pig和Cascading等）类似，Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。而与其他工具不同的是，Crunch并不强制所有输入遵循同一数据类型。相反，Crunch使用了一种定制的类型系统，非常灵活，能够直接处理复杂数据类型，如时间序列、 HDF5文件、Apache HBase表和序列化对象（像protocol buffer或Avro记录）等。

jopen 2013-07-18 18336 0

分布式/云计算/大数据 Apache Crunch

mysql的安装以及和mapreduce的交互

jopen 2014-11-08 52451 0

MySQL 数据库服务器 MapReduce

谷歌在2003到2006年间连续发表了三篇非常有影响力的文章，分别是2003年在SOSP上发布的GFS，2004年在OSDI上发布的MapReduce，以及2006年在OSDI上发布的BigTable。GFS是文件系统相关的，其对后来的分布式文件系统设计具有指导意义；MapReduce是一种并行计算的编程模型，用于作业调度；BigTable是一个用于管理结构化数据的分布式存储系统，构建在GFS、C

码头工人 2013-10-15 4778 0

高性能socket

P4

MapReduce作业框架注解：InputFormat：输入格式OutputFormat：输出格式Mapper：map阶段工作Reducer：reduce阶段工作2程序员需要实现的类和方法2.1InputFormat接口程序员需要实现该接口以指定输入文件的内容格式publicinterfaceInputFormat{getSplits();//将输入数据分块，每一块交给一个maptask处理getRecordReader();//每一块每条记录解析成key/value对}默认的InputFormat是TextInputFormat，它将文件中的每一行作为value，该行的偏移量为key。

gaofei8704 2013-06-19 624 0

分布式/云计算/大数据

MRUnit是由Couldera公司开发的专门针对 Hadoop中编写MapReduce单元测试的框架，基本原理是JUnit4和 EasyMock。

jopen 2012-02-02 44233 0

MapReduce 单元测试

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.对于业界的大数据存储及分布式处理系统来说Hadoop2提出的新MapReudce就是YARN: A framework for job scheduling and cluster resource management.

jopen 2014-11-17 47213 0

MapReduce 分布式/云计算/大数据

Storm 是一个类似Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务递交给JStorm系统，Jstorm将这个任务跑起来，并且按7 * 24小时运行起来，一旦中间一个worker 发生意外故障，调度器立即分配一个新的worker替换这个失效的worker。因此，从应用的角度，JStorm 应用是一种遵守某种编程规范的分布式应用。

jopen 2014-02-27 43539 0

消息系统 JStorm

P23

大家都熟悉文件系统，在对HDFS进行分析前，我们并没有花很多的时间去介绍HDFS的背景，毕竟大家对文件系统的还是有一定的理解的，而且也有很好的文档。在分析Hadoop的MapReduce部分前，我们还是先了解系统是如何工作的，然后再进入我们的分析部分。

dishad631 2010-10-01 5060 0

Hadoop 分布式/云计算/大数据

MapReduce是更好地利用并行计算资源来提升数据处理能力的重要算法，如今已被主流的大数据分析平台实现，成为了大数据批量处理的主力军。利用前面介绍的Actor特性，其实我们也可以实现一个简易的MapReduce。

Stephen0304 2016-09-27 13591 0

MapReduce Scala 算法

P23

大家都熟悉文件系统，在对HDFS进行分析前，我们并没有花很多的时间去介绍HDFS的背景，毕竟大家对文件系统的还是有一定的理解的，而且也有很好的文档。在分析Hadoop的MapReduce部分前，我们还是先了解系统是如何工作的，然后再进入我们的分析部分。

suncf1985 2014-05-08 2043 0

Hadoop 分布式/云计算/大数据

有时候我们在项目中会遇到输入结果集很大，但是输出结果很小，比如一些 pv、uv 数据，然后为了实时查询的需求，或者一些 OLAP 的需求，我们需要 mapreduce 与 mysql 进行数据的交互，而这些是 hbase 或者 hive 目前亟待改进的地方。

jopen 2013-07-29 35351 0

Hadoop 分布式/云计算/大数据

用MapReduce做相似度分析

jopen 2013-12-23 11168 0

MapReduce 分布式/云计算/大数据

MapReduce的数据流程、执行流程

jopen 2013-11-27 19471 0

MapReduce

mapreduce实现全局排序经验

mapreduce源码分析总结经验

MapReduce业务－图片关联计算经验

MapReduce实例浅析经验

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序文档

MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases) 经验

MapReduce 源码分析完整版文档

Apache Crunch：简化MapReduce编程的Java库经验

mysql的安装以及和mapreduce的交互经验

用JavaScript阐述MapReduce原理博客

MapReduce 程序编程框架文档

MapReduce单元测试框架 MRUnit 经验

Hadoop中MapReduce框架入门经验

阿里类似Hadoop MapReduce的系统：jstorm 经验

Hadoop源码分析-MapReduce部分文档

运用 Aggregator 模式实现 MapReduce 经验

Hadoop源代码分析(MapReduce概论) 文档

Hadoop 中利用 mapreduce 读写 mysql 数据经验

用MapReduce做相似度分析经验

MapReduce的数据流程、执行流程经验

Google MapReduce原文的相关搜索

关键词

mapreduce实现全局排序 经验

mapreduce源码分析总结 经验

MapReduce业务 － 图片关联计算 经验

MapReduce实例浅析 经验

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序 文档

MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases) 经验

MapReduce 源码分析完整版 文档

Apache Crunch：简化MapReduce编程的Java库 经验

mysql的安装以及和mapreduce的交互 经验

用JavaScript阐述MapReduce原理 博客

MapReduce 程序编程框架 文档

MapReduce单元测试框架 MRUnit 经验

Hadoop中MapReduce框架入门 经验

阿里类似Hadoop MapReduce的系统：jstorm 经验

Hadoop源码分析-MapReduce部分 文档

运用 Aggregator 模式实现 MapReduce 经验

Hadoop源代码分析(MapReduce概论) 文档

Hadoop 中利用 mapreduce 读写 mysql 数据 经验

用MapReduce做相似度分析 经验

MapReduce的数据流程、执行流程 经验

Google MapReduce原文 的相关搜索

关键词

mapreduce实现全局排序经验

mapreduce源码分析总结经验

MapReduce业务－图片关联计算经验

MapReduce实例浅析经验

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序文档

MapReduce 源码分析完整版文档

Apache Crunch：简化MapReduce编程的Java库经验

mysql的安装以及和mapreduce的交互经验

用JavaScript阐述MapReduce原理博客

MapReduce 程序编程框架文档

Hadoop中MapReduce框架入门经验

Hadoop源码分析-MapReduce部分文档

Hadoop 中利用 mapreduce 读写 mysql 数据经验

用MapReduce做相似度分析经验

MapReduce的数据流程、执行流程经验

Google MapReduce原文的相关搜索