0推荐
7K 浏览

提高hadoop的mapreduce job效率笔记—–修改mapper和reducer数量

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情况:  
0推荐
11K 浏览

Pig + Ansj 统计中文文本词频

最近特别喜欢用Pig,有能满足大部分需求的内置函数(Built In Functions),支持自定义函数(user defined functions, UDF ),能load 纯文本、avr...
jopen 8年前   
0推荐
16K 浏览

大数据技术hadoop入门理论系列之二—HDFS架构简介

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是:
0推荐
10K 浏览

Hadoop和Spark的处理模型比较

Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
0推荐
22K 浏览

elasticsearch-hadoop使用示例

在elasticsearch-hadoop的具体使用中碰到了几个问题,有必要记录一下,避免下次遇到时又要重新研究。
0推荐
8K 浏览

Dpark源码剖析

Spark是一个当下很火的集群计算平台,来自于加州大学伯克利分校的AMPLab,目前从Apache孵化器毕业,成为了Apache基金会下的顶级项目。现在的spark类似于hadoop,逐渐成长为...
0推荐
19K 浏览

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷。这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的...
0推荐
31K 浏览

Apache Eagle:eBay开源分布式实时Hadoop数据安全引擎

Apache Eagle Committer 和 PMC 成员,eBay 分析平台基础架构部门高级软件工程师,负责Eagle的产品设计、技术架构、核心实现以及开源社区推广等。
0推荐
10K 浏览

hadoop调度算法

1 hadoop目前支持以下三种调度器: FifoScheduler:最简单的调度器,按照先进先出的方式处理应用。只有一个队列可提交应用,所有用户提交到这个队列。没有应用优先级可以配置。
0推荐
33K 浏览

新一代大数据处理引擎 Apache Flink

这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,...
0推荐
257K 浏览

Hadoop - Ambari集群管理剖析

Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台,可以快速帮助搭建Hadoop及相关以来组件的平台,管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学...
0推荐
20K 浏览

Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作等

Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用等
0推荐
34K 浏览

hadoop2.x 完全分布式详细集群搭建(图文:4台机器)

hadoop2.x 完全分布式详细集群搭建(图文:4台机器)
0推荐
53K 浏览

量化派基于Hadoop、Spark、Storm的大数据风控架构

量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用 户提供最优质的贷款服务。金融的本质是风险和流动性,但是目...
0推荐
33K 浏览

脱离JVM?Hadoop生态圈的挣扎与演化

新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等 产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从...
0推荐
12K 浏览

Hadoop分布式文件系统HDFS的工作原理详述

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的 机器上。它能提供高吞吐量的数据访问,非常适合大规模数据...
0推荐
7K 浏览

Hadoop 排重优化

如果觉得有帮助的话就顶下吧 在统计的时候经常会用到排重,比如想统计每日登陆用户,但是一个用户一次多次登陆情况,或者一个产品被多少个用户下载。。
0推荐
15K 浏览

细细品味大数据--初识hadoop

之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间, 加上一直为offer做准备,所以当时重心放在C++上面了...
0推荐
14K 浏览

hadoop集群数据节点gmond安装

hadoop集群数据节点gmond安装
0推荐
32K 浏览

大数据与Hadoop之间是什么关系?

大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 Hadoop等等。那么,大数据是什么、Hadoop是什么,大数据和Hadoop有什么关系呢?
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档