0推荐
43K 浏览

HBase 全局一致性事务支持:Tephra

Tephra 在 Apache HBase 的基础上提供了全局一致性的事务支持。HBase 提供了强一致性的基于行和区域的 ACID 操作支持,但是牺牲了在跨区域操作的支持。这就要求应用开发者花...
0推荐
22K 浏览

实现一个大规模的文档存储服务

以前,我们解释了为什么我们决定为Genius Scan选择在文档存储服务上工作,以及我们是怎样逼近这个工程的挑战的。我们认为这个过程是值得分享得,我们也希望能够从社区获得反馈。
0推荐
18K 浏览

想从事大数据、海量数据处理相关的工作,如何自学打基础?

海量数据分成两块,一是系统建设技术,二,海量数据应用。 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之...
0推荐
55K 浏览

大数据的核心:数据挖掘

大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心...
0推荐
54K 浏览

项目心得:大屏数据可视化设计

大屏数据可视化设计方法论很少,正好自己参与过部门多个大屏项目,所以总结了大屏可视化设计的方法。希望通过这篇文章能帮助大家整理思考过程,提高工作效率,同时很好的达到目标,找到兴趣。
0推荐
66K 浏览

深入浅出解析大数据平台架构

目录: 什么是大数据 Hadoop介绍-HDFS、MR、Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构
0推荐
311K 浏览

揭秘腾讯大数据平台与推荐应用架构

如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理。腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和 Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流...
0推荐
32K 浏览

Hadoop面试题,看看你能答对多少?答案在后面

大数据技术Hadoop面试题,看看你能答对多少?答案在后面
0推荐
33K 浏览

视频类网站大数据生态 Spark在爱奇艺的应用实践

视频类网站大数据生态 Spark在爱奇艺的应用实践
0推荐
177K 浏览

Spark SQL 初探: 使用大数据分析2000万数据

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop Map...
0推荐
17K 浏览

类似 Git 的分布式文件系统:Pfs

Pfs是一个类似于Git的分布式文件系统,专门构建用于Docker生态系统。你需要使用Docker来部署它,就像在您堆栈中的其他应用程序。
0推荐
136K 浏览

Spark 配置指南

Spark可以在三个地方配置系统: Spark属性控制大部分的应用参数。 这些属性可以通过SparkConf对象, 或者Java系统属性. 环境变量可以为每台机器配置,比如IP地址, 通...
0推荐
22K 浏览

FreeNAS安装与应用—安装篇

FreeNAS是一套免费的NAS服务器,它能将一部普通PC变成网络存储服务器。该软件基于FreeBSD,Samba 及PHP,支持CIFS (samba), FTP, NFS pro...
0推荐
23K 浏览

来自阿里的流处理框架:JStorm

关于流处理框架,在先前的文章汇总已经介绍过Strom, 今天学习的是来自阿里的的流处理框架JStorm。简单的概述Storm就是:JStorm 比Storm更稳定,更强大,更快,Storm上跑的...
0推荐
22K 浏览

面向Hadoop框架的高级语言: Apache Pig

Apache Pig是用来处理大规模数据的高级查询语言,配合 Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样...
0推荐
22K 浏览

Oozie:Hadoop工作调度工具

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。在Hadoop生态圈中,有一个相对比较新的组件叫做Oozie,它让我们可以把多个Map/Redu...
0推荐
21K 浏览

分布式日志系统:Scribe

Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存 储系统(可以是NFS,分布式文件系统等)上,以便于进行...
0推荐
40K 浏览

分布式服务框架:Zookeeper

Zookeeper是一个高性能,分布式的,开源分布式应用协调服务。它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务,比如同步, 配置管理,集群管理,名空间。它被设计为易于编程,使用文...
0推荐
108K 浏览

hadoop2.5.1安装到虚拟机

hadoop2.5.1安装到虚拟机
0推荐
26K 浏览

storm 原理简介及单机版安装指南

Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语,使我们对数据进行批处理变的...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档