0推荐
34K 浏览

hadoop2.7完全分布式安装

hadoop2.7完全分布式安装
0推荐
13K 浏览

Spark学习笔记之浅释

Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言 是Scala,项目...
0推荐
150K 浏览

两款高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。
0推荐
19K 浏览

解析Hadoop 的集群管理与安全机制

当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享集群类似于云计算或者云存储,面临的一个最大问题是安全。本文就对Hadoop 的...
0推荐
24K 浏览

Databircks连城:Spark SQL结构化数据分析

数据科学家们早已熟悉的R和Pandas等传统数据分析框架 虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark 1.3.0以Spark SQL原有的SchemaRDD...
0推荐
61K 浏览

Spark SQL性能优化

Spark SQL性能优化
0推荐
31K 浏览

Apache Curator入门实战

Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。
0推荐
78K 浏览

用Apache Spark进行大数据处理——第二部分:Spark SQL

在Apache Spark文章系列的前一篇文章中,我们学习了什么是Apache Spark框架,以及如何用该框架帮助组织处理大数据处理分析的需求。
0推荐
29K 浏览

Kubernetes应用部署模型解析(原理篇)

Kubernetes可用来管理Linux容器集群,加速开发和简化运维(即DevOps)。但目前网络上关于Kubernetes的文章介绍性远多于实 际使用。本系列文章着眼于实际部署,带您快速掌握...
0推荐
31K 浏览

Spark的编译

由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。
0推荐
19K 浏览

分布式服务平台:Microservices Infrastructure

Microservices infrastructure 是一个为快速部署全球分布式服务的现代平台。
0推荐
15K 浏览

zookeeper集群安装与配置

zookeeper集群安装与配置
0推荐
30K 浏览

基于Mesos和Docker的分布式计算平台

针对“互联网+”时代的业务增长、变化速度及大规模计算的需求,廉价的、高可扩展的分布式x86集群已成为标准解决方案,如Google已经在几 千万台服务器上部署分布式系统。Docker及其相关技...
0推荐
9K 浏览

Hadoop集群三种作业调度算法介绍

Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法
0推荐
49K 浏览

从Hadoop到Spark的架构实践

当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其...
0推荐
12K 浏览

Hadoop环境搭建过程中可能遇到的问题

1、集群启动的时候,从节点的datanode没有启动 问题原因:从节点的tmp/data下的配置文件中的clusterID与主节点的tmp/data下的配置文件中的clusterID不一...
0推荐
42K 浏览

深度分析Twitter Heron

2015年6月1号, Twitter 对外宣讲了他们的Heron系统, 从ppt和论文中,看起来完爆storm。昨天,抽空把论文,仔细读了一遍, 把个人笔记和心得分享一下:
0推荐
76K 浏览

Hive HWI 安装及配置

备忘,HWI安装过程,整理以前的记录,今又想起来重装一次,居然又遇到新的问题,由于是笔记,有点杂乱。 Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功...
0推荐
25K 浏览

Twitter的大数据实时分析系统:Heron

Twitter发布了新开发的数据实时分析平台Heron,以下为官方文档摘译: 我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样,实时分析这些事件是一个巨大的挑战。目前,我们主要...
0推荐
18K 浏览

分布式系统开发框架:rDSN

Robust Distributed System Nucleus (rDSN) 是用于快速构建的,管理高性能,健壮的分布式系统。
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档