0推荐
22K 浏览

Spark 1.6.0 新手快速入门

本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读 Spark Program...
0推荐
10K 浏览

《Spark官方文档》集群模式概览

本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用,请参考 application submission guide 。
0推荐
12K 浏览

Spark——共享变量

Spark执行不少操作时都依赖于 闭包函数 的调用,此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作:
0推荐
11K 浏览

Spark Application的调度算法

要想明白spark application调度机制,需要回答一下几个问题: 1.谁来调度? 2.为谁调度? 3.调度什么? 3.何时调度? 4.调度算法
0推荐
26K 浏览

iOS XMPP:Openfire+spark环境搭建

iOS XMPP:Openfire+spark环境搭建
0推荐
30K 浏览

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至H...
0推荐
55K 浏览

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka

在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆栈仅由数个简单部分组成,但其能够实现...
0推荐
54K 浏览

Apache Spark介绍及案例展示

2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解...
0推荐
59K 浏览

在Eclipse上运行Spark(Standalone,Yarn-Client)

我们知道有eclipse的Hadoop插件,能够在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式运行程序。那么我们可不可以直接在eclip...
0推荐
15K 浏览

Spark Tungsten-sort Based Shuffle 分析

Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高...
0推荐
56K 浏览

Spark设计理念与基本架构

《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》
0推荐
13K 浏览

Spark本地开发环境搭建

本文使用Scala2.10.6,sbt。请自行提前装好。
0推荐
27K 浏览

kafka+spark streaming+redis学习

针对这段时间所学的做了一个简单的综合应用,应用的场景为统计一段时间内各个小区的网络信号覆盖率,计算公式如下所示:
0推荐
78K 浏览

Spark的性能调优

首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:
0推荐
22K 浏览

浅谈Spark应用程序的性能调优

Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。
0推荐
21K 浏览

不同的瑞士军刀:对比 Spark 和 MapReduce

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop...
0推荐
23K 浏览

Spark Shuffle之Sort Shuffle

正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
0推荐
12K 浏览

Spark Shuffle之Hash Shuffle

正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
0推荐
8K 浏览

Spark核心——RDD

Spark中最核心的概念为 RDD(Resilient Distributed DataSets) 中文为: 弹性分布式数据集 ,RDD为对分布式内存对象的 抽象它表示一个 被分区不可变 且能 ...
0推荐
23K 浏览

在YARN上运行Spark

在Spark0.6.0 版本开始支持 YARN 模式,随后的版本在逐渐地完善。
1 2 3 4 5 6 7

经验分享,提升职场影响力

投稿

热门问答

    热门文档