开源项目,开源代码,开源文档,开源新闻,开源社区

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。 Data Serialization，默认使用的是Java Serialization，这个程

jopen 2015-12-21 21259 0

Spark 分布式/云计算/大数据

http://www.cnblogs.com/francisYoung/p/5205420.html 要想明白spark application调度机制，需要回答一下几个问题： 1.谁来调度？ 2.为谁调度？

NorineXGII 2016-02-21 10869 0

Spark 分布式/云计算/大数据

来自： http://www.solinx.co/archives/570 Spark执行不少操作时都依赖于闭包函数的调用，此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中

gy471150 2016-02-27 12450 0

Spark 分布式/云计算/大数据

在YARN 上运行 Spark 在Spark0.6.0 版本开始支持 YARN 模式，随后的版本在逐渐地完善。在YARN 上启动 Spark 确保HADOOP_CONF_DIR或YARN_C

jopen 2016-01-08 22741 0

YARN Spark 分布式/云计算/大数据

链接： http://spark.apache.org/docs/latest/programming-guide.html 安装好Spark 后，自带了一些demo, 路径在Spark根目录/exam

lianzhu3 2016-03-01 39966 0

Spark

Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

jopen 2014-09-23 100810 0

Spark Hadoop 分布式/云计算/大数据

个人理解首先， MapReduce-like 是说架构上和多数分布式计算框架类似， Spark 有分配任务的主节点（ Driver ）和执行计算的工作节点（ Worker ）

jopen 2014-03-31 32227 0

分布式/云计算/大数据 Spark

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部

jopen 2014-08-14 51313 0

分布式/云计算/大数据 Spark

Spark SQL 编程指南简介 Spark SQL支持在Spark中执行SQL，或者HiveQL的关系查询表达式。它的核心组件是一个新增的RDD类型JavaSchemaRDD。JavaSche

jopen 2014-09-01 93150 0

Spark 分布式/云计算/大数据

Spark 基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark 部署在大量廉价硬件之上，形成集群。认识 Spark Apache Spark

jopen 2015-01-13 58340 0

Spark 分布式/云计算/大数据

1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角，越来越

jopen 2015-01-29 28746 0

Spark 分布式/云计算/大数据

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；

jopen 2014-11-17 109482 0

Spark 分布式/云计算/大数据

P9

Managenment -- 缓存管理，对RDD的中间计算结果进行缓存管理以加快整体的处理速度计算范式和抽象 Spark首先是一种粗粒度数据并行（data parallel）的计算范式。数据并行跟任务并行（task

ylx1214 2015-04-18 1526 0

分布式/云计算/大数据

P35

1. The Spark Project TodayAnd What’s NextAndy Konwinski@andykonwinski 2. Community 3. Project HistorySpark

aacall 2014-06-25 2747 0

分布式/云计算/大数据 Apache Intel Java Go

com/a/1190000003889102 本篇博客简述 Spark 集群相关的概念。概述 Spark 的"集群"不是提供运算服务的，而是一种资源分配的调度器。执行任务的 Spark 进程作为客户端向"集群"申请资源(运算节点)

jopen 2015-10-22 10414 0

Spark 分布式/云计算/大数据

Spark功能还是蛮强的，安装的东西可是不少，好在搞完一次就可以一直用（除非用不上）。这里介绍安装需要的软件和步骤。不同机器可能还有些设置不一样的，需要自己去摸索，毕竟这个是开源软件，好事是有问题可以

jopen 2015-06-25 207580 0

Spark 分布式/云计算/大数据

性能优化参数针对Spark SQL 性能调优参数如下：代码示例 import java.util.List; import org.apache.spark.SparkConf; import org

jopen 2015-06-17 60968 0

Spark SQL 分布式/云计算/大数据

html 由于Spark的运行环境的多样性，如可以运行在hadoop的yarn上，这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤： 1、Spark的编译方式：编译的方式可以参考官网：

pdce 2015-06-11 30931 0

Spark 分布式/云计算/大数据

步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】 Spark提供了一些基本的Web监控页面，对于日常监控十分有用。 1. Application

jopen 2015-07-09 45272 0

Spark 分布式/云计算/大数据

Spark中的rollup 在对数据进行小计或合计运算时，rollup和cube一样，算是常用的操作了。Spark的DataFrame提供了rollup函数支持此功能。假设准备了如下数据： trait

jopen 2015-12-31 8013 0

分布式/云计算/大数据

Spark的性能调优经验

Spark Application的调度算法经验

Spark——共享变量经验

在YARN上运行Spark 经验

Spark的Python编程示例代码段

Spark与Hadoop的结合经验

Spark 快速理解经验

什么是spark 经验

Spark SQL编程指南经验

Spark初探经验

Spark 内核研究经验

Spark介绍经验

Spark 笔记文档

The Spark Project Today 文档

Spark 集群概述经验

Spark运行环境的安装经验

Spark SQL性能优化经验

Spark的编译经验

Spark性能调优经验

Spark中的rollup 经验

Spark修改窗口的相关搜索

关键词

Spark的性能调优 经验

Spark Application的调度算法 经验

Spark——共享变量 经验

在YARN上运行Spark 经验

Spark的Python编程示例 代码段

Spark与Hadoop的结合 经验

Spark 快速理解 经验

什么是spark 经验

Spark SQL编程指南 经验

Spark初探 经验

Spark 内核研究 经验

Spark介绍 经验

Spark 笔记 文档

The Spark Project Today 文档

Spark 集群概述 经验

Spark运行环境的安装 经验

Spark SQL性能优化 经验

Spark的编译 经验

Spark性能调优 经验

Spark中的rollup 经验

Spark修改窗口 的相关搜索

关键词

Spark的性能调优经验

Spark Application的调度算法经验

Spark——共享变量经验

Spark的Python编程示例代码段

Spark与Hadoop的结合经验

Spark 快速理解经验

Spark SQL编程指南经验

Spark初探经验

Spark 内核研究经验

Spark介绍经验

Spark 笔记文档

Spark 集群概述经验

Spark运行环境的安装经验

Spark SQL性能优化经验

Spark的编译经验

Spark性能调优经验

Spark修改窗口的相关搜索