开源项目,开源代码,开源文档,开源新闻,开源社区

Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台，它整合了内存计算的基元，因此，相对于 Hadoop 的集群存储方法，它在性能方面更具优势。Spark 是在 Scala 语言中实现

fmms 2012-01-05 77287 0

Spark 分布式/云计算/大数据

P44

1. Spark Streaming 场景下两类倾斜问题的研究 by 余根茂淘宝技术部-数据挖掘与计算1 2. 大纲问题背景 CPU资源倾斜问题源数据倾斜问题小结2淘宝技术部-数据挖掘与计算 3

n2n3 2015-01-19 8464 0

Spark 分布式/云计算/大数据 Java Scala

)的面向SparkJava v2.3网页应用程序的 spark -pac4j v1.1 ( https://github.com/pac4j/spark-pac4j ) 发布了。它是一个完整的安全库，简单且强大，支持认证和授权

morganlee 2016-02-27 18579 0

安全相关

前流行的思路，在IDF16技术课堂上，英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程，介绍了大规模分布式机器学习在欺诈检测、用户行为预测(稀疏

MarcelaSell 2016-04-14 34881 0

Spark 神经网络算法机器学习

如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云计算/大数据 ElasticSearch

可用来动态规划计算机资源，或者业务优化。传统的批处理方法预测采用Impala和Spark两种方法，动态预测使用Spark Streaming。任何预测的起点是基于海量历史数据和实时更新的数据来预

ususking 2016-05-18 35287 0

Spark Impala 分布式/云计算/大数据

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是

flylong 2016-09-01 15746 0

Hadoop HBase 分布式系统分布式/云计算/大数据

先来回答标题所提的问题，这里的答案是列存储，下面对列存储及在列存储加速 Spark SQL 查询速度进行介绍列存储什么是列存储传统的数据库通常以行单位做数据存储，而列式存储（后文均以列存储简称）以列为单位做数据存储，如下：

gentlesie 2016-09-22 19229 0

Spark SQL SQL

我们给出基于Spark的用户行为路径实践。 6）基于Spark的用户行为路径 Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析下面是一个Spark的套件图

AbeAntle 2016-11-30 13813 0

Spark 数据挖掘分布式/云计算/大数据

有鉴于此，2009年加州大学伯克利分校团队开始了Apache Spark项目，旨在为分布式数据处理设计一个统一的引擎。 Spark具有类似于MapReduce的编程模型，但是使用称为“弹性分布式数

MorStarns 2016-12-05 9296 0

Spark 大数据分布式/云计算/大数据

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop

jopen 2013-11-13 53687 0

Spark 分布式/云计算/大数据

目录 [−] 安装和配置Spark Spark初试使用Spark SQL分析数据去年网上曾放出个2000W的开房记录的数据库，不知真假。最近在学习Spark，所以特意从网上找来数据测试一下，

jopen 2014-12-11 177140 0

Spark SQL 分布式/云计算/大数据

背景顺着昨天 spark standalone实现那篇文章继续扯淡，看看Mesos Scheduler的两种实现的异同。对我来说，回过头再仔细看Spark在这一层的实现，思路又清晰了许多。

jopen 2015-02-13 20915 0

Spark 分布式/云计算/大数据

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据

jopen 2014-12-19 23822 1

Spark

Apache Spark 1.3 发布，1.3 版本引入了期待已久的 DataFrame API，这是 Spark 的 RDD 抽象设计来简单快速支持大数据集的变革。同时在流转换 ML 和 SQL 的大量提升。

f663x 2015-03-13 27556 0

Apache Spark

Spark是一个开源，跨平台IM客户端。它的特性支持集组聊天，电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 Spark IM 2.7.2 发布，此版本现已提供

jopen 2015-08-31 16887 0

Spark IM

net/article/2015-07-08/2825162 【编者按】在" Spark 1.4：SparkR发布，钨丝计划锋芒初露 "一文中，我们有简单地介绍了1.4版本给Spark注入的新特性，在各个组件的介绍中也提到了新UI给

jopen 2015-07-08 13638 0

Spark

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件

勿忘初心321 2015-12-23 18139 1

数据分析 HDFS Hadoop Spark

oud-Dataproc-Spark 近日，谷歌发布了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务，可以帮

jopen 2015-10-08 8859 0

Hadoop Spark

P15

1. 基于Spark/hbase的数据分析平台及 SparkSQl使用经验分享黄涧石@PayPal (@huangjianshi) 2014/12/13 Beijing Spark Meetup 2.

cdop 2014-12-29 732 0

Spark 分布式/云计算/大数据 Scala SQL

Spark，一种快速数据分析替代方案经验

Spark Streaming 场景下两类倾斜问题的研究文档

使用 pac4j 保护你的 Spark Java Web 应用经验

基于Apache Spark的机器学习及神经网络算法和应用经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

如何让你的 Spark SQL 查询加速数十倍？经验

基于 Spark 的用户行为路径分析的产品化实践经验

Apache Spark：大数据处理统一引擎经验

一个高效的分布式计算系统：Spark 经验

Spark SQL 初探：使用大数据分析2000万数据经验

Spark on Mesos: 粗粒度与细粒度实现分析经验

开源分布式计算系统，Spark 1.2 发布资讯

Apache Spark 1.3 发布，基于内存计算的开源的集群计算系统资讯

Java开源即时聊天客户端，Spark IM 2.7.2 发布资讯

通过可视化来了解你的Spark应用程序资讯

解析Spark大数据分析框架的核心部件资讯

谷歌推出Dataproc，让Spark、Hadoop更便宜更快更简单资讯

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享文档

Spark修改窗口的相关搜索

关键词

Spark，一种快速数据分析替代方案 经验

Spark Streaming 场景下两类倾斜问题的研究 文档

使用 pac4j 保护你的 Spark Java Web 应用 经验

基于Apache Spark的机器学习及神经网络算法和应用 经验

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎 经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

如何让你的 Spark SQL 查询加速数十倍？ 经验

基于 Spark 的用户行为路径分析的产品化实践 经验

Apache Spark：大数据处理统一引擎 经验

一个高效的分布式计算系统：Spark 经验

Spark SQL 初探： 使用大数据分析2000万数据 经验

Spark on Mesos: 粗粒度与细粒度实现分析 经验

开源分布式计算系统，Spark 1.2 发布 资讯

Apache Spark 1.3 发布，基于内存计算的开源的集群计算系统 资讯

Java开源即时聊天客户端，Spark IM 2.7.2 发布 资讯

通过可视化来了解你的Spark应用程序 资讯

解析Spark大数据分析框架的核心部件 资讯

谷歌推出Dataproc，让Spark、Hadoop更便宜更快更简单 资讯

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享 文档

Spark修改窗口 的相关搜索

关键词

Spark，一种快速数据分析替代方案经验

Spark Streaming 场景下两类倾斜问题的研究文档

使用 pac4j 保护你的 Spark Java Web 应用经验

基于Apache Spark的机器学习及神经网络算法和应用经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

如何让你的 Spark SQL 查询加速数十倍？经验

基于 Spark 的用户行为路径分析的产品化实践经验

Apache Spark：大数据处理统一引擎经验

Spark SQL 初探：使用大数据分析2000万数据经验

Spark on Mesos: 粗粒度与细粒度实现分析经验

开源分布式计算系统，Spark 1.2 发布资讯

Apache Spark 1.3 发布，基于内存计算的开源的集群计算系统资讯

Java开源即时聊天客户端，Spark IM 2.7.2 发布资讯

通过可视化来了解你的Spark应用程序资讯

解析Spark大数据分析框架的核心部件资讯

谷歌推出Dataproc，让Spark、Hadoop更便宜更快更简单资讯

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享文档

Spark修改窗口的相关搜索