两款高性能并行计算引擎Storm和Spark比较 经验

来自http://blog.csdn.net/iefreer/article/details/32715153 Spark 基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点

jopen 2015-06-19   149951   0

分布式计算系统,Spark 发布1.0.0 版本 资讯

Spark 是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core

jopen 2014-05-30   29373   0
Spark  

量化派基于Hadoop、Spark、Storm的大数据风控架构 经验

I和数据挖掘这些工作都放到了Spark[5] 上。这样一来,依赖不同任务或不同计算框架间的数据共享情况在所难免,例如Spark的分属不同Stage的两个任务,或Spark与MapReduce 框架的数

jopen 2015-10-06   52802   0

浅谈Spark应用程序的性能调优 经验

Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。

jopen 2016-01-19   22460   0

Spark生态系统中的图数据分析知识 经验

GraphFrames的工作机制 Malak:作为Apache Spark生态系统的一部分,GraphX是Spark的官方图处理系统。即使在Spark 2.0中也是如此。GraphX基于RDD技术,每条边和每

pcus3589 2016-10-19   7473   0

Spark Streaming + Elasticsearch 构建 App 异常监控平台 经验

独立开发。造轮子,首先要考虑的就是成本问题。我们选择了站在开源巨人的肩膀上,如图1所示。 Spark Streaming 每天来自客户端和服务器的大量异常信息,会源源不断的上报到异常平台的Ka

beuf3754 2016-11-06   22460   0

使用Spark Streaming + Kudu + Impala构建一个预测引擎 经验

可用来动态规划计算机资源,或者业务优化。传统的批处理方法预测采用Impala和Spark两种方法,动态预测使用Spark Streaming。 任何预测的起点是基于海量历史数据和实时更新的数据来预测未来的数据业务。

首款Linux平板Spark细节再曝光 下周可预订 资讯

首款 Linux 平板电脑 Spark 将“很快”上市,目前在 Spark Q&A页面曝光了关于这款平板电脑的更多详细信息,包括硬件、运行软件以及推出时间。 据悉,Spark 采用 7 英寸多点触摸屏幕,分辨率为

fmms 2012-02-05   6330   0
Linux  

Java的微型Web框架 Spark 简易入门教程 经验

一、Spark是什么 Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它的目的是让你以最小的代价创建出一个Java Web应用。 二、使用Spark Spark的使用

jopen 2015-03-04   15574   0

大数据赛道上的单挑:MapReduce与Spark到底谁快? 资讯

html 通常人们认为Spark的性能和速度全面优于MapReduce,但最新的对决显示MapReduce在某些方面也有胜场,而且数据规模越大优势越大。 Apache Spark是当今最火爆的大数据

jopen 2015-10-11   12292   0

Spark IM 2.7.3 发布,IM 客户端 资讯

Spark是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 Spark IM 2.7.3 发布,此版本包含

jopen 2015-10-23   8318   0

新的可视化帮助更好地了解Spark Streaming应用程序 资讯

4 之前,我们展示了在Spark1.4.0中 新推出的可视化功能 ( 《Spark 1.4:SparkR发布,钨丝计划锋芒初露》 [中文版]),用以更好的了解Spark应用程序的行为。接着这个主题,这篇博文将重点介绍为理解Spark

f627 2015-07-15   20421   0

Java开源即时消息客户端,Spark IM 2.7.4 发布 资讯

Spark是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 Spark IM 2.7.4 发布,此版本现已提供在

jopen 2015-12-18   7866   0

在Docker上使用Weave搭建Hadoop和Spark跨主机容器集群 资讯

hadoop,spark的开发环境就行了。 本文的重点有两个,第一,使用weave解决跨主机通信,第二,实际使用当中,开放端口调试程序和webUI监控等。至于hadoop,spark本身的安装配置等参数并没有涉及。

jopen 2016-02-24   36540   0
Spark   Docker   Hadoop  

[译]R语言突破大数据瓶颈:Shiny的Spark之旅 资讯

SparkR 来驱动 Shiny 应用。 什么是SparkR SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data

jopen 2016-02-18   24544   0

为什么越来越多的公司在使用Spark Streaming 资讯

Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark

jopen 2016-01-03   21174   0

大数据工具比较:R语言和Spark谁更胜一筹? 资讯

本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下 Spark的机器学习库 。 背景 介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种

jopen 2015-12-06   87108   0
R语言  

Apache Spark 1.6 预览版:更简便的搜索 资讯

日前,Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外,本次发布还提供了对尚未发布的Apache Spark 1.6预览。 Databricks用户有机会在官方发布之前试用Spark 1

jopen 2015-12-21   16391   0
P28

  电信场景下Spark一站式分析平台 文档

1. 电信场景下Spark一站式分析平台夏命榛 2014-08 2. 目录 Page 2电信大数据场景与关键技术1.2.数字足迹案例3.平台和关键技术 3. Page 3 4. Page 4 5. Page

w7d33 2014-10-06   3838   0

Spark:一个高效的分布式计算系统 经验

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架, Spark基于map reduce算法实现的分布式计算 ,拥有Hadoop MapR

jopen 2014-05-27   14535   0
1 2 3 4 5 6 7 8 9 10