用Apache Spark进行大数据处理——第二部分:Spark SQL 经验

在Apache Spark文章系列的 前一篇文章 中,我们学习了什么是Apache Spark框架,以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark SQL,作为Apache Spark大数据

jopen 2015-06-14   77634   0

分布式数据处理引擎Apache Flink v1.1.0发布 资讯

Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。再换句话说,Flink

jopen 2016-08-04   9108   0

分布式数据处理引擎Apache Flink v1.1.0发布 资讯

Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。再换句话说,Flink

jopen 2016-08-08   33518   0

分布式数据处理引擎Apache Flink v1.1.1发布 资讯

Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。再换句话说,Flink

jopen 2016-08-11   14734   0

主流HTML5游戏框架的分析对比(Construct2、ImpactJS、CreateJS、Cocos2d-html5) 经验

js、melonJS、Turbulenz、Quintus、Cocos2d-html5等进行了简要介绍和对比,主要是根据网上的资料整理 而成。 主流框架对比 Construct2 Construct 2是一个运行于Window

jopen 2014-01-01   102399   0

盘点大数据生态圈,那些繁花似锦的开源项目 资讯

融、游戏等行 业的大数据应用,并覆盖了当下热门的大数据开源技术实践与技术细节,如Hadoop、Spark、Docker等,详情参阅《程序员》电子刊9月B。而在 本文中,笔者将带大家一览这些精彩实践赖以成型的根本——繁华的开源大数据生态圈。

jopen 2015-09-11   33463   0

Yahoo的流计算引擎基准测试 经验

com/yahoo的流计算引擎基准测试/ 原文链接 译者:andy huang Yahoo的流计算引擎对比测试 (雅虎Storm团队排名不分先后 ) Sanket Chintapalli , Derek Dagit

ft852704 2016-01-29   18667   0

spark中各种连接操作以及实用方法 代码段

val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789",10))) val c = a.join(b) c.foreach(println) /* (123,(4.0,8.0)) (789,(9.0,10)) */ val d

jopen 2015-06-04   5924   0
Spark  

开源集群计算环境,Spark 1.1.0 发布 资讯

Spark 1.1.0 发布,该版本带来了一些操作性和性能的提升,主要是体现在核心模块上。同时增加新的库 MLlib 和 Spark SQL。支持 Python ,增加新的组件到 Spark 流模块。其他改进和完整介绍内容请看

jopen 2014-09-12   16979   0
Spark  

Spark 颠覆 MapReduce 保持的排序记录 资讯

在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数 据处理上,Apache Spark比MapReduce更加高

jopen 2014-10-11   13271   0
Spark   Hadoop  

Spark发布1.3.0版本 资讯

com/cn/news/2015/03/spark-new-version-release 3月13日, Spark 1.3.0版本与我们如约而至 。这是Spark 1.X发布计划中的第四次发布,距离1

jopen 2015-03-16   28176   0
Spark  

Spark新愿景:让深度学习变得更加易于使用 经验

前言 Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了 spark-deep-learning

dingkai202 2017-09-25   28211   0

Scala-Spark环境搭建配置 经验

开始搭建的jdk这些自不必说,本文只是简单的介绍安装scala/spark 1.下载scala安装包 去官网下载tgz包,解压在/opt/scala/下,设置环境变量: export SCAL

jopen 2014-03-02   102788   0

Spark学习笔记之浅释 经验

概述: Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言 是Scala,项目的cor

jopen 2015-06-20   13091   0

Ubuntu下Spark开发环境搭建 经验

配置Ubuntu下使用Python开发Spark应用 Ubuntu 64 基本环境配置 安装 JDK ,下载 jdk-8u45-linux-x64.tar.gz ,解压到 /opt/jdk1.8

dgy7 2015-05-21   254373   0

内存计算技术那家强?SPARK vs HANA 经验

会,跟各位聊聊到底什么是内存计算技术,以及比较一些现在两种比较主流的内存计算技术Apache Spark和SAP HANA,它们的特点和区别。 什么是内存计算技术? 关于内存计算,就像云计算和大数

jopen 2014-11-18   37159   0

基于Spark的图计算框架 GraphX 入门介绍 经验

GraphX原型论文 GraphX 是 Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative

jopen 2015-01-08   245739   0

网易大数据平台的Spark技术实践 经验

信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。 实时计算指针对只读(Read Only)数据进行即时数据的获取和计

jopen 2014-12-19   64036   0

Spark设计理念与基本架构 经验

html 《深入理解Spark:核心思想与源码分析》一书前言的内容请看链接 《深入理解SPARK:核心思想与源码分析》一书正式出版上市 《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章

没心没肺 2016-01-27   56246   0

Spark的RDD原理以及2.0特性的介绍 经验

王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 - 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 Hive 及 HBase 版本研

di742088 2016-05-19   68140   0
1 2 3 4 5 6 7 8 9 10