2015年阿里工作与生活回顾 资讯

其实就是坚持(跑步)加控制(饮食)。从5月16日开始我将工作重心转移到了对Spark的研究上,我将在下面一一道来。 Spark源码研究 15年1月,我和其它同事一起在杭州开发《御膳房》的时候,我意

jopen 2016-01-19   14644   0
Scala  

常见分布式计算框架特点 经验

master ,之后 hadoop2.0 之后引入 yarn 进行资源的统一管理; SparkSpark 的原理是将任务进行分解,并且在每一步任务上进行相应的操作处理,同时根据操作处理顺序构建

jopen 2015-07-08   17537   0

Basho数据平台支持内存内分析、缓存、搜索及集成NoSQL数据库 资讯

KV (以前的Riak)和 Riak S2 (以前的Riak CS),并集成了 Apache Spark 用于内存内分析,集成Redis作为缓存以提升性能,集成Apache Solr实现查询功能。

jopen 2015-07-10   10827   0
Basho  

Spring XD 1.1: 简化大数据一如Spring之于Java EE 资讯

Pivotal最近发布了 Spring XD 1.1 GA 新功能包括使用Reactor、RxJava、Spark Streaming和Python进行流处理。此外,支持 Kafka 、批量处理和RabbitMQ压缩

jopen 2015-03-13   19205   0

RDD、DataFrame和DataSet的区别是什么 经验

rson]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列

si19891002 2016-03-21   17146   0

Hadoop年度回顾与2016发展趋势 资讯

支持的存储策略,不同的策略,存储方式是不同的。用户可以针对不同类型的文件,定制相应的存储策略。 说到异构存储,很多人可能会想到 Spark 社区提出的 Tachyon,它是 Distributed cache system on HDFS,最初是为了解决不同应用程序间共享

码头工人 2015-12-30   20231   0
Hadoop  

SparkSQL-从DataFrame说起 经验

Hadoop的唯一选择,负责将SQL解析成MR任务运行在大数据上,实现交互式查询、报表等功能。就在那个时候,Spark社区的小伙伴就意识到可以使用Spark作为执行引擎替换Hive中的MR,这样可以使Hive的执行效率得到极大提升。

MarthaRagan 2017-02-16   27679   0
P7

  Flex 布局与容器 文档

,建议使用 controlBarContent 属性来指定要包含在控件栏区域中的组件集。使用 Spark Panel 类的 controlBarLayout 属性来指定控件栏区域的布局。 l Appl

sunwe1987 2016-02-27   476   0
P10

  XMPP 协议使用开源Jabber (XMPP)协议及openfire架设内部即时通讯服务 文档

Windows Exodus, Pandion, Psi, Spark Linux Gajim, Gossip, Kopete, Pidgin, Psi, Spark, Tkabber Macintosh Adium

hnwjf 2014-03-01   477   0

浅谈开源大数据平台的演变 经验

以省掉这些IO 开销,那么对计算速度的提升将是巨大的,因此业界兴起了一股基于内存计算的潮流,而Spark则是这方面的佼佼者。它提出了RDD的概念,通过对RDD的 使用将每轮的计算结果分布式地放在内存中

b77m 2015-04-22   37643   0

浅谈开源大数据平台的演变 经验

以省掉这些IO开销,那 么对计算速度的提升将是巨大的,因此业界兴起了一股基于内存计算的潮流,而Spark则是这方面的佼佼者。它提出了RDD的概念,通过对RDD的使用将每 轮的计算结果分布式地放在内存中

jopen 2015-11-21   25453   0

大数据挖掘更多时间都在于清洗数据 经验

本都是必须考虑的。 就拿Spark Hive和Hive来说,同样是在Yarn上来跑P,而且替换任务的执行引擎也很方便。 修改任务执行引擎 的确,Spark的大多数任务都会比MapRed

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈 经验

e来做分析与计算; Spark是这两年非常火的,经过实践,它的性能的确比MapReduce要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用 Spark和SparkSQL来做分析和计算。因为已经有Hadoop

jopen 2015-10-17   110870   0
数据  
P11

  大数据最火爆语言Scala光速入门-笔记 文档

Int = 12 //var 可变类型 scala> var name = "spark" name: String = spark scala> name="SCALA" name: String = SCALA

nbj 2016-01-14   584   0

典型大数据计算模式与系统 经验

批处理计算 Hadoop MapReduce,Spark等 流式计算 Scribe,Flume,Storm,S4, Spark Steaming等 迭代计算 HaLoop,i

jopen 2015-01-13   24959   0

Apache Hive 2.0.0 发布,数据仓库平台 资讯

HIVE-8858 ] -         Visualize generated Spark plan [Spark Branch] [ HIVE-9139 ] -         Clean up

jopen 2016-02-16   44369   0

Docker周报:OpenShift 3开发完成,即将发布 资讯

工具,目前支持的工具包括:Deeplearning4j、GraphLab、H2O、Julia、MLlib、Theano、Torch7、Vowpal、Wabbit。 SocketPlane :一个解

jopen 2015-01-25   22120   0
Docker  

Java微框架:不可忽视的新趋势 资讯

原文 http://www.infoq.com/cn/news/2015/06/Java-Spark-Jodd-Ninja 任何语言都有优缺点。对Java而言,它安全、经过严格测试、向后兼容,但却

jopen 2015-06-17   13767   0
Java  

开源项目,也可以是你的良师益友 资讯

后,发现那些代码片段太 Demo 了,而直接这么拷贝过来的代码片段往往隐含着巨大的危险。我一直在读 Spark 的代码,我就去翻阅了 Spark 中读取 Kafka 的代码,写的很漂亮,而且是 “工业级” 的,复用度也足够

jopen 2015-12-23   6598   0
开源  

大数据领域开源技术 除了Hadoop你还知道哪些 经验

存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。 Spark——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对

黄色腾堡 2016-09-29   12525   0
1 2 3 4 5 6 7 8 9 10