Spark在腾讯数据仓库TDW的应用 经验

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立

jopen 2014-11-29   53806   0

基于Spark和Flask的一个可伸缩的电影推荐系统 经验

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于 协同过滤 建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差(ALS) 算法。 该教程由两部

jopen 2015-09-28   13227   0

如何使用Spark大规模并行构建索引 经验

12528 使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点。

toly_me 2016-02-01   25775   0

使用 pac4j 保护你的 Spark Java Web 应用 经验

)的面向SparkJava v2.3网页应用程序的 spark -pac4j v1.1 ( https://github.com/pac4j/spark-pac4j ) 发布了。它是一个 完整的安全库,简单且强大,支持认证和授权

morganlee 2016-02-27   18579   0

基于Apache Spark的机器学习及神经网络算法和应用 经验

使用高级分析算法(如大规模机器学习、图形分析和统计建模等)来发现和探索数据是当前流行的思路,在IDF16技术课堂上,英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网

MarcelaSell 2016-04-14   34881   0

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计 中提及的一个重要概念“shard

ukon7587 2016-04-12   20807   0

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是

flylong 2016-09-01   15746   0

如何让你的 Spark SQL 查询加速数十倍? 经验

先来回答标题所提的问题,这里的答案是列存储,下面对列存储及在列存储加速 Spark SQL 查询速度进行介绍 列存储 什么是列存储 传统的数据库通常以行单位做数据存储,而列式存储(后文均以列存储简称)以列为单位做数据存储,如下:

gentlesie 2016-09-22   19229   0
Spark SQL   SQL  

Apache Spark:大数据处理统一引擎 经验

这些模型相对专业化。例如支持批处理的MapReduce,支持迭代图算法的Dreme。在开源Apache Hadoop堆栈中,类似Storm和Impala的系统也是特有的。即使在关系数据库世界中,“一刀切”系统已越来越少。然而,很多大数

MorStarns 2016-12-05   9296   0

一个高效的分布式计算系统:Spark 经验

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop

jopen 2013-11-13   53687   0

开源分布式计算系统,Spark 1.2 发布 资讯

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据

jopen 2014-12-19   23822   1
Spark  

Apache Spark 1.3 发布,基于内存计算的开源的集群计算系统 资讯

Apache Spark 1.3 发布,1.3 版本引入了期待已久的 DataFrame API,这是 Spark 的 RDD 抽象设计来简单快速支持大数据集的变革。同时在流转换 ML 和 SQL 的大量提升。

f663x 2015-03-13   27556   0

Java开源即时聊天客户端,Spark IM 2.7.2 发布 资讯

Spark是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 Spark IM 2.7.2 发布,此版本现已提供

jopen 2015-08-31   16887   0

通过可视化来了解你的Spark应用程序 资讯

net/article/2015-07-08/2825162 【编者按】在" Spark 1.4:SparkR发布,钨丝计划锋芒初露 "一文中,我们有简单地介绍了1.4版本给Spark注入的新特性,在各个组件的介绍中也提到了新UI给

jopen 2015-07-08   13638   0
Spark  

谷歌推出Dataproc,让Spark、Hadoop更便宜更快更简单 资讯

oud-Dataproc-Spark 近日,谷歌 发布 了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务,可以帮

jopen 2015-10-08   8859   0
Hadoop   Spark  

Apache Beam: 下一代的大数据处理标准 经验

框架,从最早的Hadoop MapReduce,到Apache Spark,Apache Storm,以及更近的Apache Flink,Apache Apex等。新的分布式处理框架可能带来的更高的性

P20

  以hadoop入门大数据之hadoop阶段 文档

:从Hadoop开始,走进大数据领域;计划:分三个阶段(Hadoop、SparkStorm)来学习,重点是sparkstorm;结合实际业务场景应用大数据技术。了解大数据领域内技术兴起与发展;学习

364337403 2017-03-28   11360   0

谈谈分布式计算的算子层 经验

的,公司内部有自研的类流式计算框架需要做一层算子层。我主要分析的是流式系统上实现算子这一点入手,对比现有计算框架和业界正在开展的项目,分析分析这件事的 表面 和背后深层的 含义 ,以及可 想象空间 。

jopen 2015-01-16   18290   0

Python通过PIL获取图片的主要颜色并和颜色库进行对比的代码 代码段

这段代码主要用来从图片提取其主要颜色,类似Goolge和Baidu的图片搜索时可以指定按照颜色搜索,所以我们先需要将每张图片的主要颜色提取出来,然后将颜色划分到与其最接近的颜色段上,然后就可以按照颜色搜索了。在使用google或者baidu搜图的时候会发现有一个图片颜色选项,感觉非常有意思,有人可能会想这肯定是人为的去划分的,呵呵,有这种可能,但是估计人会累死,开个玩笑,当然是通过机器识别的,海量

e2ex 2015-05-14   4770   0
Python  

央行对比特币交易划红线 三大平台主动暂停比特币提现 资讯

提示交易平台可能存在的法律风险、政策风险及技术风险等,了解 9 家交易平台运行情况。 央行同时对比特币交易平台提出明确要求:不得违规从事融资融币等金融业务,不得参与洗钱活动,不得违反国家有关反洗钱

jopen 2017-02-09   6441   0
1 2 3 4 5 6 7 8 9 10