开源项目,开源代码,开源文档,开源新闻,开源社区

。机器学习在最近几年获得大量的关注，因为它对企业与商业做出决策非常有帮助。 Apache Spark 及其机器学习库 MLlib 为开发可伸缩的机器学习应用，提供了多种有用的算法。关于这个话题，

jopen 2016-02-18 25101 0

数据挖掘 Spark

Apache Spark 1.6.1 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载

jopen 2016-03-11 27731 0

Spark 是一个开源，跨平台IM客户端。它的特性支持集组聊天，电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。 http://www.igniterealtime

lovegis 2010-11-04 3556 0

数学软件包 JavaScript WP7 Python

1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角，越来

jopen 2015-02-03 29051 0

Spark 分布式/云计算/大数据

微软开源了 MMLSpark ，用于用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包和 OpenCV 完美整合。微软发现，虽然 SparkML 可以建立

jopen 2017-10-24 8214 0

mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。本文使用 spark + ansj对存储在hdfs中的中文文本数据进行分词。首先下载ansj源码文件，下载地址为

x286 2015-05-25 149807 0

Spark 中文分词

表“product_url”的示例数据如下：（2）统计各个产品线下各个URL的访问次数这个逻辑使用Spark SQL即可以实现，示例数据如下：可以看出，数据多出了一个字段access，用于表示某产品线下某个URL的访问次数。

jopen 2015-11-11 6743 0

Spark 分布式/云计算/大数据

ipse上运行Spark程序，提交到集群上以YARN-Client方式运行，或者以Standalone方式运行呢？答案是可以的。下面我来介绍一下如何在eclipse上运行Spark的wordcount程序。我用的hadoop

ZXF0109521 2016-02-01 59440 0

Spark YARN Eclipse 分布式/云计算/大数据

本系列讲座是沁原对Sameer Farooqui的《Advanced Apache Spark》的解说。完整视频： https://www. bittiger.io/videos/NBAT gD

CharlotteOF 2016-08-17 17406 0

Spark 分布式/云计算/大数据

0. 简介 Spark 是一个非常好的计算平台，支持多种语言，同时基于内存的计算速度也非常快。整个开源社区也很活跃。但是Spark在易用性上面还是有一些美中不足。对于刚接触的人来说，上手以及环境搭建还是有一些困难。

zulo2012 2016-08-20 57436 0

Spark Zeppelin 分布式/云计算/大数据

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内

jopen 2015-06-11 16817 0

Apache Spark

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个广泛应用于统计计算和统计制图的优秀编程语言，但是其交互式使用通常局限于一台机器。为了能够使用R语言分析大规模分布式的数据，UC

jopen 2015-04-13 23899 0

Spark

这边厢，Cloudera有时换掉HDFS改用Kudu，同时宣布Spark是其圈子的核心(因而一概取代发现的MapReduce);那边厢，Hortonworks加入了Spark阵营。在Cloudera和Hortonwor

jopen 2016-02-16 35271 0

Hadoop Spark

P28

TalkingData基于Spark的数据挖掘工作张夏天腾云天下科技有限公司 @张夏天_机器学习 2. 内容TalkingData简介我们的数据挖掘工作应用广告优化随机决策树算法及其Spark实现 3. Talking

pd3n 2014-12-03 545 0

数据挖掘

Spark是一个通用的分布式内存计算框架，本文主要研讨Spark的核心数据结构RDD的设计思路，及其在内存上的容错。内容基于论文 Zaharia, Matei, et al. " Resilient Distributed

jopen 2015-01-07 65000 0

Spark 分布式/云计算/大数据

本文详细总结Spark分布式集群的安装步骤，帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。写在前面二：使用软件说明约定，Spark相关软件存放目录：

jopen 2015-01-16 23746 0

Spark 分布式/云计算/大数据

因为spark文档中只介绍了两种用脚本提交到yarn的例子，并没有介绍如何通过程序提交yarn，但是我们的需求需要这样。网上很难找到例子，经过几天摸索，终于用程序提交到yarn成功，下面总结一下。

jopen 2014-04-11 186436 0

分布式/云计算/大数据 Spark

由于spark提供的hbaseTest是scala版本，并没有提供java版。我将scala版本改为java版本，并根据数据做了些计算操作。程序目的：查询出hbase满足条件的用户，统计各个等级个数。

jopen 2014-01-27 69731 0

分布式/云计算/大数据 Spark

Hadoop 2.6 + Hive 1.2.1 + spark-1.4.1(3)：1. 新建表 1) 新建表结构 create table user_table( id int, userid ...

jopen 2015-12-29 9440 0

分布式/云计算/大数据

简介 DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，计算性能更还快了两倍。这一个小小的API，隐含着Spark希望大一统「大数据江湖」的野心

jopen 2016-01-08 120116 0

分布式/云计算/大数据

《Machine Learning with Spark》书评与作者访谈资讯

Apache Spark 1.6.1 发布，集群计算环境资讯

Java开源IM客户端Spark 博客

大数据计算平台Spark内核全面解读经验

微软开源用于Spark的深度学习库MMLSpark 资讯

Spark + ansj 对大数据量中文进行分词经验

Spark如何解决常见的Top N问题经验

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

深入浅出Spark(二) 什么是RDD 经验

让Spark如虎添翼的Zeppelin - 基础篇经验

Apache Spark 1.4 发布，开源集群计算系统资讯

Spark 1.4最大的看点：支持R语言(SparkR) 资讯

Hadoop/Spark生态圈里的新气象资讯

TalkingData 基于 Spark 的数据挖掘工作文档

分布式计算 Spark 入门介绍经验

搭建Spark完全分布式集群经验

spark用程序提交任务到yarn 经验

spark读取hbase数据做分布式计算经验

Hadoop 2.6 + Hive 1.2.1 + spark-1.4.1(3) 经验

使用Spark DataFrame进行大数据处理经验

Flink，Spark Streaming，Storm对比分析的相关搜索

关键词

《Machine Learning with Spark》书评与作者访谈 资讯

Apache Spark 1.6.1 发布，集群计算环境 资讯

Java开源IM客户端Spark 博客

大数据计算平台Spark内核全面解读 经验

微软开源用于Spark的深度学习库MMLSpark 资讯

Spark + ansj 对大数据量中文进行分词 经验

Spark如何解决常见的Top N问题 经验

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

深入浅出Spark(二) 什么是RDD 经验

让Spark如虎添翼的Zeppelin - 基础篇 经验

Apache Spark 1.4 发布，开源集群计算系统 资讯

Spark 1.4最大的看点：支持R语言(SparkR) 资讯

Hadoop/Spark生态圈里的新气象 资讯

TalkingData 基于 Spark 的数据挖掘工作 文档

分布式计算 Spark 入门介绍 经验

搭建Spark完全分布式集群 经验

spark用程序提交任务到yarn 经验

spark读取hbase数据做分布式计算 经验

Hadoop 2.6 + Hive 1.2.1 + spark-1.4.1(3) 经验

使用Spark DataFrame进行大数据处理 经验

Flink，Spark Streaming，Storm对比分析 的相关搜索

关键词

《Machine Learning with Spark》书评与作者访谈资讯

Apache Spark 1.6.1 发布，集群计算环境资讯

大数据计算平台Spark内核全面解读经验

Spark + ansj 对大数据量中文进行分词经验

Spark如何解决常见的Top N问题经验

让Spark如虎添翼的Zeppelin - 基础篇经验

Apache Spark 1.4 发布，开源集群计算系统资讯

Hadoop/Spark生态圈里的新气象资讯

TalkingData 基于 Spark 的数据挖掘工作文档

分布式计算 Spark 入门介绍经验

搭建Spark完全分布式集群经验

spark读取hbase数据做分布式计算经验

使用Spark DataFrame进行大数据处理经验

Flink，Spark Streaming，Storm对比分析的相关搜索