SparkR:数据科学家的新利器 经验

R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力 的最新举措,最近发布的Spark 1.4版本在现有的Scala/Jav

jopen 2015-10-24   49850   0
SparkR  

飞起来的大象:Hadoop从离线到在线 资讯

。 3. 国内Spark氛围渐浓,欲与Hadoop试比高 2014年Spark是个爆发年,这一年里Spark社区快速发布了多个版本,最高发布版本已经到了1.2.0。Spark Core之外的部

jopen 2015-07-28   24766   0
Hadoop  

机器学习(Machine Learning)&深度学习(Deep Learning)资料 经验

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法 《机器学习周刊》 介

b36g 2015-04-04   474372   0

大数据相关资源集合:Awesome Big Data 经验

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-10-11   79484   0

Scala开发资源集合:Awesome Scala 经验

library enforcing immutability. MLLib — Machine Learning framework for Spark Saddle — A minimalist port of

jopen 2014-10-11   83020   0

Facebook如何向十亿人推荐东西 资讯

7 月, Databricks 公布了在 Spark 上实现 ALS 的性能结果 。Facebook 针对 Amazon 的数据集 ,基于 Spark MLlib 进行标准实验,与自己的旋转混合式方法的

pdce 2015-06-11   8593   0

Github上关于大数据的开源项目、论文等合集 资讯

originally developed at AddThis. AMPLab SIMR - run Spark on Hadoop MapReduce v1. Apache Crunch - a simple

jopen 2014-08-20   57775   0
Github  

awesome-machine-learning - 非常棒的机器学习框架,库和软件集合 经验

engine that supports distributed learning on Hadoop, Spark or your laptop via APIs in R, Python, Scala, REST/JSON

jopen 2016-02-05   169699   0

解读2015之大数据篇:大数据的黄金时代 资讯

数据科学家这个职业的火热。 在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数据的梁堰波、

jopen 2016-01-08   53926   0

腾讯宣布推出第三代高性能机器学习计算平台Angel 并于2017年全面开源 资讯

流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到常见开源系统Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。 在系统易用性上,Angel提供丰富的

jopen 2016-12-19   44892   0

情感分析的新方法——基于Word2Vec/Doc2Vec/Python 经验

己的向量结果,现在已经有一个基于 Apache Spark 的 Word2Vec 实现工具。 (https://spark.apache.org/mllib/) 原文链接: https://districtdatalabs

jopen 2015-10-08   339563   0

一篇文看懂Hadoop:风雨十年,未来何去何从 资讯

中间层——资源及数据管理层,YARN以及Sentry等 上层——MapReduce、Impala、Spark等计算引擎 顶层——基于MapReduce、Spark等计算引擎的高级封装及工具,如Hive、Pig、Mahout等等 存储层

jopen 2016-03-10   25303   1
Hadoop  

TensorFlow 1.0正式发布 你需要知道的都在这里 资讯

 TensorFlow、Caffe、CNTK、MXNet、Scikit-learning、Spark MLlib 等几大框架的优缺点进行了点评,以及实践总结。本文针对不同背景、习惯的开发者,提供了平台选择上的建议。

jopen 2017-02-16   51108   0

近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等) 资讯

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法 《机器学习周刊》

jopen 2016-01-17   112827   0

近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等) 经验

介绍:LinkedIn 开源的机器学习工具包,支持单机, Hadoop cluster,和 Spark cluster 重点是 logistic regression 算法 《机器学习周刊》

xg48 2015-04-12   350748   0

这九大技术将在2015年或未来大行其道 资讯

近期机器学习的潜力承诺太多;另一方面,理解大数据是必需的,开源项目 Mahout 和 Spark / MLlib 会带来帮助。正如 James Kobielus 在今年早些时候注意到的一样,机器学习是

jopen 2014-12-03   15447   0
技术  

王栋: 要做好推荐,只有技术是不够的 资讯

台化建设,这样就不需要花费时间重复开发工具,可以集中精力调算法。 问:能否请您介绍一下美团基于Spark的离线训练平台?和基于Hadoop的系统是如何结合的? 我们离线数据的收集是在Hadoop上

jopen 2015-12-08   28480   0
推荐  
P57

  大数据中心建设方案 文档

l分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行

guet_lee 2017-01-12   1207   0

移动统计分析 - 那些年一起踩过的坑 资讯

者对自己的用户做人群画像(比如打兴趣标签)。 通常,大家觉得架几台服务器,部署一个Spark,跑一个MLLib任务也就差不多可以做挖掘了。对于刚起步的产品线的确如此,这时候数据量还比较小,怎么跑都

jopen 2015-07-29   19545   0

许鹏:Standalone部署模式下临时文件的生成和清除 经验

概要 Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不

jopen 2015-03-11   11357   0
1 2 3 4 5 6 7 8 9 10