http://my.oschina.net/u/2605101/blog/608842 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。
http://lxw1234.com/archives/2016/01/605.htm 关键字:spark mllib、文本分类、朴素贝叶斯、native bayes 文本分类是指将一篇文章归到事先定义好
ache-spark-1.3-released Apache Spark项目刚刚 发布了1.3版本 。该版本主要的功能改进包括新增DataFrames API,更加成熟的Spark SQL,机
 P24
 P24     1. MLlib在淘宝的应用和改进淘宝技术部 数据挖掘与计算——高性能计算 洪奇 明风 2. 主要内容决策树 AdaBoost 多分类 3. 决策树 4. 基本算法 5. 应用场景淘宝用户类型判断购买
 P33
 P33     1. MLlib在淘宝的应用和改进淘宝技术部 数据挖掘与计算——高性能计算 洪奇 明风 2. MLlib在淘宝分类&回归朴素贝叶斯决策树线性模型协同过滤ALS聚类KMeans关联规则FPGrowth降
 P24
 P24     1. MLlib在淘宝的应用和改进淘宝技术部 数据挖掘与计算——高性能计算 洪奇 明风 2. 主要内容决策树 AdaBoost 多分类 3. 决策树 4. 基本算法 5. 应用场景淘宝用户类型判断购买
12月18日,Spark宣布发布1.2版本,和以往发布的版本相比,1.2版本算得上是最大的一次改进,代码来自172个开发者的多达一千次提交。更新内容涵盖核心性能改进、MLlib的新API、Stream
本文主要讨论是用MLlib进行Classification工作。典型的应用场景就是AD CTR Prediction,也就是大部分互联网公司的利润来源。据业余了解,广告CTR预估使用最多的基础算法还是L1正则化的Logistic
 
    Spark是一个开源,跨平台IM客户端。它的特性支持集组聊天,电话集成和强大安全性能。如果企业内部部署IM使用Openfire+Spark是最佳的组合。
 
    Spark是一个源于Sinatra的微型Web开发框架,用于以最小的代价快速开发Web应用。 Sinatra是一个基于Ruby语言,以最小精力为代价快速创建web应用为目的的DSL( 领域专属语言)。
 P38
 P38     讲师:孙帅(suns) 2. 课程大纲 Spark基础 RDD Spark on Yarn Spark Streaming Spark SQL 3. Spark基础one stack to rule them
 P2
 P2     Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位; 要想成为Spark高手,需要经历六大阶段:
同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的Hadoop 1.x的部分方式,在Hadoop2.2 +版本之上
Introduction 本文主要讨论 Apache Spark 的设计与实现,重点关注其设计思想、运行原理、实现架构及性能调优,附带讨论与 Hadoop MapReduce 在设计与实现上的区别
 P17
 P17     Openfire+Spark+Spark Web安装配置 一. 安装环境 操作系统:Windows XP Prefessional SP2 服务器软件:Openfire 3.4.2 Openfire
Spark Kernel 的最主要目标:提供基础给交互应用程序联系和使用 Apache Spark。 几个主要特性: 定义和运行 Spark 任务 以类似 Scala REPL 和 Spark
Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上。其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由 行对象组成,并包含一个描述此行对象的每一列
改进,如Pig,Cascading,JAQL,OOzie,Tez,Spark等。 Apache SparkApache Spark是一个新兴的大数据处理的引擎,主要特点是提供了一个集群的分布式内存抽象,以支持需要工作集的应用。
9789 二、Spark1.5.1安装 1.下载spark1.5.1 http://spark.apache.org/downloads.html 选择spark的版本 [hado
基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,ta