视频类网站大数据生态 Spark在爱奇艺的应用实践

jopen 5年前

Spark生态@爱奇艺

秉承“悦享品质”的品牌理念,提供更多、更好的视频
– 2010年4月上线
– 2013年5月与PPS合并
– 月度独立访问用户4+亿(3月份数据)
– 2014年1月以来,日均覆盖、月度覆盖、月度时长以及人均月度时长一直排名第一

爱奇艺Spark生态

– 版本:从0.7.3开始,0.8.X, 0.9.X, 1.0, 1.1…不断跟踪升级
– 部署环境:虚机 + 物理机
– 部署方式:Standalone、Spark on YARN、Spark on Mesos
– Spark组件:通用Spark job, Spark MLlib,Spark Streaming
–语言:Scala & Java & Python

推荐

– 推荐模型训练
– Spark MLlib Alternating Least Squares(ALS) Algorithm
– 输入数据300+G,运行20分钟
– 模型提供给Hadoop,Storm进行批处理和实时数据预测
– Spark on YARN

用户行为分析

– 用户画像、分类
– iQIYI Logistic Regression (LR) Algorithm
– 输入数据100G左右,1400W+ Features
– 迭代1000次左右
– 单机运行(20G左右)2小时或更长,Spark集群10分钟左右
– Spark Standalone

PPT作者/主讲人:爱奇艺技术产品中心 孙琦

下面是详细的PPT内容:

视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践 视频类网站大数据生态 Spark在爱奇艺的应用实践

来自36大数据(36dsj.com):36大数据