0推荐
46K 浏览

每天近百亿条用户数据,携程大数据高并发应用架构涅槃

互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程...
0推荐
45K 浏览

每天TB级数据处理,携程大数据高并发应用架构涅槃

互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程...
0推荐
111K 浏览

直播弹幕审核系统和文本分析技术

作为深受二次元人士欢迎的互动方式,弹幕已经从原来的动漫网站 Acfun 和 bilibili 向各类视频和直播网站蔓延,但是弹幕存在大量低俗、色情、垃圾广告、谩骂的内容,数量极为庞大,变形变换极...
0推荐
10K 浏览

机器学习算法基础概念

FP-growth算法是一种用于发现数据集中频繁模式的有效方法。FP-growth算法利用Apriori原则,执行更快。Apriori算法产生候选项集,然后扫描数据集来检查他们是否频繁。由于只对...
0推荐
60K 浏览

刘铁岩:博弈机器学习是什么?

人工智能早就不是一个新词了。早在六十年前,在达特茅斯学院举行的一次会议就正式确立了人工智能(Artificial Intelligence)的名称,以及研究领域和任务。在那之后,人工智能几经沉浮...
0推荐
16K 浏览

Meson:支持Netflix的机器学习工作流

Netflix的目标是能预测顾客之所想观看的电影,也即推荐预测。为了做到这一点,每天会运行大量机器学习工作流,而为了支撑创建这么多机器学习工作流和有效利用资源,Netflix的工程师开发了Meson。
0推荐
14K 浏览

一个自动化解决数据科学问题的python工具

在本文中,我们要经历机器学习流程(pipline)设计中三个乏味的过程,但却如此重要。之后,我们将演示工具来遍历之前的过程,来体现智能自动化的机器学习流程设计,这样我们就可以花时间在数据科学的更有趣的方面。
0推荐
16K 浏览

教机器学习阅读

机器学会阅读将是人工智能在处理和理解人类语言进程中一个里程碑式的事件,是一个真正AI必须达到的标准。最近一家叫做 Maluuba 的科技公司,号称开发了目前最领先的机器阅读理解系统EpiRead...
0推荐
23K 浏览

Apache Spark 2.0前瞻:为机器学习模型注入持久性

在所有的这些例子中,如果有了模型的持久性,那么保存和加载模型的问题将变得更容易解决。在即将到来的2.0版本中,通过基于DataFrame的API,Spark机器学习库MLlib将实现几乎完整的M...
0推荐
148K 浏览

用Spark进行大数据处理之机器学习篇

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。
0推荐
18K 浏览

如何自己搭建钓鱼网站检测系统

随着电子商务、互联网金融的快速发展,在利益的驱使下,从事“钓鱼攻击”的黑产呈逐渐上升趋势。“钓鱼攻击”不仅对企业的品牌形象造成严重损害,还对用户的账户安全、甚至资金安全构成了极大的威胁。
0推荐
61K 浏览

六款强大的开源数据挖掘工具

为您推荐六款强大的开源数据挖掘工具
awnt2749 8年前   
0推荐
43K 浏览

大数据与机器学习周报 第7期:谷歌CEO皮查伊称人工智能将成为未来发展关键

《IBM发布首个深度学习类脑超级计算平台IBM TrueNorth》 :IBM 日前发布了一款用于深度学习的类脑超级计算平台 IBM TrueNorth。新智元芯片专家群的几位专家讨论后认为:T...
0推荐
35K 浏览

数据分析/数据挖掘/机器学习---- 必读书目

总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下面列的书基本上我写的都是读完过的,...
0推荐
17K 浏览

RDD、DataFrame和DataSet的区别是什么

RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集...
0推荐
70K 浏览

使用开源软件快速搭建数据分析平台

使用开源软件快速搭建数据分析平台:最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。 这些产品的目标应该都是self service的B...
BessMcfarla 8年前   
0推荐
42K 浏览

机器学习算法选择

对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,...
了解点 8年前   
0推荐
42K 浏览

机器学习算法选择

对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,...
ZackSoft 8年前   
0推荐
19K 浏览

【R】如何确定最适合数据集的机器学习算法

抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。本文中我将介绍八个常用于抽查的机器学习算法,文中还包括各个算法的 R 语言代码,你可以将其保存并运用到下一...
jjf_123456 8年前   
0推荐
39K 浏览

基于日志文件的数据挖掘机理分析与研究

摘 要: 介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体
MartinCudmo 8年前   
1 2 3 4 5 6 7 8 9

经验分享,提升职场影响力

投稿

热门问答

    热门文档