机器学习:更多的数据总是优于更好的算法吗? 资讯

在机器学习中,更多的数据总是比更好的算法好吗?对于 Quora 上的这个问题,Netflix 公司工程总监 Xavier Amatriain 认为,很多时候增加更多的样本到训练集并不会提高模型的性能,而如果没有合理的方法,数据就会成为噪音。他通过 Netflix 的实践经验推导出最终的结论:我们需要的是好的方法,来帮助我们理解如何解释数据,模型,以及两者的局限性,这都是为了得到最好的输出。

jopen 2015-06-18   10169   0

机器学习算法 Python&R 速查表 资讯

在拿破仑•希尔的名著《思考与致富》中讲述了达比的故事:达比经过几年的时间快要挖掘到了金矿,却在离它三英尺的地方离开了!

jopen 2015-11-05   19496   0

机器学习六--K-means聚类算法 经验

想想常见的分类算法有决策树、Logistic 回归、 SVM 、贝叶斯等。 分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,想想如果给你50 个 G 这么大的文本,里面已经分好词,这时需要将其按照给定的几十个关键字进行划分归类,监督学习的方法确实有点困难,而且也不划算,前期工作做得太多了。

jopen 2015-11-01   25639   0

[原]【机器学习基础】随机森林算法 经验

我们回顾一下之前学习的两个算法,Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后, 得到不同的g,最后对这些g取平均得到G;决策树算法中,通过递归方式建立子树,最终得到一棵完整的树。这两种算法都有其鲜明的特点,决策树对于不同的数 据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低variance的效果。如果将这两种方法结合 起来,就是该文要介绍的随机森林,random forest。

er74 2015-07-26   48706   0

分布式机器学习算法的集合:Mahout 经验

Mahout知名度很高,是Apache基金资助的重要项目,Mahout是一个分布式机器学习算法的集合,协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现(Hadoop-based,另有pure Java版本),Mahout里还有其他常见的机器学习算法的分布式实现方案。

jopen 2013-11-11   36239   0
Mahout   算法  

机器学习算法 Python&R速查表 资讯

在拿破仑·希尔的名著《思考与致富》中讲述了达比的故事:达比经过几年的时间快要挖掘到了金矿,却在离它三英尺的地方离开了! 现在,我不知道这个故事是否真实。但是,我肯定在我的周围有一些跟达比一样的人,这些人认为,不管遇到什么问题, 机器学习的目的就是执行以及使用 2 – 3 组算法。他们不去尝试更好的算法和技术,因为他们觉得太困难或耗费时间。

jopen 2016-02-17   21528   0
Python   R  

研究机器学习MLlib实践经验 经验

本文主要讨论是用MLlib进行Classification工作。典型的应用场景就是AD CTR Prediction,也就是大部分互联网公司的利润来源。据业余了解,广告CTR预估使用最多的基础算法还是L1正则化的Logistic Regression。

jopen 2014-12-27   51748   0

JavaScript机器学习线性回归 经验

AI时代,不会机器学习的JavaScript开发者不是好的前端工程师。

吴青强 2017-07-02   29633   0

机器学习实践】Kaggle Face Verification Challenge练手 经验

作为第一次做Kaggle的比赛,来练练手还是不错的。

hebc4637 2016-02-11   32606   0
P92

  数据结构常见算法 文档

数据结构是一门研究非数值计算的程序设计问题中的操作对象(结点)以及它们之间关系和操作等的学科。 1968 年克努思教授开创了数据结构的最初体系,他所著的《计算机程序设计艺术》第一卷《基本算法》是第一本较系统地阐述数据的逻辑结构和存储结构及其操作的著作。 70 年代初,数据结构作为一门独立的课程开始进入大学课堂。下面介绍数据结构中常见的一些基本算法。

dreamwhere 2011-10-18   4237   0
方案  

实际项目中的常见算法 资讯

 近日 Emanuele Viola 在 Stackexchange 上提了这样的一个问题,他希望有人能够列举一些目前软件、硬件中正在使用的算法的实际案例来证明算法的重要性,对于大家可能给到的回答,他还提出了几点要求

jopen 2013-11-30   32190   0
算法  

机器学习与深度学习资料 经验

介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.

jopen 2015-04-23   325900   0

机器学习算法实践——K-Means算法与图像分割 经验

图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为:基于边缘的技术、基于区域的技术

TyreeBaird 2016-10-31   19980   0

机器学习之分类算法一:K-近邻算法 经验

K-近邻算法是一种分类算法,分类算法是监督学习算法,监督学习算法和无监督学习算法的最大区别就是监督学习需要告诉机器一些正确的事物,也就是训练数据集,而无监督学习算法则不需要事先准备这些,比如聚类算法。

jopen 2015-02-28   16028   0
算法  

微信的机器学习人工智能应用实践 经验

谈起人工智能,大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术,然而人工智能所涉及的应用场景和商业价值却远不止此。在日常的经营和管理中,任何一个企业都会维护客户关系,都有销售数据需要分析,都会在生产,销售和运营的各个环节中面对不同的决策问题,新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案,从而驱动业务快速增长。

EdithFlora 2018-01-29   38794   0

10 款人工智能机器学习领域方面的开源项目 经验

GraphLab 是一种新的面向机器学习的并行框架。GraphLab 提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括 Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil 等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测 应用程序。

jopen 2014-12-02   54728   0

50个常用的人工智能机器学习API 资讯

基于人工智能和机器学习的应用在不断发展,一些从事相关技术研发的企业或组织也向开发者开放了一些相关的API接口。通过这些API,开发人员能够利用其人工智能和机器学习技术开发自己的智能识别、媒体监测和定向广告等各种各样的应用。这里列举了50个较为常用的API,其中涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等各个方面。

jopen 2015-12-08   64106   0

数据挖掘,数据分析,人工智能机器学习课程汇总 经验

数据挖掘,数据分析,人工智能及机器学习课程汇总

jopen 2015-01-09   35211   0

Andrew Ng:人工智能机器学习驱动的“先进教育学” 资讯

一个月前,Coursera 搬进了位于硅谷山景城的新办公室,这里的墙上大大地涂鸦着“先进的教育学(Advance Pedagogy)字样。 除了融资达到了 8500 万美元的规模,Coursera 直指创收的 Signature Track 项目也处于健康的增长曲线中。Signature Track 让用户可以选择一套课程,完成后通过支付费用获得证书。

jopen 2014-05-22   17866   0

谷歌AutoML人工智能系统已可创建优于人类的机器学习代码 资讯

谷歌 AutoML 系统最近出产了一系列机器学习代码,其效率甚至比研究人员自身还要高。显然,这是对“人类优越论”的又一次打击,因为机器人“学生”们已经成为了“自我复制”的大师。AutoML 是在人工智能顶级编程人才匮乏的情况下,作为一个解决方案而开发的。该团队提出了一种可以创建自学习代码的机器学习软件,系统会运行数千个模拟来确定代码的哪些方面可以作出改进,以及在改变后继续该过程、直到达成目标。

jopen 2017-10-17   8454   0
1 2 3 4 5 6 7 8 9 10