SVM发明者推出的自动机器学习竞赛

jopen 11年前

SVM发明者推出的自动机器学习竞赛

译者：WZL， （36大数据专稿，转载必须标明来源）

在机器学习界叱咤风云多年的支撑向量机算法(SVM)，其发明人不单有奠基统计学习理论的Vapnik（最近跳槽去了非死book 的FAIR人工智能研究实验室)，还有Boser和Guyon等人。

Guyon是位女科学家，但许多年来都自由行走在学术圈和工业圈之间，担任机器学习顶级杂志JMLR的评委，也给不少企业做顾问。她持续推进的一个项目，则是通过竞赛平台来推动机器学习的进展：从特征选择竞赛，到因果学习，到生物数据挖掘。

最近她又有新创意，带来一个名为Chalearn 无人工干预全自动机器学习(AutoML)竞赛的东东。

她在邀请信里说：新年伊始，愿你们开年大吉。想必你们各种忙碌，但有个机遇已经来临，数据科学领域许多研究者所梦想的可能将实现，那就是创造出 “完美黑盒”——无需任何人工干预却能从实例中学习。从现在开始到六月，我们将激进地推出30个分类及回归学习任务。这些任务来自不同的领域，有不同的数据类型和分布。

作为第一轮任务，2月14日前我们准备了两个奖项：

后续则会像图中描绘那样，从新手晋级到中级，从中级到高级，从高级到专家，从专家到大师。

中级轮属于调优马拉松，高级属于自动机器学习轮，依次轮换。

听起来很有意思吧，就像一个不断打怪，成为机器学习高手的养成计划。

让我们看看 http://www.codalab.org/AutoML 更细节的描述：

我们聚焦在机器学习的“监督学习”，从70多个不同组织捐赠的数据集里我们挑选出30个，特征表达已经处理好。而你要攻克的挑战，就是解决这其中的分类和回归分析问题， 无需任何人工干预 。

这些数据类型跟分布非常不一样（有不均衡类别、稠密稀疏特征、有的有遗漏值、有的是非数值特征、衡量指标各个不同、数据量也差异很大）。

这些任务来自不同领域（有的是医疗诊断，有的是语音识别，还有信用打分、药品毒性预测、文本分类、客户满意度估计、模式识别、蛋白质结构分析、视频动作识别等）。

虽然已有的不少机器学习包能处理上述数据，但给定一批数据、任务、衡量指标和计算时间需求，总需要投入相当多的人力来寻找一批方法和超参数。

这次的竞赛独特之处在于： 消除这个循环中的人为干预，创造出“完美黑盒”。

这批比赛有一条路线是提交代码模式：在竞赛服务器上，自动运行你提交的代码，看这些算法在未知的数据集上表现如何，优异者获得奖励。

但你也可以不提交代码。可以只提交预测结果。

比赛分成预备、新手、中级、高级、专家、大师六轮，每轮有5个数据，难度逐步提升。但也可以跳过任何一轮，参与你感兴趣的特定轮比赛。每一轮会单独设立奖项，颁发600-1500美金的奖励。并采取众包模式合作撰写论文，促进研究成果的传播，组织参与IJCNN/ICML/NIPS研讨会环节。

SVM发明者推出的自动机器学习竞赛

竞赛还提供上手程序包，尽量减少学习难度，规范竞赛流程。

这的确是个有创意的机器学习竞赛，从易到难，从小到大，是快速成长、提升水平的好平台。并有不少机器学习大神站台，不容错过的观摩和学习的机会。