全栈算力,加速行业AI落地 了解详情
写点什么

机器学习的 11 个开源项目

  • 2014-12-18
  • 本文字数:1787 字

    阅读完需:约 6 分钟

机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于 Python、Java 等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。

在这样的背景下, InfoWorld 近日公布了机器学习领域 11 个最受欢迎的开源项目,这 11 个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。它们大多数基于现今最流行的语言以及平台,推广以及扩展了机器学习领域的很多重要算法。从中,用户不但可以找到 LDA 等主题模型,也可以找到 HMM 等隐马尔科夫模型。这些模型都是应用领域的热点,也是研究者们最需要的。

  1. Scikit-learn Scikit-learn 是一个非常强大的 Python 机器学习工具包。它通过在现有 Python 的基础上构建了 NumPy 和 Matplotlib,提供了非常便利的数学工具。这个工具包包括了很多简单且高效的工具,很适合用于数据挖掘和数据分析。

在主页中,可以看到 User Guide,这是整个机器学习的索引,其中用户可以学到各种有效的方法。在 Reference 里,用户可以找到各个类具体的用法索引。
2. Shogun Shogun 是一个基于 C++ 的最古老的机器学习开源库,它创建于 1999 年。作为一个 SWIG 库,Shogun 可以轻松地嵌入 Java、Python、C#等主流处理语言中。它的重点在于大尺度上的内核方法,特别是“支持向量机”的学习工具箱。其中,它包括了大量的线性方法,如 LDA、LPM、HMM 等等。
3. Accord Framework/AForge.net Accord 是 AForge.net 的扩展,是一个基于.Net 的机器学习与信号处理框架。它包括了一系列的对图像和音频的机器学习算法,如人脸检测、SIFT 拼接等等。同时,Accord 支持移动对象的实时跟踪等功能。它提供了一个从神经网络到决策树系统的机器学习库。
4. Mahout Mahout 是一个广为人知的开源项目,它是 Apache Software 旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 内包含了聚类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。
5. MLlib MLlib 是 Apache 自己的 Spark 和 Hadoop 机器学习库,它被设计用于大规模高速度地执行 MLlib 所包含的大部分常见机器学习算法。MLlib 是基于 Java 开发的项目,同时可以方便地与 Python 等语言对接。用户可以自己设计针对 MLlib 编写代码,这是很具有个性化的设计。
6. H2O H2O 是 0xdata 的旗舰产品,是一款核心数据分析平台。它的一部分是由 R 语言编写的,另一部分是由 Java 和 Python 语言编写的。用户可以部署 H2O 的 R 程序安装包,之后就可以在 R 语言环境下运行了。H2P 的算法是面向业务欺诈活着趋势预测的,目前正在新一轮的融资中。
7. Cloudera Oryx Oryx 也是由 Hadoop 所设计的机器学习开源项目,由 Cloudera Hadoop Distribution 的创造者所提供。Oryx 能够让机器学习的模型使用在实时的数据流上,如垃圾邮件过滤等。
8. GoLearn GoLearn 是谷歌所构建的 Go 语言的一体化机器学习库,目标是简单并且可定制。Go 语言是谷歌的主打语言,目前使用已经越来越广泛。GoLearn 的简单在于数据在库内被加载和处理,因此能够可定制地扩展数据结构以源码。
9. Weka >Weka 是使用 Java 开发的用户数据挖掘的开源项目。Weka 作为一个公开的数据挖掘工作平台,集合了大量能够承担数据挖掘人物的机器学习算法,包括了对数据进行预处理、分类、回归、聚类等等。同时,Weka 实现了对大数据的可视化,通过 Java 设计的新式交互界面上,实现人与程序的交互。
10. CUDA-Convnet CUDA 是我们众所周知的 GPU 加速套件。而 CUDA-Convnet 是一个基于 GPU 加速的神经网络应用程序机器学习库。它使用 C++ 编写,并且使用了 NVidia 的 CUDA GPU 处理技术。

目前,这个项目已经被重组成为 CUDA-Convnet2,支持多个 GPU 和 Kepler-generation GPUs. Vuples 项目与之类似,使用 F#语言编写,并且适用于.Net 平台上。
11. ConvNetJS ConvNetJS 是一款基于 JavaScript 的在线深度学习库,它提供了在线的深度学习训练方式。它能够帮助深度学习的初学者更快、更加直观的理解算法,通过一些简单的 Demo 给用户最直观的解释。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-12-18 04:1119412
用户头像

发布了 268 篇内容, 共 118.7 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出丨开源

Openlab_cosmoplat

开源社区 AI绘画

集成化、小型化、大势所趋,模块电源优势明显

华秋电子

分享:ODC 如何精准展现 SQL 执行的耗时?

OceanBase 数据库

数据库 oceanbase

直播指南!解锁 OceanBase DevCon • 2023

OceanBase 数据库

数据库 oceanbase

HUAWEI Mate X3带来全新小艺输入法, 9键双键盘左右开工、语音悬浮气泡免干扰

最新动态

用这三本书,探究 ChatGPT 的底层逻辑

图灵教育

深度学习 GPT #人工智能 ChatGPT

为研发效能度量找到合适的参照系

思码逸研发效能

研发效能 效能度量

从DPU角度,谈谈关于国产OS开源社区发展的思考

大禹智芯

DPU 国产OS开源社区

分享:如何给 DBA 减负?

OceanBase 数据库

数据库 oceanbase

4.0 功能抢先看 | 读懂一个项目的研发效能 之 项目交付效率

思码逸研发效能

研发效能

流量调度、微服务可寻址性和注册中心

有态度的马甲

推荐一个比jmeter更轻量的开源测试平台:RunnerGo

爱研究代码的极客人

Jmeter 性能测试 自动化测试 压力测试 LoadRunner

信息抓包工具:Charles 激活版

真大的脸盆

Mac Mac 软件 抓包工具 信息抓包

用138个案例讲明白了Spring全家桶+Docker+MQ

Java你猿哥

spring 面试 Spring Cloud Spring Boot 面经

分享:FactorJoin,一种新的连接查询基数估计框架

OceanBase 数据库

数据库 oceanbase

数据采集&流批一体化处理使用指南

大河

批处理 ETL 流处理 bboss 流批一体化

测试同学职场成长的关键要素

老张

团队管理 个人成长

快速开始高性能Elasticsearch客户端bboss

大河

elasticsearch java bboss restclient

文本数据标注,支持词典导入及更多快捷方式|ModelWhale 版本更新

ModelWhale

机器学习 数据分析 云平台 标注 标注工具

选择KV数据库最重要的是什么

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

用这三本书,探究 ChatGPT 的底层逻辑

图灵社区

深度学习 GPT #人工智能 ChatGPT

软件测试/测试开发丨app自动化测试之设备交互API详解

测试人

软件测试 自动化测试 测试开发 appium

photoshop 2023存储为窗口显示空白、黑屏如何解决

互联网搬砖工作者

2023年春招Java面试刷题小抄,从P5~P8全家桶教学,全部刷完大厂Offer拿到手软

采菊东篱下

Java 面试

ChatGPT4 给出数据库开发者最容易犯的10个错误和解决方案

NineData

数据库 程序员 开发者 dba ChatGPT

自学黑客/网络渗透,一般人我劝你还是算了

网络安全学海

黑客 网络安全 安全 信息安全 渗透测试

Apache HugeGraph1.0.0 版本正式发布!

百度安全

Springboot 撞上 NebulaGraph——NGbatis 初体验

NebulaGraph

Java ORM 图数据库

LP流动性挖矿代币分红模式dapp系统开发原理

开发微hkkf5566

动手实践开发一个智慧路灯控制器

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Dragonfly 最新版本 v2.0.9 发布

SOFAStack

开源 互联网 开发者 开发

机器学习的11个开源项目_语言 & 开发_张天雷_InfoQ精选文章