【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-12-16 00:422081

评论

发布
暂无评论
发现更多内容

《零基础学 Java》 FAQ 之 5-如何在IntelliJ IDEA里配置JDK

臧萌

Java jdk intellij

十大经典排序算法总结

淡蓝色

Java 算法 计算机基础 排序

要做医生,不要做卖药的

Janenesome

高效工作 思考 沟通

当你不被尊重的时候,才会想起去尊重别人

小天同学

人生 个人成长 感悟

程序员小白的个人思考

程序员小岑

程序员 职场 思考 感悟

webpack入门系列之二——插件使用及热更新打包

子铭

Web

职涯思考

Kevin Z

职业 思考 工程师思维 硬件 工程师

Mac 使用笔记

FeiLong

MySQL安全-审计

一个有志气的DB

安全 MySQ

修改网桥默认地址

奔跑的菜鸟

Docker

Python3.6.1官方文档练习——初入江湖(二)

小匚

测试开发专题:spring-boot自定义返回参数校验错误信息

王德发

Spring Boot 测试

Binlog2sql恢复误删除的数据

一个有志气的DB

MySQL 安全 数据

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (八)好单元测试的特质

编程道与术

Java 编程 软件测试 TDD 单元测试

看完这篇,你也是字符编码大神(ASCII、Unicode、UTF-8、UTF-16、UTF-32)

Meandni

Java 面试 Unicode utf-8 utf-16

识别代码中的坏味道(一)

Page

Java 面向对象 重构

Web3极客日报#141

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

Redis实现热卖商品排行榜

北漂码农有话说

redis

Leetcode 556. Next Greater Element III

隔壁小王

算法

LeetCode 513. Find Bottom Left Tree Value

liu_liu

LeetCode

克服恐惧,勇于分享

孙苏勇

程序员 分享 工作

不要做软件开发团队中打破窗户的那个人

程序员小岑

程序员 思考 感悟 软件开发 团队

《零基础学 Java》 FAQ 之 6-Java里Bean这个名字怎么来的

臧萌

Java spring

“我XXXX,还能学编程吗?”

三号无名指

编程 程序员 工具 入门

工作原则:决策要基于数据的支撑

Janenesome

高效工作 思考 原则

我画了35张图就是为了让你深入 AQS

一枝花算不算浪漫

AQS jdk源码

LeetCode 781. Rabbits in Forest

liu_liu

LeetCode

VSCode 集成 Haskell 环境

liu_liu

vscode haskell hie Haskell Language Server

香港科技大学与OSL海科签订无毒海洋防污技术独家授权协议

极客编

玄铁重剑,我用过最贵重的键盘

池建强

ipad 苹果 键盘

Web3极客日报#129

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章