维基百科也要来维基百科也要来机器学习，协助抓出恶意编辑

jopen 10年前

维基百科也要来维基百科也要来机器学习，协助抓出恶意编辑，协助抓出恶意编辑

前些时日机器学习的新闻很多，Google 开源其 Tensor FLow 系统，6 天后微软宣布 DMTK 也要开源，最后连 IBM 也有。如今非营利组织也来凑一角。维基媒体基金会推出物件版本评估服务(Objective Revision Evaluation Service, ORES)，希望用机器学习的方式，找出含有恶意意图的内容增修，纠出像涂鸭、打广告这种防不胜防的事情。当然，维基基金会做的专案，一定是预设开源发布。

维基基金会采用机器学习的技术，对于群众贡献而且是处理文字资料的维基百科相当少见。由维基基金会资深研究科学家 Aaron Halfaker 导入 ORES 演算法，希望能够透过新的程序脚本找出打广告、涂鸦、大规模破坏等行为，把宝贵的人力用在实际内容产出和人际沟通上。现行的自动化脚本已经运作很久，得有新的技术进来刺激技术革新。

以下为 ORES 采用的三种编辑品质管制 AI 和一种条目品质模式 AI，以及布署的维基百科语言：

CONTEXT	MODELS
CONTEXT	`damaging`	`goodfaith`	`reverted`	`wp10`
`dewiki` German Wikipedia
`enwiki` English Wikipedia
`eswiki` Spanish Wikipedia
`fawiki` Persian Wikipedia
`frwiki` French Wikipedia
`hewiki` Hebrew Wikipedia
`idwiki` Indonesian Wikipedia
`itwiki` Italian Wikipedia
`nlwiki` Indonesian Wikipedia
`ptwiki` Portuguese Wikipedia
`trwiki` Turkish Wikipedia
`ukwiki` Ukranian Wikipedia
`viwiki` Vietnamese Wikipedia
`wikidatawiki` Wikidata

“藉由结合开放资料和开源机器学习演算法，我们的目标是希望让维基百科的品质监控更加透明、可审计，并且很容易尝试。”Halfaker 说。“虽然引进 AI 和机器学习来处理大量社交的事情很怪，但我不觉得我们现在做的事情跟先前的软件更新有什么不同。”

维基百科也要来维基百科也要来机器学习，协助抓出恶意编辑，协助抓出恶意编辑

▲ ORES Logo。（Source：wikimedia）

维基基金会此次推出 ORES 预估要对抗编辑人数停滞不前甚至下滑的问题，让机器学习用来纠出恶意编辑，希望能够让宝贵的人力用在刀口，也就是实际的内容生产上。

目前英文维基百科已经有几个品质管制的自动化工具，尽管很成功维持维基百科的品质，但却同时提高新手贡献的障碍，这些自动化工具常常回退新手的编辑，因为新手有时候会出于无心，以及不熟悉编辑语法或工具，不小心移除片段。

维基百科也要来维基百科也要来机器学习，协助抓出恶意编辑，协助抓出恶意编辑

▲ ORES 的破坏预测模型。（Source：维基媒体官方博客截图）

另一方面，引入自动化工具同时也加强新手指导工作，则能缓和老手跟新手的相处问题，老手对维基上的规距较熟悉，老手对没编辑的新手会看不顺眼，有时候用不知道哪边翻找来的规章指责新手，或者常会认定新手未照维基方针的内容编写，是来打广告、知名度，而吓跑潜在的贡献者。用 ORES 能够让有经验的维基编辑，在判断编辑是否有恶意或广告意图时，能够有客观的依据，较不会带有情绪性。

ORES 目前已经在 14 个维基百科语言站启用，还没有应用到中文维基百科。现在中文维基百科上也有几个自动化 AI 的运作，分别侦测单纯繁简转化、清空整篇文章或章节等破坏行为。

维基百科也要来维基百科也要来机器学习，协助抓出恶意编辑

相关链接

相关资讯