百度网盘是如何识别出色情电影的?

百度网盘里面大部分的XX影片都不能看了(不要问我是怎么知道的)百度网盘是如何识别出这类电影的?
关注者
6,766
被浏览
4,202,917

145 个回答

如何识别色情内容是一个国际性知名问题,而且根据产品形态的不同有不同的变种。像百度云这种储存静态资源的算是问题的简单版本,毕竟可以对文件做翻来覆去的算法分析,实在不行人工复核下。

那问题的困难版本是啥?

直播

直播发车,猝不及防。且UGC(用户生产内容)比PGC(专业生产内容)的内容多样性高出不止两个维度,想要通过对视频内容提取特征来鉴别比较困难。更别说对实时性的要求,总不能直播都结束两小时了你模型才出结果说人家发车了吧,黄瓜菜都凉了。

那怎么办?

我在Facebook听说过一个邪路:点赞/评论比

正常来说一个直播,点赞数和评论数是正相关的,且大体成一个固定比例。好内容点赞和评论都多,差内容两者都少。

色情内容是一个特例,点赞/评论比异常的高。靠这个实时抓出色情直播,十拿九稳。


不过,为什么色情直播的点赞/评论比会超乎寻常得高呢?

可能对那时候看直播的人来说,单手点赞比双手打字要方便得多吧。

黄反识别-百度云

百度网盘使用的是这个技术