百度网盘是如何识别出色情电影的?
关注者
6,766被浏览
4,202,917145 个回答
如何识别色情内容是一个国际性知名问题,而且根据产品形态的不同有不同的变种。像百度云这种储存静态资源的算是问题的简单版本,毕竟可以对文件做翻来覆去的算法分析,实在不行人工复核下。
那问题的困难版本是啥?
是直播。
直播发车,猝不及防。且UGC(用户生产内容)比PGC(专业生产内容)的内容多样性高出不止两个维度,想要通过对视频内容提取特征来鉴别比较困难。更别说对实时性的要求,总不能直播都结束两小时了你模型才出结果说人家发车了吧,黄瓜菜都凉了。
那怎么办?
我在Facebook听说过一个邪路:点赞/评论比。
正常来说一个直播,点赞数和评论数是正相关的,且大体成一个固定比例。好内容点赞和评论都多,差内容两者都少。
色情内容是一个特例,点赞/评论比异常的高。靠这个实时抓出色情直播,十拿九稳。
不过,为什么色情直播的点赞/评论比会超乎寻常得高呢?
可能对那时候看直播的人来说,单手点赞比双手打字要方便得多吧。