四、**算法的发展方向
传统的**算法范式本质上就是热门**补充以关键词匹配。这种**方法容易解释清楚为什么一篇文本会被**到某个用户的屏幕上,但是它的局限性也比较大。目前,以深度学习为代表的人工神经网络方法在图像识别、声音识别领域取得了巨大成就,人工神经网络方法如CNN、RNN、DNN正在被许多研究者尝试运用到计算机科学和工程的其他领域,**系统自然也是一个重要的应用方向。
运用以人工神经网络为代表的新的算法范式,对于解决**系统许多难以解决的老问题很可能会有非常好的效果。与此同时,神经网络犹如一个黑盒子,为什么一篇文章会被**给这个用户的真正原因,往往被成千上万个神经元计算节点以及彼此之间复杂的连接所掩盖。这可能是日后它被运用到**系统上并进行持续优化时面临的一个主要障碍。
针对很多新用户没有任何数据沉淀,从而算法难以对其进行有效**的问题,可以用获取用户其他平台信息、获取用户当前手机已经安装的软件信息,以及引导用户进行口味选择这三种方法来解决。
可以考虑给予优质内容生产者所发布的文章和视频更高的**权重,使其更容易被用户接触到,并且进行合理的广告收入分成,让优质内容能够实现不���循环再生产。另外,应当加强内容的审核。可以有针对性地开发一套机器学习系统,根据文本关键词特征识别出低俗内容,并以人工审核作为辅助,把住内容的底线。值得说明的是,现在**头条等企业已经注意引入人工审核,对内容进行把关,试图遏止低俗内容的蔓延。
可以利用机器学习技术建立一套反作弊、反低俗以及检测谩骂和政治敏感内容的系统。反作弊系统建立的目的就是解决文不对题、蹭热度(单纯充满关键词而并无实际有用内容的文章)以及其他作弊问题。反作弊系统目前主要有两种,一种是预先设置策略和规则的,另一种则是不预先设置规则,而是通过机器学习来学到判断规则。前者的设计依赖经验和对现实作弊案例的总结,对遇到的案例进行归纳,人为地设计一些规则;而后者则强调输入数据的特征和标签,由机器进行监督学习(supervised learning),从而让算法获得一套参数值,进而判别作弊和非作弊。反作弊系统往往要借助大数据计算框架,比如流行的Hadoop MapReduce和Spark,从而实现大规模数据的判别。
反低俗系统与此类似。低俗内容主要是过度裸露、色情图片和文字等,可以通过现在已经比较成熟的图像识别方法来实现判别。
至于检测谩骂和政治敏感内容,一般用得较多的是贝叶斯方法,同时往往还需要导入一些关键词库,计算出一篇文章包含谩骂或者政治敏感内容的概率有多大,概率较大的直接拒绝。
如果说搜索引擎在是否允许用户有被遗忘的权利(right to be forgotten)上还得因为言论自由和公共利益的考量而权衡再三,那么**系统由于并没有这些方面需要担心,应当果断地加入以下功能,从而改善用户的体验:
算法的可遗忘性问题,只要通过加入一个允许用户重置他们的用户画像的功能,即可圆满解决。这个重置功能的实现,简单地说,可以考虑当用户确认后,直接把用户画像中的数据删除,将其视为一个新用户来做**。如果考虑得更精细一些,则应当是删除过去的用户画像后,让用户重新做一次选择,让他指明感兴趣的话题,这样在重置用户画像后不至于没有数据可以参考。同时,政府也应当立法,要求互联网企业本着对用户负责的心态,将这个功能加入应用中,正如允许用户注销的功能也是在政府要求后才普遍被加入应用中的。
即使自动化内容审核系统已经做得比较先进,仍然需要一套人工审核系统来完成*后放行。内容行业在法律和行政上多是受到强监管的,如果内容上涉及色情低俗或者有其他违反法规的行为发生,对企业的声誉和经济利益造成的损失十分巨大,因此人工审核仍然是必要的。
政府要通过立法规范监管,鼓励优质主旋律内容的生产和传播。政府机构应当发挥作用,对市场调节失灵的情况进行合理的干预,让信息流消费市场不至于沦为低质量内容循环生产的垃圾堆。