半点优化网 http://www.bdxc.net/
当前位置首页 > 关键词排名> 正文

今日头条是如何做推荐算法的?

2022-05-31 14:28:33 暂无评论 181 关键词排名 算法   头条   今日

今日头条的算法一直为外界所诟病,就连人民日报都曾发文点名批评。

在题为《向今日头条等低俗信息传播通道亮红牌》的文章中,人民日报写道:

“算法推荐”的信息有多不靠谱,多么无底线,广大网民特别是孩子们的家长感同身受,甚至伤痕累累。

人民日报指出,今日头条上存在大量低俗信息,甚至垃圾信息。今日头条是以新闻的名义,打着“算法推荐”的幌子,让各种良莠不齐的信息充斥网民手机。只要有粘度、流量,能带来利益就推,什么低俗离奇推什么,这不仅侵占了网民有益阅读空间,还损害了社会道德。今日头条随机整改,清理违规账号。

今年1月11日,今日头条召开分享交流会,首次公开分享了今日头条推荐算法的基本原理。

今日头条资深算法架构师、中国科学技术大学计算机博士曹欢欢在分享会上表示,

“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。希望这次分享能让更多的人理解算法,并共同参与到算法模型的制定中来,以改善算法,更好的为用户服务,让算法为社会创造更大的价值。” 曹欢欢还介绍了头条使用的五种推荐算法,包括传统的协同过滤模型,监督学习算法Logistic Regression模型,基于深度学习的Factorization Machine,以及DNN和GBDT。(这五种算法具体是怎么实行,可能要点儿专业知识储备才懂?emmmm…小编也不太明白)

不过,曹欢欢也说,由于现在很难有一套通用的架构模型适用于所有的推荐场景,所以很多公司会做多个算法的组合。

他还透露,以下四种特征将会影响到推荐:

第一,是相关性特征,即评估内容的属性和维度与用户是否匹配。说白了,就是将符合你平时喜好领域的相关内容推荐给你。

第二,是环境特征,即地理位置、时间。

第三,是热度特征,即全局热度、分类热度,主题热度,以及关键词热度等。

第四,是协同特征,指通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力,部分解决所谓算法越推越窄的问题。

“你关心的才是头条”,今日头条自2012年创 建以来就打出这样的广告语,可见其对用户体验的 重视程度。比起内容生产者,今日头条更倾向于用 数据分析的领先者来定位自己,其个性化新闻推荐 系统应用引起了社会的广泛关注。

针广受众议的今日头条算法,现根据已有知识和学习经验,现总结如下文,如有不同意见欢迎评论区交流、指正。

一、传统推荐算法介绍(1)基于用户的协同过滤

基于用户的协同过滤算法是基于这样的假设:偏好相似的用户,一般有相同的物品兴趣,如电影。如果存在一个和目标用户具有相似偏好的群体,那么该群体喜欢的其他电影,目标用户很有可能也喜欢。所以在为目标用户进行推荐时,可以先找到这样的用户群体,然后将该群体喜欢,而没有被目标用户看过的电影推荐给他。

(2)基于内容的协同过滤

基于内容的协同过滤算法,根据已经对项目评价过的数值,找出类似的项目并推荐给用户。与基于内容的推荐不同,前者基于用户的历史评分数据。如果大多数喜欢项目A的用户也喜欢项目B,则后者基于项目本身的内容特征。

二、头条的具体推荐算法今日头条的推荐系统算法,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。

第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐;第二个维度是用户特征。包括各种兴趣标签,职业、年龄、性别等,还有很多模型刻划出的隐式用户兴趣等;第三个维度是环境特征。这是移动互联网时代推荐的特点,用户随时随地移动,在工作场合、通勤、旅游等不同的场景,信息偏好有所偏移。

三、头条与其他公司的算法对比(1)百度

百度是搜擎起家,数据基础是海量的三方网页。

百度用到的算法实际维度会成熟很多,信息维度包含了信息覆盖的广度、用户搜索的趋势、信息变化趋势、用户的点击反馈、以及内容源的PageRank算法。另外还整合了些人工整理,所以,在大数据概念火起来之前,百度在算法上就已经遥遥领先了,搜擎算法应该还是一个全局召回的模块,在群体和个性化方面表现并不出色,百度还是局限于优势反制,在移动端的发展不够好制约了个性化算法上的探索。

(2)腾讯

腾讯最重要的数据就是用户及用户关系了。

记得非常早期的时候,听百度桌面的团队宣讲过他们在用户画像上的调校,用户的基础信息,都可以通过用户的关系调校到正确的水平,比如QQ上用户填了年龄是3岁,仍然可以从关系人群中校正真实的年龄。

(3)阿里

阿里推荐算法技术更是应用到多领域了。

团队自主创新的MLR模型和算法,在阿里业务中大范围推广和应用带来了非常好的效果,另外在大数据智能方面,因为省去特征工程,具备了从数据接入到应用的全自动功能。阿里的人群广告定向算法,当然淘宝的商品排序、千人千面也采用类似算法,只是在这个算法基础上增加销量等其他权重,但展现量的高低,很大程度上看的还是点击权重。根据算法可以一窥直通车等推广工具得分、关键词与商品关联性高低、等一系列与展现有关的算法模型。

总结不管是平台自己生产的原创产品,还是“他山 之石”,今日头条作为一个平台,应当对用户接收的内容产品质量负责。因此平台应做到净化环境, 提高平台的内容质量,与知名原创作者签约,加强与相关媒体机构的合作,解决版权问题。

如今的算法大多还在发展期,作为以算法见长的平台应着力完善算法,努力实现数字化、 智能化,使算法尽量完整准确地对人们信息需求的重点和全貌进行画像,更好的了解用户。完善后的 算法不应是只推送用户偏爱的内容,还要适量的渗透一些社会主流价值的内容,帮助用户打破信息茧房,使用户对社会有一个较为全面的认知,以免与社会脱节。

猜你喜欢