文章来自于果核剥壳公众号首发:https://mp.weixin.qq.com/s/W27RKXYPfkL05KDdQkx80Q
在互联网世界,各种推荐算法是大厂的杀手锏,通过软件浏览记录,通过研究使用界面的点击热点分布,推荐各种与你相关的信息,构成一个个所谓的“信息茧房”。
这些推荐算法控制着大家的眼球,让大家更专注于自己的圈子,每个人接收的信息都是不一样的,不同的用户也被打上了不同的标签,广告主也可以在后台随意选择自己想要投放的人群,人群的年龄、收入范围、所在的地区与使用的设备、甚至是性别与用户的性格画像等等,以精准试探。
正是由于这些算法太过精准,里面也包含着一些个人隐私,所以大多互联网产品主动或者被迫保留了最后的底线,提供了“个性化推荐”关闭的选项。
其实在各种软件的官方技术号,也会分解自己产品所使用的算法原理以及效果等等,但是具体的算法一般是保密的,但是在4月1号的愚人节,马斯克让Twitter开源了自己的推荐算法。
项目一出来,很快就引起大家的关注,现在项目也朝着40K的Star去了,大家都想来看看这个小蓝鸟肚子里卖的是什么药。
等等,小蓝鸟,也许不叫小蓝鸟了,应该改名小黄狗,因为马斯克还顺手把Twitter的Logo改了一下(真改)。
这个更改应该是暂时的,现在的Twitter确实就像玩宠一样,马斯克想怎么玩就怎么玩,狗狗币的热度又提升一波,他是爱狗的。
不止换脸,还要玩心,说回算法的问题,除了程序员学习之外,还有不少人是想通过Twitter的开源算法,反向研究出算法的漏洞或者推荐倾向,来打造自己的爆款内容,反向成为算法内容大V。
而Twitter的这些举动,官方的说法是是想推出一个主打“透明”的2.0版本,如果有改进算法的建议,那么反馈给官方还能获得一些“赏金”,这样一来,也就是说Twitter在暴露自己算法的同时,也将维护的责任分摊了出去,大家喷推特的算法不透明乱推荐甚至操纵信息什么的,那么以后在舆论场中,由于Twitter的算法开源,以后这样的声音会小一些。
在具体细节上,从选择推文是否进入推荐流就有介绍,总共进入推荐流的信息会有1500条,其中一半来自关注的账号,而关注的这些账号信息里,会结合一篇研究交互的论文里指导的指标(值得一提的是:论文出自新浪微博(tql)发表在DLP-KDD 2021上的:MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask),挑选出那些有交互意图的内容。在关注外的内容,则会选出你关注的人所关注的内容,以及和你阅读习惯类似账号看过的内容。
另外账号会被划分出一个个圈子,当你看到圈子里的内容,属于同圈子的其他账号就很容易被推荐。
之后就是进入到有用户参与设置的筛选阶段,去除那些屏蔽的推文、不适合上班浏览的信息、剔除过多的同一作者、降低有负面评价的推文推荐、然后再加上广告等等。
这些流程会以 1.5 秒左右的速度每天运行约 50 亿次,这基本上就是大致流程了,其他的互联网产品也会公布到这个程度,不同的是Twitter公布了细节代码,所以从里面能看到非常具体的内容,比如说有人发现算法会标记用户所属的阵营,以及是否为马斯克发的推文——这个就见怪不怪了,之前马斯克收购Twitter的时候,就要求加强自己账号的权重。
而结果也如他所愿,马斯克的账号成为了Twitter平台有史以来粉丝最多的账号,超过了1.33亿。
而随着他在自家平台的人气上升,Twitter本身的口碑却在下降,像是推出的蓝V认证,越来越多的客户不乐意,连广告主也不想在上面继续投放广告,收购之后,之前经常打广告的大客户也开始跑路,对于那些没有蓝V的账号,马斯克也会亲自下场调侃一下。
另外,在用户操作对推文影响的权重上面,也有人挖掘了一下,其主要文件路径是在开源项目的:
blob/main/cr-mixer/server/src/main/scala/com/twitter/cr_mixer/similarity_engine/EarlybirdTensorflowBasedSimilarityEngine.scala#L142
上面图中的数据可能有些抽象,一位叫云游格的博主给出了具体代表的意思:
其中像是一些细节,转发点赞占比重是最高的,阅读推文后关注也会带来权重,转发自己内容,也会带来更多被机器推荐的可能,另外还有一些限制的内容,像是小语种和添加多个标签以及使用twitter时的UI界面,都会影响推文的权重。
除了互动的操作,在限制的内容上面,公开算法里面也提及了具体的限制内容。
在提升账号的权重方面,也有许多人在挖掘小技巧了,比如说,粉丝少的话尽量不要关注太多人,不然会以为你是来帮别人刷关注的机器人、减少错别字、加图和视频、新账号减少发链接的推文、以及情绪尽量正面(这条规则,账号越大,内容正负面对权重的影响越小)等等。
另外twitter会将用户的账号属性局限在某一个范围里面的,说好听点就是让你的账号更加专业化,说不好听一点,就是什么都发只会让账号的机器评价下降,你只要经常发一类东西就可以了,一个账号多样化的内容是不受欢迎的,也是说内容需要保持垂直。
这些推荐算法一公布,那些想要操纵推文热度或者改善推文质量的人都有了更明确的目标,账号已经做得好的人,将会有更多的账号竞争压力,而那些想要打击对手的人,目标则更加明确。
一个平台的推荐算法风格,很大程度决定了用户的内容创作方向。平台喜欢推荐什么,人们就更倾向于创作什么样的内容,说平台是公平的话,也只需要将反对的话题权重降低就行了,但完全让算法自由推荐,那也是不可能的,那样只会加剧偏激的内容增加。
像是国内做短视频的抖音和中长视频的B站,最近也因为互相侵蚀对方的领地引起了大家的讨论,其中由于哔哩哔哩的推荐算法的问题,对视频长短的推荐算法调整(还有收益),就引起了一些大家关于UP主停更的猜想,而B站也在考虑将算法更改为用户消耗时长的模式。
这些都说明互联网产品的推荐算法,影响着用户接收到怎样的信息,以及悄无声息的带火和压制某些事情,但是个性化推荐这个功能除了广告,又不得不开,大家可以尝试关闭试一下,接收的都是莫名其妙,与自己兴趣毫不相干的东西,比如说编程相关的推荐变成衣食住行,游戏相关的变成花花草草,会让习惯了推荐流的人觉得完全没有浏览的欲望。
只能说对于接收到信息,大家需要有自己的分辨能力,分清楚哪些是自己需要的,哪些是平台强加给你的,就连公众号的推荐算法也在改变,为了抢占你的时间,软件厂商都在努力,所以大家为自己又刷了一天手机而黯然神伤的时候,那就是推荐算法的威力。
意识到自己被无边的信息充斥包围着,挑选出优质的加入到自己的“操作系统”里,才是现在信息时代的理性人,就像是ch*tg*t都需要投喂全面而高质量的标注内容,需要有人给它分辨好坏,这个环节很关键,而作为独立的个体,我们只能自己去分辨信息质量,如果让自己充斥着推荐算法想给你看的东西,那只能让你有一种虚假的充实。
不沉浸在信息流里,有自己的主观思考并不断迭代完善自己知识体系与认知,是避免信息便利带来的副作用的一种办法,去解读信息,而不是被信息裹挟着磨灭自己的独特性,成为推荐算法眼里的营养或杂质。
参考资料:
Hackerone-twitter
twitter博客——twitter的推荐算法
云游格 -抢先解读刚被马斯克开源的 Twitter 推荐算法排名规则
评论列表(1条)
说的很好,内容很有深度