为啥最近抖音总是给我推小姐姐跳舞的视频呢?视频确实也不咋好看,我主要抱着了解、学习的态度,看了十几遍。

所以,本篇文章尝试聊下这个硬核话题:信息推荐的粗略逻辑是怎样的?

既然要聊信息推荐,我们首先聊下我们为什么要获取信息?我们的祖先还是猿猴的时候,为了提高存活的概率,必须要尽可能多的获取外界信息。见到老虎要跑,见到兔子要捕,天打雷要尽快躲进山洞。因此,在漫长的进化中,获取信息已经被牢牢镌刻在人类的基因里。换句话说,获取信息能力差的早被进化所淘汰。

在生理方面,如果不获取信息会怎样?国外的科学家曾经做过一个实验:黑屋禁闭实验。将6个人分别关进小黑屋,保证食宿。用摄像头监控他们的状态,最长一个人坚持了48小时就完全受不了了。这个信息阻断实验,有力的说明了获取信息是人的刚需。就如同我们呼吸空气、吃饭穿衣一样重要。

既然是刚需,信息推荐就属于信息供需问题。一方面内容平台产生了大量的信息,需要对此进行分类、评级。一方面大量的用户涌入,想要找到自己喜欢的信息。那么,信息推荐成为重要环节。

为啥总刷到这样的视频呢?

信息推荐主要原则:

一、向你推送你喜欢的;

二、向你推送你所在的群体喜欢的视频;

三、信息推荐无法满足的场景,多种信息匹配方式共行;

那么信息推荐是如何实现?(依据基于网上的信息,结合自己的理解推断而来,欢迎批评指正)

(1)信息生产:从一开始就双边信息打标签

用户注册:注册信息,内容提供平台可以获得你的年龄、性别、学校等信息。这些信息都是人身上的标签。

内容生产:根据图像识别技术,对内容初步过滤、打标签。

(PS:下方图片来自抖音,第一张图可以看到注册时的信息的类型。第二张图可以看到抖音对视频已经有图像识别,自动带出来关于魔方的标签。大家可以试试)

(2)内容匹配:用户标签与内容标签相互匹配、加权
根据用户身上的标签,取与此标签对应的内容标签下的热门内容,推送给用户。比如,你是个25岁的身在北京的男性匹配度比较高可能就是:小姐姐跳舞、当地新闻、篮球、车、搞笑视频等。

平台方根据你看每个视频的行为数据,比如:多刷、点赞、评论、转发、不喜欢等,对标签内容进行加权,一段时间机器学习后,基本你看到的就是你喜欢的。

(3)拓宽信息接受面,打破信息茧房

一直推送用户喜欢的类型,长此以往会把用户局限到某个类型里面,形成信息茧房。怎样扩宽用户的接触面?当前最主流的做法是找到用户所属的用户群。将本群体其他用户喜欢的其他标签内容,推送给此用户。测试此用户对本标签的喜好程度,对本标签继续进行加权。如,这个用户对车这个标签的喜好程度从0提高到每10个推荐内容喜欢看到一个关于车的内容。

(4)人对内容的消费是多种多样的,需要多种信息匹配逻辑并行

无论推荐逻辑有多么厉害,仍然无法知道用户临时性的需求,比如:中午想吃西红柿炒鸡蛋。那就需要有搜索功能。

或者,用户对内容的消费有超越内容的其他目的。比如:喜欢的姑娘分享了一篇星座相关视频,或许,直男永远不会喜欢此类内容,但出于了解姑娘的目的,这篇文章他也会看。因此就需要引入社交关系。

或者,每天有大量的新闻产生,毕竟机器学习是个比较长的过程,过了时间,内容的价值会迅速衰减,因此有了各种各样的热度排行榜。这也给了平台方赚钱的机会。

当然,我的这篇文章非常粗略。真实内容推荐一定基于业务目的,有大量的内容运营人员和更加广泛、精准、深入的逻辑。

最后说点题外话。

在今天,移动互联网高度发达。我们很轻松能获取到信息。手指上下滑动,片刻之间就可以切换到完全不同的世界,感受纷繁多样的信息。一晃几小时过去了。很难分清,是我们驯化了信息,还是信息驯化了我们?

有个理论叫奶头乐理论,大体的意思是:20%的社会精英,给80%普通大众嘴中塞一个“奶嘴”,用游戏化,娱乐化,机制化,低成本就能获得的快乐,满足底层人的愿望。从而获利以及降低阶级矛盾。我们或许穷极一生也许无法成为那20%,但最好有个意识,不能过分贪恋那个“奶嘴”。

当我把这些想法告诉我的一个朋友时,那位朋友说,人就算没有不受小姐姐跳舞短视频,也会受其他东西诱惑,和信息无关,是人的问题。我当时很愤怒,决定与他大辩一场。在这千钧一发之际,他又分享给我几个小姐姐的短视频。我出于礼貌,全部看了一遍…….