许多专业人士的知识结构特点都是:在太少的地方知道的太多。
我们总是希望他们能讲点什么,但很遗憾的是,许多专业人士已经逐渐丧失了和大众对话的能力,他们一开口,讲的东西大多人都很难轻易听懂。
在职场,分工的边界开始变得模糊,大多人需要的是对许多方面都有一定的了解,但又不需要特别精通,从而能和其他人有更流畅的合作,对项目有更宏观的理解,对非专业的知识也能有框架性的认识。
所以本文梳理了内容推荐算法的基础逻辑,没有任何公式和算法程序,10分钟就可以对内容推荐的方方面面有整体的理解。
为了让文章尽可能简化,所有不必要的内容都没有在文中写出,但罗列了许多参考文章,可以进一步扩展阅读。各位在人人都是产品经理、鸟哥笔记、搜狗微信搜索等网站检索,就可以轻易得到文章。
绝大多数已知的事情在逻辑上都是非常简单的,难的地方在于细节的处理、技术的实现。但在“认识”这个阶段,对逻辑的理解非常重要,所以这是一个既重要又简单的部分。
在“实践”阶段则要复杂的多,需要我们自己在做的过程中反复琢磨,找到真正适合自己的方案。
全文分为6个基础逻辑。
传统内容获取方式
-
在个性化推荐技术大规模应用以前,人们在线获取信息的方式主要依靠搜索引擎、浏览站点首页两种方式。
-
使用搜索引擎的场景下,用户的需求主动而明确,可以通过关键词获取精准的信息。
-
浏览站点首页的场景下,用户的需求主动而模糊,可以获得平台推荐给你的信息,这种推荐对所有用户一般是无差别的,比如各大站点首页的轮播图、专栏、热榜等。相关的技术是“热点算法”。
-
最近几年开始流行的个性化推荐提供足够定制化的信息,每个人都是独一无二的个体,极为个性化的偏好都能得到满足。
「扩展阅读」
-
互联网时代最主要的三种获取信息方式-文章-米可-人人都是产品经理
-
浅谈互联网信息获取方式的演变以及对SEO的影响-文章-SEO技术流-微信公众号
内容分发方式
-
内容分发是从平台的角度来说的,可以分为订阅分发、编辑分发、社交分发、推荐分发。
-
微信公众号的基本的逻辑是订阅分发,网易首页的轮播图和栏目是编辑分发,微信「看一看」中的“朋友在看”属于社交分发,今日头条APP首页的“推荐”栏目更多属于推荐分发。
-
许多产品都会把三种方式结合使用,比如知乎首页就有「推荐」、「关注」和「热榜」,甚至有的平台会把这三类都整合在一个信息流中。
「扩展阅读」
-
聊一聊信息分发的嬗变史-文章-善宝橘-人人都是产品经理
-
互联网信息分发简明史-文章-金叶宸-人人都是产品经理
-
知乎的内容分发策略及运行机制是怎样的?-文章-Lcarusd-人人都是产品经理
-
内容分发三分天下?编辑、算法与社交-文章-Ella-人人都是产品经理
搜索引擎&推荐系统
-
搜索引擎和推荐系统是人们获取信息最主要的两种方式,它们之间关系密切。
-
前面已经说过,使用搜索引擎获取信息时,用户的需求主动而明确,而使用推荐系统的用户,需求往往被动而模糊。
-
搜索引擎的结果对不同特征的人可以有一定的不同,但很难做到个性化,推荐引擎则可以做到千人千面,满足每个用户的个性化需求。
-
从给用户呈现的内容来看,可以把搜索引擎看作推荐引擎的某种简化,如果一个用户只对一个关键词感兴趣,那么推荐引擎的结果就近似于搜索引擎的结果。
「扩展阅读」
-
推荐系统和搜索引擎的关系是什么?-文章-陈运文-人人都是产品经理
-
内容算法:第一章:走近内容推荐:推荐系统架构初探-图书-闫泽华-实体书
-
一文解读垂直搜索引擎和个性化推荐的应用逻辑-文章-Sarah-人人都是产品经理
推荐系统&用户画像
-
内容推荐,就是把合适的内容推荐给需要的用户,推荐系统需要搞定三个大的模块:用户、内容、算法。而用户画像属于用户模块,是推荐系统的重要组成部分。
-
虽然用户画像还有产品或行业研究等使用场景,但相对次要,在讨论推荐问题的场景下,可以直接把用户画像看作推荐系统的组成部分。
-
用户的每一次操作都有两种意义。一是对内容进行「群体评估」,用自己的行为决定某篇内容的好坏,二是「个体进化」的意义,通过自身的每一次选择与反馈,持续地改进自身的用户画像。
-
用户画像就像为每个人构建一个数字躯体,用户画像越完善,推荐系统获得的语义就越丰富,推荐给用户的内容就越精准,用户就可以获得更好的体验。
「扩展阅读」
-
一文读懂推荐系统用户画像-文章-菠萝王子-人人都是产品经理
-
实例解析:生活中的用户画像-文章-接地气的陈老师-人人都是产品经理
断物&识人
断物和识人,一个关注内容,一个关注用户,简单来说都是“贴标签”。标签是我们对多维事物的降维理解,抽象出事物更具有表意性、更为显著的特点。
-
「断物」有三种方式:分类、标签、聚类。
-
「分类」是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。
-
应用分类时必须考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。
-
知乎的「话题树」就是一个典型的分类体系。
-
「标签」是网状的,更强调表达属性关系而非继承关系,只有权重大小之分,不强调包含与被包含关系。这就使得相对于分类而言,标签的灵活性更强。
-
在权威性方面,标签是较弱的,每个用户都可以参与进来,基于自己的偏好贴标签,可以借助规模效应实现对信息表意完备性的覆盖。
-
豆瓣图书的关键词,就是一个典型的标签系统。
-
「聚类」可以用来应对难以用标签准确描述的东西,比如说一个人长得漂亮,是由一系列复杂而模糊的综合特征来决定的。
-
聚类并不是以标签词的方式来定义事物是怎样的,而是基于某一维度的特征将相关物品组成一个集合,并告诉你这个新的物品同哪个集合相似。这种分类算法相对并不直观,对普通用户来说一般处于黑盒状态。
-
抖音可能会给你推荐「爱跳舞的小姐姐」、也可能会给你推荐「美食做法」,其中的算法就包含对短视频的聚类。
-
「识人」可以更加简单地理解为给用户“贴标签”,来描述用户的特征,也就是用户画像。
-
用户画像数据分为静态和动态两类。
-
「静态用户画像数据」是独立于产品场景之外的属性,比如性别、学历、年龄等。
-
「动态用户画像数据」,包括用户在产品场景中所产生的的显式和隐式行为。
-
显式行为包括对内容的点赞、评论、分享、对作者关注等。
-
隐式行为包括在页面的停留时间、用户操作轨迹等。
-
通常显式行为的权重更高,但由于显式行为更稀疏,所以需要隐式行为来补充验证。
「扩展阅读」
-
内容算法:第二章:推荐的起点:断物识人-图书-闫泽华-实体书
-
如何构建用户标签体系?-文章-日久情疏-人人都是产品经理
-
用户标签实践:如何建立标签体系实现精准营销?-文章-lei-人人都是产品经理
-
什么是用户画像和标签?-文章-Pinko-人人都是产品经理
基于内容的推荐&基于用户的推荐
基于内容的推荐指的是「相似性推荐」。
-
「相似性推荐」算法中的相似性通过内容的标签重合度来体现。
-
在众多图书中,两本书的标签重合度较高,如果用户选择了其中一本,系统就应当优先推荐给这位用户另一本。
-
上图中,《运营之光》和《从零开始做运营》的标签重合度更高,可以给买其中一本的用户推荐另一本,而不是推荐《内容算法》。
-
考虑到不同标签的区分度不同,可以进一步细化,引入TF-IDF方式给不同的标签设定权重。
-
TF-IDF的逻辑很简单,出现频率越高的标签区分度越低,给的权重也应该越低。
-
这种基于内容属性的推荐,好处是只依赖物品本身的特征而不依赖用户的行为,让新的物品和冷僻的物品都能得到展示。但也有一些问题。
-
第一个问题,推荐质量的优劣完全取决于特征构建的完备性,但这是一项困难的系统工程。
-
第二个问题,单纯的内容属性推荐没有考虑到用户对物品的态度,用户的品味和调性很难得到诠释和表达。
-
「相似性推荐」理解起来比较直观,但因为它存在的问题在海量内容平台上非常严重,所以下面一种方式才是目前应用范围较广的推荐方法。
基于用户的推荐指的是「协同过滤」。
-
「基于用户行为的协同过滤」引入了用户的消费行为特征,以此来计算用户相似性和物品相似性。
-
协同推荐分为三个子类:基于物品的协同、基于用户的协同、基于模型的协同。
-
「基于用户的协同」就是找到和你口味相似的人群,并把他们喜欢的新东西推荐给你。
-
上图中,用户1和3都喜欢内容A和C,判断这两个用户偏好相似,当用户3阅读内容D时,同样把内容D推荐给相似的用户1。
-
「基于物品的协同」,如果很多用户都阅读了同样的两个内容,系统就认为这两个内容相似。一个新的用户阅读其中一个,系统就会把另一个推荐给这位用户。
-
上图中,内容A和C都被用户2和3喜欢,系统判断这两个内容相似,所以当一个新的用户1喜欢A后,也应该把相似的内容C推荐给用户1。
-
「基于模型的协同」是用用户的喜好信息来训练算法模型,实时预测用户可能的点击率,是深度学习技术的应用。
-
基于用户行为的协同过滤,特点是我们不需要对物品或信息进行完整的标签化分析和建模,实现了领域无关,因此应用广泛。
「扩展阅读」
-
内容算法:第三章:推荐算法:物以类聚,人以群分-图书-闫泽华-实体书
-
分析:基于文本内容推荐和协同过滤推荐-文章-SincerityY-人人都是产品经理
-
推荐策略产品经理:什么是协同过滤推荐算法?-文章-凤城狂客-人人都是产品经理
-
协同过滤算法:在抖音狂给1000个小姐姐点赞的事被老婆发现了!-文章-菠萝王子-人人都是产品经理
设计一款推荐系统,除了整体逻辑和具体算法,期间还会遇到各种各样需要考虑的问题,比如去重问题、权重问题、推荐密度问题、易反感内容处理、时空限定类内容处理、反作弊、偶然和极端情况等等,都需要我们逐步考虑进来。
另外,理解整体逻辑后,我们还需要知道,推荐算法是有很多不同的典型使用场景的。比如基于用户消费历史的商品推荐、视频播放结束后继续观看的场景、搜索的场景、时下流行内容的推荐、热榜推荐的热度算法等等,每一类场景都能找到典型的产品,但一定要根据分类找到更有参考价值的案例,以免逻辑混乱。
以上内容,写给那些对内容推荐非常陌生的产品和运营人员,可以作为入门理解的首选文章。当然,一个成熟的推荐系统从设计到落地要复杂得多,每一个不同的细节问题、每一个使用场景都有相关的文章或图书,可以进一步检索学习。