微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构|推荐系统|算法

　　接下来，我们整理了本次公开课的技术干货并精选了几个网友提问和阙文晖老师的回答与大家分享。

　　微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构

　　正在做公开课直播的阙文晖老师

　　伟大的推荐产品来自一骑绝尘的推荐算法？你需要知道推荐系统的三大基石

　　很多人以为一个成功的推荐算法是由于用了一个一骑绝尘的算法。实际上算法只是构成推荐系统基础之一。对于一个产品而言，需要更多的站在系统的角度来看问题，这也是科研论文、Demo与实际产品的最大gap所在。

　　从系统层面看，推荐任务是不断演化的。包括系统的数据量，单个用户从新用户到数据丰富的用户，单个内容行为数据的增加，以及系统内活动运营的迭代。最终，系统的各个部分和阶段构成了一个完整的推荐系统。

　　微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构

　　对于工业推荐系统，我们需要重点关注三个方面：数据，算法，服务。

　　数据方面，包含用户侧、内容侧、环境侧三个特征。最终推荐拟合的目标是在特定的环境下，给一个拥有各种稀奇古怪特征的用户，推荐最合适的内容。比如，我们做高铁会觉得网络不如在城市里稳定，在列车行进过程中会出现网速慢甚至断网的情况。而这个时候应该根据当时的场景，加大一些流量小加载速度快内容的推荐度，比如文本；而减少比如图片、视频等加载慢的内容推荐度。

　　推荐系统架构的设计源于对任务的理解。比如在少量的候选内容情况下，召回的意义就不大。总体来说，目前工业推荐系统典型架构包含在线服务、离线计算任务、运营系统，以及一套支撑所有任务的基础设施，如rpc框架、计算引擎、数据平台、存储引擎等。

　　微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构

　　召回与排序：你将能够更深地感知用户

　　像YouTube这种级别的推荐系统，如何从千万级别的视频中快速召回百单位级别的优质内容，是推荐系统的重要挑战。正因如此，实际系统中召回任务的复杂程度比后面精排任务高。

　　有两种召回是比较常用的：

　　用户属性召回。指的是当你被打上了某个标签，例如梅西，那么以后梅西的内容就会召回给你

　　社交召回。基本思路是朋友背书，你的朋友觉得不错就推荐给你

　　相关性推荐是相似内容以文本、图片、视频等多模态呈现。探索召回可以解决算法收敛的局限性问题，快速收集到新内容的行为数据。而最重要的模型推荐，则是对用户行为数据的精细化建模。

　　在召回中，非常重要的一个技术是索引技术，延伸后是kv存储的一套技术，以解决大规模参数或者资源文件的分布式存储和管理痛点。

　　微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构

　　在召回阶段给出百单位级别的候选内容后，排序阶段需要对这几百个候选集进行更加细致的排序。排序阶段候选集少，排序耗时更加可控，可以使用更多内容侧、用户侧、环境侧的特征进行排序。在数据特征和数据量更加丰富的情况下，模型也可以尽可能地复杂，参数量也会更大，从而挖掘出特征之间更加复杂和丰富的非线性的联系。

　　排序模型中在线学习是目前广泛使用且效果很好的一个环节。在产品端通过快速回流用户行为数据的方式，在用户的下一阶段请求中即可反映出用户的当时喜好。

　　排序系统从建模用户的长期兴趣到短期兴趣再到瞬时兴趣，其捕捉用户变化的能力越来越强，对用户的感知也更为及时。排序阶段后，是混排或者重排模块，需要完成一系列规则策略，比如历史去重，内容多样性，多模态内容比例。

　　一个有意思的思考点是：图文、视频的混合比例，以及对一个篮球爱好者曝光篮球内容的比例，这个比例的值是一个需要动态确定的，这个比例参数也可以通过模型建模，强化学习是一种解决方式。

　　微信AI算法专家阙文晖公开课实录：算法不是万能钥匙！从0到1构建推荐系统架构