• 推荐系统全流程落地实施方案


    目录

    一、整体流程

    二、离线部分

    2.1 数据收集

    2.2  内容画像

    2.3 用户画像

    2.4 召回

    2.4 排序

    三、实时系统

    四、评估系统


    一、整体流程

     本文地址:推荐系统全流程落地实施方案

    从以下一张总体脑图开始:

     整体上分为三个阶段:离线计算、推荐结果的实时获取、推荐结果的评估。

    二、离线部分

    离线计算是推荐系统的核心部分,涉及从数据收集、内容画像、用户画像、召回、排序几个关键环节,这几个环节也提现出,推荐的本质是进行内容和用户的匹配。

    2.1 数据收集

    核心工作概括如下图所示:

    需要收集的数据有两大类:用户行为数据和内容本身的描述数据。前者可以反映用户对于内容的偏好程度,后者可以对内容本身做画像。

    数据收集的更新频率根据推荐系统整体的时效性来定义,也会受限于资源成本考量。

    2.2  内容画像

    内容画像部分解决对内容的描述问题,在推荐模型中如何理解一个内容。有了内容画像,可以计算内容之间的相似性。有了相似性就可以出基于内容的推荐策略。这是在冷启动期用户行为数据有限时很有效的推荐方式。

     内容画像的生成,会用到关键词生成算法(TextRank*IDF),补充增加一个选词标准,比如TOP10。为了更能区分一个内容相对其他内容的差异性,还会用到主题词模型(一种方式是使用TextRank&TFIDF)。

    通过用户画像可以计算相似内容了,即两两内容之间的相似性。

    方法是:

    1. 由主题词生成主题词向量,word2vec常用的算法,定义一个内容的所有主题词向量的均值作为内容的向量。

    2. 两两计算相似度。数据量小时,可以全量计算,量大时可以采用一些优化算法,分类别、LSH等。

    2.3 用户画像

     解决内容的向量化描述之后,接下来利用行为数据对用户做画像。

    前述用户行为数据,实际上是用户与内容的互动关系,根据业务领域知识,定义一个评分规则,即行为转化成对内容的评分,形成用户评分表。通过用户评分表反映了每个用户对每个内容的偏好程度,借此对每个用户的评分内容做个排序,选取主题词作为用户画像中的主题词列表。

    2.4 召回

     召回实际上是一个海选的过程。召回方式有很多种,也是推荐系统中算法模型最丰富的部分。

     召回最后的输出是一个用户推荐的内容列表。

    冷启动召回,基于内容本身的特性进行选择,与特定用户没有直接关系,但有可能有间接关系,比如基于他最近访问的内容直接找相似内容。

    多路召回,会开始关注用户行为数据或者说用户画像了。基于历史喜欢的内容,ALS,协同过滤都是常用的模型。

    2.4 排序

    排序是一个精选的过程,进一步优化推荐质量。

     算法模型是关于点击率预测方面的。有LR回归、Wide&Deep、深度学习。

    三、实时系统

    就工程实践而言,一个完整的推荐系统包括推荐模型运算,也必须要有接入产品的实时推荐结果输出系统。推荐结果可以保存在Hbase这种大规模、易扩展的存储系统中,借助缓存技术、rpc技术得到最大的吞吐量。

    四、评估系统

    评估系统是进行推荐模型迭代优化的基础条件。

    事前的样本评估,事中的AB实验,事后的问卷调查。通过这些来指导模型的优化路线,获得更高的产品效果(比如转化率、活跃度等)。 

  • 相关阅读:
    10个即时通讯软件开发项目经验教训
    火山引擎A/B测试平台的实验管理重构与DDD实践
    Python实用功能之pdf文件转png图片数据
    Django-聚合查询
    又想到一个不入流的小算法
    基于soft-RoCE运行OSU Micro Benchmark
    java基于SpringBoot+Vue的健身房私人教练预约管理系统 前后端分离
    Spring中bean的注入方式
    C/C++教程 从入门到精通《第十四章》——MFC控件详解
    [附源码]JAVA毕业设计高校在线办公系统(系统+LW)
  • 原文地址:https://blog.csdn.net/feng_zi0yhv/article/details/125900925