推荐系统项目总结

作者：Jay_5 | 来源：互联网 | 2023-09-15 19:56

一、音乐推荐系统1、项目介绍从网易云音乐抓取歌单信息，将每个歌单看作一个user，每个歌曲看作一个item，user对Item的评分这

一、音乐推荐系统

1、项目介绍

从网易云音乐抓取歌单信息&＃xff0c;将每个歌单看作一个user&＃xff0c;每个歌曲看作一个item&＃xff0c;
user对Item的评分这里简化为只有1&＃xff0c;0两种&＃xff0c;如果一个歌曲在歌单里&＃xff0c;则说明该user(歌单)对该歌曲的评分为1&＃xff0c;否则为0。

数据来源&＃xff1a;网易云音乐 &＃xff1a; 歌单

2、算法介绍

1&＃xff09;“协同过滤”和“矩阵分解(NMF&＃xff1b;FM&＃xff1b;SVD&＃xff1b;PMF&＃xff1b;SVD&＃43;&＃43;)”用到的数据形式均为 (user,item,rating)。可利用user-based 或 item-based 的方法&＃xff0c;向user推荐歌曲。
user-based方法&＃xff1a;找出与user最相近的用户&＃xff0c;然后&＃xff0c;将这些用户评分较高的歌曲推荐给user&＃xff1b;
Item-based方法&＃xff1a;找出与user听过的歌曲相近的歌曲&＃xff0c;推荐给user。
一般讲&＃xff0c;item-based方法更为妥当&＃xff0c;因为&＃xff0c;user喜欢的风格会随时间改变。
2&＃xff09;隐语义模型&＃xff08;latent factor model:LFM&＃xff09;&＃xff1a;将user对item的打分看作是有内部依据的&＃xff0c;与K个factor有关&＃xff0c;每个user可表示为一个k维向量&＃xff0c;表示各个维度的value表示user对该factor的喜好程度。每个Item也可表示为一个k维向量&＃xff0c;每个维度的value表示item与该factor的相关性。user对item的打分就可视为&＃xff1a;inner_product。一般&＃xff0c;我们还会加一些偏置项&＃xff0c;降低计算复杂度&＃xff0c;因此&＃xff0c;预测公式可写为&＃xff1a;prediction &＃61; bias_gobal &＃43; bias_item &＃43; bias_user &＃43; 。损失函数&＃xff1a;&＃xff08;prediction - label&＃xff09;**2 &＃43; lambda( |user|**2 &＃43; |item|**2)。利用损失函数求解 user和item的vector。

3、推荐系统Python库

surprise
lightfm

4、推荐系统构建方法

利用“协同过滤”&＃xff0c;“矩阵分解”制作简易的音乐推荐系统。
note that&＃xff1a;由于这里的评分只有1,0两种&＃xff0c;所以相似度的计算不宜用cosine&＃xff0c;或&＃xff0c;pearson。使用Jaccard similarity较好&＃xff08;交集/并集&＃xff09;。
可以通过在surprise源码中添加Jaccard similarity function 或继承类的方式实现自己的Jaccard similarity function&＃xff0c;从而计算 user-user&＃xff0c;或&＃xff0c;Item-item之间的相似度。
音乐推荐系统优化
可以将“user的听歌序列”考虑进推荐系统的设计中&＃xff1a;将每个歌单的歌曲看作一个序列&＃xff0c;将所有歌曲序列用 word2vec 进行训练&＃xff0c;得出 song2vec&＃xff0c;利用song2vec来判断歌曲之间的相近度。
others
可以将歌曲的 “流行度&＃xff0c;播放次数&＃xff0c;发行时间” 等因素考虑进去&＃xff0c;辅助推荐系统做出决策。
总结&＃xff1a;利用协同过滤&＃xff0c;LFM可以得到user-based Recommendation&＃xff0c;event-based Recommendation&＃xff0c;song2vec&＃xff0c;在将歌曲的流行度 &＃43; 歌曲播放次数 &＃43; 音乐的发行时间(可以作为bin category) 综合考虑&＃xff0c;利用ML model得到音乐的推荐度。
trainset的形式&＃xff1f;&＃xff1f;&＃xff1f;

5、模型评估方法

surprise中model评估方法&＃xff1a;均方根误差、平均绝对误差、FCP

6、推荐系统构建过程中可能面临问题

数据量过大&＃xff0c;无法一次性载入内存
1&＃xff09;无法利用全部的数据集进行推荐系统的构建&＃xff0c;针对此问题&＃xff0c;可以将歌单数据按照 “tags” 做一个预分组&＃xff0c;在每个小的分组里面去搭建一个推荐系统。在这里&＃xff0c;可以使用Spark分布式系统进行推荐系统的构建。
2&＃xff09;可以使用Tensorflow批量导入数据&＃xff0c;来训练model&＃xff08;示例code用的是SVD进行prediction&＃xff09;
数据是每天在增加的&＃xff0c;可不可以进行“增量训练(类似online learning)”&＃xff1f;
冷启动问题
user听完一个刚发行的歌曲&＃xff0c;如何根据这个歌曲给 user 推荐其他的歌曲&＃xff1f;
解决思路&＃xff1a;
1、根据音频信息&＃xff08;音乐基因&＃xff09;推荐相似歌曲&＃xff1b;
2、推荐热门的歌曲&＃xff1b;
3、退而求其次&＃xff0c;对 “歌手序列”进行建模&＃xff0c;构建artist2vec&＃xff0c;通过求解与歌手最相近的歌手&＃xff0c;来推荐歌曲&＃xff1b;
延伸&＃xff1a;电商在为user提供关联推荐时&＃xff0c;也可以用word2vec的思想&＃xff1a;将user依次点击的商品上升到品类类目&＃xff0c;构成一个品类list&＃xff0c;然后&＃xff0c;将这些品类list送入word2vec去学习&＃xff0c;学习出各个品类之间的相似度&＃xff0c;用于为user做关联推荐。
用户兴趣预测问题
user在不同的时间段喜欢的音乐是不同的&＃xff0c;我们可以按照时间线将user喜欢的音乐排序&＃xff0c;同时由近到远给出一定的衰减因子&＃xff08;如&＃xff1a;0.98&＃xff0c;0.982&＃xff0c;0.983&＃xff0c;…&＃xff09;。
根据song2vec得出歌曲推荐列表以后&＃xff0c;我们可以将每个歌曲加权衰减因子 and 歌曲热度&＃xff0c;根据加权结果&＃xff0c;给出最终的推荐。

code

二、活动推荐系统构建(Event recommendation)

1、项目介绍

利用用户的活动数据&＃xff0c;社交数据&＃xff0c;活动的元数据等信息&＃xff0c;构建活动推荐系统&＃xff0c;为用户推荐感兴趣的活动。

2、算法总结

协同过滤
FM&＃xff0c;LFM&＃xff0c;NFM

3、系统构建思路

1&＃xff09;利用用户的历史数据&＃xff08;user - event&＃xff09;做协同过滤&＃xff0c;提取两个特征&＃xff1a;user-based event recommendation 评分&＃xff0c;event-based event recommendation评分。
具体特征列表&＃xff1a;
2&＃xff09;利用用户的个人信息&＃xff0c;去评估不同用户之间的相似度&＃xff0c;从而得到另外一个&＃xff1a;user-based event recommendation评分。
具体特征列表&＃xff1a;
3&＃xff09;利用事件信息&＃xff0c;去评估不同事件之间的相似度&＃xff0c;从而得到另外一个&＃xff1a;event-based event recommendation评分。
具体特征列表&＃xff1a;
4&＃xff09;利用事件的参与人数和不参与人数&＃xff0c;构建“事件热度”特征&＃xff1a;
具体计算方式&＃xff1a;
5&＃xff09;利用用户的社交数据构建两个特征&＃xff1a;用户的朋友数量&＃xff0c;朋友参加活动的活跃度&＃xff08;朋友参加活动总数/朋友总数&＃xff09;。
具体计算方式&＃xff1a;
将上述几个特征汇总&＃xff1a;
(user-based event recommendation rating ,
event-based event recommendation rating,
事件热度,
用户的朋友数量,
朋友参加活动的活跃度)&＃xff0c;通过一个ML 模型来评估各个事件的推荐概率。
ML model可以采用LR&＃xff0c;xgboost试试。

4、模型评估方法

mean average precision&＃xff1b;

5、具体步骤

step1&＃xff1a;数据清洗
将性别&＃xff0c;locale&＃xff0c;地区信息进行 index&＃xff1b;
将其他一些value值进行类型转化&＃xff1b;
step2&＃xff1a;处理user 和 event关联数据
user-index
event-index
user-event table&＃xff1a;以字典形式存储&＃xff0c;节约空间&＃xff1a;UsersForEvent[event]&＃61;user &＃xff0c;EventsForUser[user]&＃61;event&＃xff1b;
userEventScores[i,j] &＃61; score&＃xff1b;i&＃xff1a;user-index&＃xff0c;j&＃xff1a;event-index&＃xff1b;
对于同一event感兴趣的user pair set&＃xff1a;uniqueUserPairs &＃61; set((user1,user2),(user2,user3),…)
同一user感兴趣的event pair set&＃xff1a;uniqueEventPairs &＃61; set((event1,event2),(event2,event3),…)
step3&＃xff1a;用户与用户的相似度
用户特征 &＃61; (locale&＃xff0c;出生日期&＃xff0c;性别&＃xff0c;JoinedYearMonth&＃xff0c;CountryId&＃xff0c;TimezoneInt) normalize
利用用户特征求用户之间的相似度&＃xff1b;
step4&＃xff1a;用户社交关系挖掘
user的朋友个数
user朋友参与活动的活跃度&＃xff1a;朋友参与活动总数/朋友总数
step5&＃xff1a;构造event与event相似度
event特征&＃61;&＃xff08;开始时间&＃xff0c;city,state,zip,country&＃xff0c;lat,lng&＃xff0c;count1,count2,count3,count4,…,other_count&＃xff09;
city,state,zip,country表示活动的地址信息&＃xff1b;
lat&＃xff0c;lng表示活动的经纬度信息&＃xff1b;
count…othercount表示活动文本信息中各个word的出现频次&＃xff1b;
案例中&＃xff0c;没有使用count信息&＃xff1b;
利用user-event table求出event之间的相似度&＃xff1a;eventContSim[i,j]&＃xff1b;user-event table normalize
利用event特征求出event之间的相似度&＃xff1a;eventPropSim[i,j]&＃xff1b;eventProp table normalize
step6&＃xff1a;event活跃度
从 event-attendees 中提取会参加event的人数yes 和不会参加event的人数no&＃xff0c;event活跃度 &＃61; yes - no&＃xff1b; normalize

将上述几个step中生成的特征组合起来构成新的trainingset。投入LR中进行训练。
训练何时停止较好&＃xff1f;
可以看bias(train) 和 variance(validation)曲线&＃xff0c;具体画法&＃xff0c;可以去github看code。

推荐阅读

js
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
bit
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
bit
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
bit
python搜索引擎代码 csdn_11个Python爱好者最爱访问的站点，值得收藏，帮助你更上一层楼...

学习一门编程语言，除了语法，最重要的是学习解决问题。很多时候单凭自己的能力确实无法做到完美解决，所以无论是搜索引擎、社区、文档还是博客&# ... [详细]

蜡笔小新 2023-10-17 13:04:19
bit
Spark Streaming和Kafka整合之路（最新版本）

2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作，耗时虽然不长，但是当中还是遇到了不少 ... [详细]

蜡笔小新 2023-10-16 17:29:47
bit
基于TensorFlow的Keras高级API实现手写体数字识别

前言这个项目的话我也是偶然在B站看到一个阿婆主（SvePana）在讲解这个，跟着他的视频敲的代码并学习起来的。并写在自己这里做个笔记也为 ... [详细]

蜡笔小新 2023-10-15 08:10:04
bit
2018年GitHub上最流行50大Python开源项目（上）

2018年GitHub上最流行50大Python开源项目（上）,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-14 19:31:18
bit
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
cmd
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
express
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
express
Git 命令清单

先记住几个专用名词，如下：Workspace：工作区IndexStage：暂存区Repository：仓库区（或本地仓库）Remote：远程仓库一、新建代码库#在当前目录新建一个G ... [详细]

蜡笔小新 2023-10-17 14:38:56
cmd
Win10+Python3.7+Tensorflow安装

Win10+Python3.7+Tensorflow安装Step1：安装AnacondaStep2：Tensorflow的安装转载请注明出处：https:blog.csdn.net ... [详细]

蜡笔小新 2023-10-16 16:09:49
cmd
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03

Jay_5

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章