热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

人工智能推荐系统:大数据电商推荐系统架构

一、数据1、数据生命周期2、数据源解析2.1商品信息2.2用户评分数据2.3主要数据模型3、大数据处理流程3.1大数据离线处理流程3.2大数据实时处理流程二、大数据推荐项目系统架构
一、数据

1、数据生命周期

《人工智能-推荐系统:大数据电商推荐系统架构》

2、数据源解析

2.1 商品信息

《人工智能-推荐系统:大数据电商推荐系统架构》

2.2 用户评分数据

《人工智能-推荐系统:大数据电商推荐系统架构》

2.3 主要数据模型

《人工智能-推荐系统:大数据电商推荐系统架构》

3、大数据处理流程

3.1 大数据离线处理流程

《人工智能-推荐系统:大数据电商推荐系统架构》

3.2 大数据实时处理流程

《人工智能-推荐系统:大数据电商推荐系统架构》

二、大数据推荐项目系统架构

《人工智能-推荐系统:大数据电商推荐系统架构》
《人工智能-推荐系统:大数据电商推荐系统架构》
《人工智能-推荐系统:大数据电商推荐系统架构》
《人工智能-推荐系统:大数据电商推荐系统架构》
《人工智能-推荐系统:大数据电商推荐系统架构》

1、离线统计模块

《人工智能-推荐系统:大数据电商推荐系统架构》

1.1 历史热门商品统计

  • 统计所有历史数据中每个商品的评分数,得:RateMoreProducts 数据结构:productId,count

    select productId, count(productId) as count from ratings group by productId order by count desc

1.2 近期热门商品统计

  • 统计每月的商品评分个数,就代表了商品近期的热门度,得:ratingOfMonth、RateMoreRecentlyProducts

    select productId, score, changeDate(timestamp) as yearmonth from ratings

    select productId, count(productId) as count ,yearmonth from ratingOfMonth group by yearmonth, productId order by yearmonth desc,count desc

    changDate :UDF函数,使用 SimpleDateFormat 对 Date 进行格式转化,转化格式为“yyyyMM”
    RateMoreRecentlyProducts 数据结构:productId,count,yearmonth

1.3 商品平均评分统计

  • AverageProducts 数据结构:productId,avg

    select productId, avg(score) as avg from ratings group by productId order by avg desc

2、离线推荐模块

2.1 基于LFM的离线推荐模块

2.1.1 用ALS算法训练隐语义模型(LFM)

《人工智能-推荐系统:大数据电商推荐系统架构》

  • 均方根误差(RMSE):均方误差的算术平方根,预测值与真实值之间的误差
    《人工智能-推荐系统:大数据电商推荐系统架构》
  • 参数调整 可以通过均方根误差,来多次调整参数值,选择RMSE最小的一组参数值:rank,iterations,lambda

2.1.2 计算用户推荐矩阵

《人工智能-推荐系统:大数据电商推荐系统架构》

2.1.3 计算商品相似度矩阵

《人工智能-推荐系统:大数据电商推荐系统架构》

2.2 基于物品的离线相似推荐(Tf-idf)

《人工智能-推荐系统:大数据电商推荐系统架构》

  • 怎样找到商品 A 的相似商品?—— 与A有相同标签的商品,喜欢A的人同样喜欢的商品
  • 根据 UGC (用户给商品打的标签)的特征提取 —— 利用TF-IDF算法从商品内容标签中提取特征
  • 基于商品的用户标签信息,用TF-IDF算法提取特征向量
    《人工智能-推荐系统:大数据电商推荐系统架构》
  • 计算特征向量的余弦相似度,从而得到商品的相似列表
    《人工智能-推荐系统:大数据电商推荐系统架构》
  • 在实际应用中,一般会在商品详情页、或商品购买页将相似商品推荐出来

2.3 基于物品的协同过滤离线相似推荐(Item-CF)

《人工智能-推荐系统:大数据电商推荐系统架构》

  • 怎样找到商品 A 的相似商品?—— 与A有相同标签的商品,喜欢A的人同样喜欢的商品
  • 根据行为数据的相似度计算—— Item-CF:根据行为数据,找到喜欢了商品A的用户,同时喜欢了哪些商品,喜欢的人重合度越高相似度就越大
  • 基于物品的协同过滤(Item-CF),只需通过埋点收集用户的常规行为数据(比如点击、收藏、购买)就可以得到商品间的相似度,在实际项目中应用很广
  • 比如:A商品详情页中的推荐:购买了A商品的用户也购买了以下商品…
  • “同现相似度”—— 利用行为数据计算不同商品间的相似度
    《人工智能-推荐系统:大数据电商推荐系统架构》
    其中:
    • N i N_i Ni 是购买商品 i i i (或对商品 i i i 评分)的用户列表, N j N_j Nj 是购买商品 j j j 的用户列表
    • N i ∩ N j N_i ∩ N_j NiNj 表示同时购买了商品 i i i 与商品 j j j 的用户总数、 ∣ N i ∣ ∣ N j ∣ \sqrt{|N_i||N_j|} NiNj 是对热门商品的惩罚项

《人工智能-推荐系统:大数据电商推荐系统架构》

2.4 基于用户的协同过滤离线相似推荐(User-CF)

3、实时推荐模块

  • 计算速度要快
  • 结果可以不是特别精确
  • 有预先设计好的推荐模型
  • 基于自定义模型
    《人工智能-推荐系统:大数据电商推荐系统架构》
  • 推荐优先级计算基本原理:用户最近一段时间的口味是相似的
  • 备选商品推荐优先级:
    《人工智能-推荐系统:大数据电商推荐系统架构》
    《人工智能-推荐系统:大数据电商推荐系统架构》
  • 备选商品 【 X , Y , Z 】 【X,Y,Z】 X,Y,Z当前商品 D D D 的商品相似度列表中与商品 D D D 最相似的的前 N N N 个商品
  • 备选商品 X X X 的推荐优先级分数为:
    s i m ( A , X ) × 5 + s i m ( B , X ) × 4 + s i m ( C , X ) × 1 3 + l g 2 − l g 1 \cfrac{sim(A,X)×5+sim(B,X)×4+sim(C,X)×1}{3}+lg2-lg1 3sim(A,X)×5+sim(B,X)×4+sim(C,X)×1+lg2lg1
    其中
    • l g 2 lg2 lg2里的 2 2 2表示用户对商品的评分大于3分的商品数量,
    • l g 1 lg1 lg1里的 1 1 1表示用户对商品的评分小于3分的商品数量,
    • 分界线 3 3 3分是人为设定的

4、混合推荐 —— 分区混合

《人工智能-推荐系统:大数据电商推荐系统架构》


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类
    本文介绍了基于事件驱动的并发编程中的消息通信机制,包括同步和异步的概念及其区别,阻塞和非阻塞的状态,以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 本文详细介绍了MySQL表分区的创建、增加和删除方法,包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 修复安装win10失败并提示“磁盘布局不受UEFI固件支持”的方法
    本文介绍了修复安装win10失败并提示“磁盘布局不受UEFI固件支持”的方法。首先解释了UEFI的概念和作用,然后提供了两种解决方法。第一种方法是在bios界面中将Boot Mode设置为Legacy Support,Boot Priority设置为Legacy First,并关闭UEFI。第二种方法是使用U盘启动盘进入PE系统,运行磁盘分区工具DiskGenius,将硬盘的分区表设置为gpt格式,并留出288MB的内存。最后,通过运行界面输入命令cmd来完成设置。 ... [详细]
  • 本文提供了关于数据库设计的建议和注意事项,包括字段类型选择、命名规则、日期的加入、索引的使用、主键的选择、NULL处理、网络带宽消耗的减少、事务粒度的控制等方面的建议。同时还介绍了使用Window Functions进行数据处理的方法。通过遵循这些建议,可以提高数据库的性能和可维护性。 ... [详细]
author-avatar
渐我素小黑陈琼敏
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有