热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

推荐系统系列1基于skipgram做推荐系统的想法

一、人工智能之自然语言处理自然语言处理(NaturalLanguageProcessing,NLP),是人工智能的分支科学,

一、人工智能之自然语言处理

    自然语言处理(Natural Language Processing, NLP),是人工智能的分支科学,意图是使计算机具备处理人类语言的能力。

    “处理人类语言的能力”要达到什么效果呢?举个例子!班主任问路班长:“你能把粉笔递过来么?”。这句话有两层意思,第一层:你能不能把粉笔递过来;第二层:把粉笔递过来。Get到第一层,班长回答“能”,Get到第二层意思,班长递上粉笔。倘若班长仅回答了“能”,情景略尴尬。

    对于人类来说,Get到两层意思没什么问题,但是要计算机Get到第二层意思就不那么简单。因为人类语言囊括了许多主观意识,是人从出生开始不断学习而形成的技能,如果想要计算机达到这样的效果,也需要有一个学习的过程。基于这样一个出发点,自然语言处理应运而生。

二、自然语言处理之word2vec

    计算机智能保存0、1这样的数据,不会保存kitty、tom、jerry、舒克这样的文本,那么该如何表达文本呢?

    1、 one-hot编码

    又称独热编码、一位有效编码。直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制,如图一:

kitty

1

0

0

0

tom

0

1

0

0

jerry

0

0

1

0

舒克

0

0

0

1

                                                                                                                         图一

    举个例子:我们用{1,0,0,0}表示kitty,用{0,0,0,1}表示tom。这样kitty与tom之间的区分程度就可以用数学中的向量距离来表示。

    但是one-hot有一个弊端,就是表达方式太冗余,仅仅利用了一个位置,其他位置全部浪费了。上面4个单词用了4列,其中3列为0,如果有1000个单词,那么就会有999列为0。因此需要一种更好的表达方式。

 

    2、 Embeddings

    是一组广泛应用于预测NLP建模的特征工程技术,是比one-hot更有效率的一种表达方式,如图二:

 

Cat

Mouse

kitty

0.8

0.2

tom

0.9

0.1

jerry

0.2

0.8

舒克

0.3

0.7

                                                                                                                            图二

    我们使用Cat和Mouse两个特征,kitty{0.8,0.2}与tom{0.9,0.1}之间的距离要小于kitty{0.8,0.2}与jerry{0.2,0.8}之间的距离,与直观上的感受是一致的,也可以达到区分的目的。而且空间占用相比于one-hot减小了一倍。

三、word2vec之skip-gram

    首先我们要有一个直观的感受,来看下面四个句子:

    1、 武磊在西班牙足球甲级联赛打入首粒入球;

    2、 武磊确认为西班牙人足球队本场比赛的首发;

    3、 湖人5连胜,詹姆斯三双再刷NBA历史纪录;

    4、 詹姆斯又创NBA里程悲,湖人还有办法吗?

    上面四个句子,我们可以发现:当“武磊”出现时,大概率会出现“足球”、“西班牙”, 小概率出现“NBA”;当“詹姆斯”出现时,大概率会出现“NBA”、“湖人”,小概率出现“足球”。

    上述问题可以换一种抽象的描述:当X出现时,Y1、Y2、Y3…Yn会以较大概率出现。Skip-Gram-Naïve-Softmax模型可以处理这种情况,如图三:

 

                                 

                                                                                                                     图三

    假设我们的输入是最左边的one-hot-vector向量,经过VxD维矩阵M1映射为1xD的Vc向量,再经过DxV维矩阵M2映射,最后经过SoftMax成为公式一       

                                                                               公式1

    公式1可以用来用来表示的具体信息,我们暂不讨论数学公式,仅从直观上分析:要找到一种情景S使公式1最大,从而最有效的对矩阵M1、M2进行训练(参考神经网络相关知识)。

    那么情景S如何选取呢,Skip-gram将情景S定义为单词的上下文,即距离目标单词Wi物理位置较近的Wi-1,Wi+1等等。比如说本节的例子,“武磊”附近大概率出现“足球”、“西班牙”,“詹姆斯”附近大概率出现“NBA”、“湖人“。

    通过符合情景S的训练集,对图中的矩阵M1、M2进行训练,就可以得的单词的Embeddings表示,进而计算不同单词之间的距离。

    代码实现、数据集:https://github.com/dongguadan/recommender-system.git

    查询单词:kenya

    相似度排名:

        Colonialism:0.71

        Sheeny:0.67

        Score:0.65

        Religious:0.64

        Estereotyped:0.64

        Africa:0.63

        Maputo:0.63

        Jodorowsky:0.61

        Tankjacking:0.61

        Cambodia:0.61

       

                                                                                                                            图四

四、Skip-gram应用于推荐系统

    上面的数据集是基于影视评论的统计,通过计算于目标单词相似度最近的单词,可以找到与评论者近似的评论,进而对评论者的兴趣进行评估、做友好推荐。

 

五、参考

    https://github.com/DSKSD/DeepNLP-models-Pytorch

    https://www.jianshu.com/p/8e291e4ba0da

 

转:https://www.cnblogs.com/dongguadan/p/10505600.html



推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识,希望对你有一定的参考价值。 ... [详细]
  • navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题
    摘要:目前复杂问题包括两种:含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • keras归一化激活函数dropout
    激活函数:1.softmax函数在多分类中常用的激活函数,是基于逻辑回归的,常用在输出一层,将输出压缩在0~1之间,且保证所有元素和为1,表示输入值属于每个输出值的概率大小2、Si ... [详细]
author-avatar
明年夏天1314520
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有