当前位置: 开发笔记 > 编程语言 > 正文

第十二周学习总结ProgressLack

作者：我就是个2丶 | 来源：互联网 | 2023-09-14 07:30

关于计划的制定FlowUs计划链接：点击我进入计划发现不足：首先，制定计划经验不足，制定计划应该是具体的、有任务量、完成

关于计划的制定

FlowUs计划链接&＃xff1a;
点击我进入计划

发现不足&＃xff1a;首先&＃xff0c;制定计划经验不足&＃xff0c;制定计划应该是具体的、有任务量、完成时间。

其次任务应该是可衡量的&＃xff08;比如&＃xff0c;我阅读李升波老师的网站文章&＃xff0c;应该以读书报告和实验作为衡量标准&＃xff09;。

还有重要的是计划应该是可执行可完成的&＃xff0c;本周制定计划时大而无象&＃xff0c;强化学习的学习之路尚不明确&＃xff0c;应该从教材、博客、论文的阅读起步&＃xff0c;不应该因为畏惧而拖延&＃xff0c;因完不成感到挫败。

计划也应该和其他计划具有相关性&＃xff0c;比如强化学习的原理了解是理解和运用强化学习算法的基础&＃xff0c;短期的end target是能够顺利完成毕业设计。

计划也要应该有外束力和Deadline&＃xff0c;这是利用心理上的一种局促感提高效率。

tips&＃xff1a;如何制定一个好的计划

强化学习原理基础

链接为深度强化学习必读文献
参考教材&＃xff1a;Sutton老爷子的经典书目
在这里插入图片描述
参考视频李宏毅强化学习
李宏毅强化学习课程一共11p

点击进入&＃xff1a;清华李升波老师的教学网站

在这里插入图片描述

State and action

State可以理解成状态(环境状态)&＃xff0c;当我们在玩超级玛丽我们可以认为当前的状态就是下图中&＃xff0c;超级玛丽游戏的画面&＃xff0c;当然这样说不太严谨&＃xff0c;我们观测的observation和state未必是相同的东西&＃xff0c;为了方便我们理解&＃xff0c;我们认为这张图片就是当前的状态&＃xff0c;我们玩超级玛丽的时候观测到屏幕上的状态&＃xff0c;就可以操纵马里奥做出相应的动作&＃xff0c;马里奥做的动作就是action,假设马里奥会做三个动作&＃xff0c;向左走、向右走和向上跳&＃xff0c;这个例子里面马里奥就是agent,如果在自动驾驶的领域中汽车就是agent,总之在一个应用里面动作是谁做的谁就是agent&＃xff0c;agent通常被翻译为智能体。

在这里插入图片描述

Policy

我们观测到屏幕上这个画面的时候&＃xff0c;你该让马里奥做什么样的action呢&＃xff0c;是往上还是左还是右&＃xff0c;policy的意思就是根据观测到的状态来进行决策&＃xff0c;来控制agent运动。
在数学上policy函数π是这样定义的&＃xff0c;这个policy函数π是个概率密度函数&＃xff1a;
在这里插入图片描述这个公式的意思就是给定状态s做出动作a的概率密度。

观测到马里奥这张图片agent(马里奥)会做出三种动作中的一种&＃xff0c;把这张图片输入到policy函数π它会告诉我向左的概率为0.2&＃xff0c;向右的概率为0.1&＃xff0c;向上跳的概率为0.7。如果你让这个policy函数自动操作它就会做一个随机抽样&＃xff0c;以0.2的概率向左走&＃xff0c;0.1的概率向右走&＃xff0c;0.2的概率向上跳&＃xff0c;三种动作都有可能发生&＃xff0c;但是向上跳的概率最大&＃xff0c;向左的概率较小&＃xff0c;向右的概率更小&＃xff0c;强化学习学什么呢就是学这个policy函数只要有了这个policy函数&＃xff0c;就可以让它自动操作马里奥打游戏了。

这个例子里agent的动作是随机的&＃xff0c;根据policy函数输出的概率来做动作&＃xff0c;当然也有确定的policy&＃xff0c;那样的话动作就是确定的&＃xff0c;为什么让agent动作随机呢&＃xff0c;超级玛丽这个游戏里面马里奥的动作不管是随机还是确定都还没有问题都可以&＃xff0c;但如果是和人博弈最好还是要随机&＃xff0c;要是你的动作很确定别人就有办法赢&＃xff0c;我们来想想剪刀石头布的例子&＃xff0c;要是你出拳的策略是固定的那就有规律可循了&＃xff0c;你的对手就能猜出你下一步要做什么&＃xff0c;你很定会输&＃xff0c;只有让你的策略随机&＃xff0c;别人无法猜测你的下一步动作&＃xff0c;你就会赢&＃xff0c;所以很多应用里面policy是一个概率密度&＃xff0c;最好是随机抽样得到的要有随机性。

在这里插入图片描述

Reward

下一个知识点是奖励reward&＃xff1a;

Agent做出一个动作&＃xff0c;游戏就会给一个奖励&＃xff0c;这个奖励通常需要我们来定义&＃xff0c;奖励定义的好坏非常容易影响强化学习的结果&＃xff0c;如何定义奖励就见人见智了。

马里奥吃到一个金币奖励R&＃61;&＃43;1,如果赢了这场游戏奖励R&＃61;&＃43;10000&＃xff0c;我们应该把打赢游戏的奖励定义的大一些&＃xff0c;这样才能激励学到的policy打赢游戏而不是一味的吃金币&＃xff0c;如果马里奥碰到敌人Goomba&＃xff0c;马里奥就会死&＃xff0c;游戏结束&＃xff0c;这时奖励就设为R&＃61;-10000&＃xff0c;如果这一步什么也没发生&＃xff0c;奖励就是R&＃61;0&＃xff0c;强化学习的目标就是使获得的奖励总和尽量要高。

在这里插入图片描述

State Transition

当前状态下&＃xff0c;马里奥做一个动作&＃xff0c;游戏就会给出一个新的状态&＃xff0c;比如马里奥跳一下&＃xff0c;屏幕上下一个画面就不一样了&＃xff0c;也就是状态变了&＃xff0c;这个过程就叫做State transition&＃xff08;状态转移&＃xff09;状态转移可以是固定的也可以是随机的&＃xff0c;通常我们认为状态转移是随机的&＃xff0c;如果学过马尔科夫链状态转移的随机性应该很容易理解&＃xff0c;状态转移的随机性是从环境里来的。环境是什么呢&＃xff1f;在这里环境就是游戏的程序&＃xff0c;游戏程序决定下一个状态是什么&＃xff0c;我举个例子来说明状态转移的随机性。

如果马里奥向上跳&＃xff0c;马里奥就到上面去了&＃xff0c;这个地方是确定的&＃xff0c;而敌人Goomba可能往左&＃xff0c;也可能往右&＃xff0c;Goomba的状态是随机的这也造成下一状态的随机性。可以将状态转移用p函数来表示&＃xff1a;

在这里插入图片描述
这是一个条件概率密度函数,意思是如果观测到当前的状态s以及动作a&＃xff0c;p函数输出s’的概率&＃xff0c;我举的这个例子里&＃xff0c;马里奥跳到上面&＃xff0c;Goomba往左的概率为0.8&＃xff0c;往右为0.2&＃xff0c;但是我们不知道这个状态转移函数&＃xff0c;我知道Goomba可能往左也可能往右&＃xff0c;但是我不确定它往左或者往右的概率有多大&＃xff0c;这个概率转移函数只有环境自己知道&＃xff0c;我们玩家是不知道的。

在这里插入图片描述

Agent environment interaction

最基本的概念讲的差不多了&＃xff0c;我们来看一下agent和环境是怎么进行交互的&＃xff0c;agent是马里奥&＃xff0c;状态St是环境告诉我们的&＃xff0c;在超级玛丽的例子里面&＃xff0c;我们可以把当前屏幕上显示的图片看做状态St&＃xff0c;agent看到状态St之后要做出一个动作at&＃xff0c;动作可以是向左走、向右走和向上跳&＃xff0c;agent做出动作at之后环境会更新状态St&＃43;1&＃xff0c;同时环境还会给agent一个奖励rt&＃xff0c;
要是吃到金币奖励是正的&＃xff0c;要是赢了游戏奖励就是一个很大的正数&＃xff0c;要是马里奥over了奖励就是一个很大的负数。

在这里插入图片描述

Return

Return翻译为回报&＃xff0c;Return的另一个名字是cumulative future reward&＃xff08;未来的累计奖励&＃xff09;&＃xff0c;我们把t时刻的return叫做Ut&＃xff0c;return这样定义的把t时刻的奖励全都累计加起来&＃xff0c;一直加到游戏结束时的最后一个奖励。

这里&＃xff0c;我问一个问题&＃xff0c;你们觉得奖励R_t和&＃43;R_(t&＃43;1)同样重要吗&＃xff1f;
假如&＃xff0c;我给你两个选项&＃xff1a;
1、我立刻给你100块钱和我一年后我给你100块钱。你会选择哪一个&＃xff1f;
理性的人应该都会选择现在立刻得到100块钱&＃xff0c;这是因为未来的不确定性很大&＃xff0c;即使我现在答应给你明年给你100,你也未必拿得到&＃xff0c;大家都明白这个道理&＃xff0c;明年得到这100块钱不如现在立刻得到这100块钱。
2、是我换一个问题&＃xff0c;现在我立刻给你80块钱&＃xff0c;和我明年给你100块钱&＃xff0c;你会选择哪一个&＃xff0c;或许大家会做不同的选择&＃xff0c;有人选择前者&＃xff0c;有人选择后者。

所以呢&＃xff0c;未来的奖励100不如现在的100好&＃xff0c;未来的100恐怕只值现在的80&＃xff0c;因此我该给未来的奖励打一个折扣&＃xff0c;比如打一个8折&＃xff0c;未来R_t&＃43;1的权重要比R_t低才可以&＃xff0c;由于未来的奖励不如现在的奖励值钱&＃xff0c;所以强化学习中常使用Discounted return&＃xff08;折扣回报&＃xff09;&＃xff0c;把折扣率记作&＃x1d6fe;&＃xff0c;这个值要介于0和1之间&＃xff0c;如果未来和现在的权重一样那么γ&＃61;1要是未来的奖励不重要γ就比较小&＃xff0c;这就是折扣回报的定义&＃xff1a;当前的奖励R_t没有折扣&＃xff0c;下一时刻R_t&＃43;1的折扣率是&＃x1d6fe;&＃xff0c;依次类推&＃xff0c;折扣率是一个超参数需要我们自己来调&＃xff0c;折扣率的设置对强化学习有一定的影响。

在这里插入图片描述

理解强化学习如何打游戏

如果我们玩超级玛丽&＃xff0c;那么我们的目标是什么呢&＃xff1f;我们的目标就是操作马里奥多吃金币&＃xff0c;避开敌人&＃xff0c;向前走&＃xff0c;打赢每一关&＃xff0c;我们想写个程序用AI来控制agent&＃xff0c;我们应该怎么做呢&＃xff1f;

一种办法是学习policy函数π&＃xff0c;这在强化学习里面叫做policy-based learning 基于策略的学习&＃xff0c;我后面会讲&＃xff0c;假如我们有了policy函数π&＃xff0c;我们就可以用π函数控制agent做动作了&＃xff0c;每观测到一个状态s_t就将s_t作为π函数的输入&＃xff0c;π函数会输出每一个动作的概率&＃xff0c;然后用这些概率做随机抽样得到a_t&＃xff0c;最后agent执行这个动作a_t&＃xff0c;AI就是用这种方式控制agent打游戏的。
在这里插入图片描述另外
一种方法是optimal action-value function(最优动作-价值函数)Q* &＃xff0c;这在强化学习里面称为value-based learning 价值学习。

在这里插入图片描述

Python语言基础

参考教材&＃xff1a;Python蓝皮书
参考视频&＃xff1a;
Python 三剑客学习视频

数据分析之numpy学习

NumPy(Numerical Python) 是科学计算基础库&＃xff0c;提供大量科学计算相关功能&＃xff0c;比如数据统计&＃xff0c;随机数生成等。其提供最核心类型为多维数组类型&＃xff08;ndarray&＃xff09;&＃xff0c;支持大量的维度数组与矩阵运算&＃xff0c;Numpy 支持向量处理 ndarray 对象&＃xff0c;提高程序运算速度。

数据分析之Pandas库

pandas 是用于数据挖掘的Python库

便捷的数据处理能力
独特的数据结构
读取文件方便
封装了matplotlib的画图和numpy的计算

pandas的数据结构

Series
Series 类似表格中的一个列&＃xff08;column&＃xff09;&＃xff0c;类似于一维数组&＃xff0c;可以保存任何数据类型。由索引&＃xff08;index&＃xff09;和列组成。
DataFrame
DataFrame 是一个表格型的数据结构&＃xff0c;每列可以是不同的值类型&＃xff08;数值、字符串、布尔型值&＃xff09;。DataFrame 既有行索引也有列索引&＃xff0c;它可以被看做由 Series 组成的字典。

matplotlib 可视化工具学习

Matplotlib将数据绘制在Figure对象上,Figure对象应包含一个或多个Axes对象,Axes对象包含一组X-Y坐标或者更多维度坐标的区域
pyplot是matplotlib的绘图接口&＃xff1b;对Figure对象进行管理

推荐阅读

python
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
python
一份来自清华的数据分析笔记，请查收！

之前发过很多数据分析的文章，收到不少好评，但也有一些困惑：入门数据分析该学哪些知识点？该看哪些书？是从Pyth ... [详细]

蜡笔小新 2023-10-16 12:27:43
io
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
2020年AI产业报告：100个岗位抢1个人，计算机视觉成最大缺口

“你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间，这是我们最战战兢兢的心情。但是显然，有些人体会不了。这份行业数据，让笔者“柠檬” ... [详细]

蜡笔小新 2023-12-14 12:23:22
python
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
python
使用python进行自动化打分

数据挖掘研讨课结束了，这门课的考核方法是每个同学根据班里面同学的课堂表现打分，然后老师再取截断平均值作为最后的分数。于是我就想，能否用p ... [详细]

蜡笔小新 2023-10-16 12:18:20
python
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
python
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
python
Vector数组类型在ROS开发中的用法小结

目录前言数组类型在不同消息类型中的定义在ROS消息中的定义在C中定义数组vector数组的一些常用操作基本操作求数组的最值遍历数组排序数组查找数组注意前言ROS系统的一个显著优势 ... [详细]

蜡笔小新 2023-10-14 11:16:40
python
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
match
聊聊中国人工智能科技产业区域竞争力分析及趋势

原文链接：聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数（2021ÿ ... [详细]

蜡笔小新 2023-10-13 11:56:40
python
一文看懂Python学习路径

随着Python的发展，已成为程序员能力模型中，非常重要的一个技能。甚至BATZJ的工程师，都无可否认现在Python对于一个程序员职业发 ... [详细]

蜡笔小新 2023-10-13 11:55:16
grid
一个RandomizedSearchCV和GridSearchCV组合使用调参的例子先随机大致搜索，再网格精细化搜索

温度预测示例&参数优化工具RandomizedSearchCVtaon关注0.1292019.12.0618:18:08字数2,203阅读523一般情况下，我们做 ... [详细]

蜡笔小新 2023-10-13 11:30:39

我就是个2丶

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章