actorcritic方法的改写如下：演员批评者方法

作者：手机用户2602931615 | 来源：互联网 | 2023-10-13 15:55

1.减小方差方差很高时，随机变量的取值可能会远远偏离均值。策略梯度方法的思想：增加良好动作的执行概率，并减少不良动作的执行概率。为了提高

1.减小方差

方差很高时&＃xff0c;随机变量的取值可能会远远偏离均值。
策略梯度方法的思想&＃xff1a;增加良好动作的执行概率&＃xff0c;并减少不良动作的执行概率。
为了提高Reinforce的稳定性&＃xff0c;从梯度量表中减去了平均奖励。为什么这么做&＃xff1f;
假设有一个非常简单的场景&＃xff0c;在该场景中我们对梯度进行一次优化&＃xff0c;有三个动作&＃xff0c;它们的总折扣奖励值不同&＃xff0c;分别为 $Q_1、Q_2和Q_3$ .令 $Q_1$ 和 $Q_2$ 都等于某个小的正数&＃xff0c;而 $Q_3$ 是某个大的负数。由这三个步骤得到的综合梯度将试图使策略原理第三步的动作&＃xff0c;而稍微向第一步和第三步靠拢。
但若奖励永远是正的&＃xff0c;只有价值不同。那么策略将会向第三步稍微靠拢。减去平均值使得策略梯度标准化。避免了策略梯度的偏移。

2 actor-critic

减小方差的下一步是使基线与状态有关 &＃xff0c;因为不同的状态可能具有非常不同的基线。总奖励本身可以表示为状态的价值加上动作的优势值&＃xff1a; $Q (s, a) &＃61; V (s) &＃43; A (s, a)$ &＃xff0c;和dueling DQN一样。
所以可以用V(s)来作为基线&＃xff0c;梯度缩放因子将只是优势值 $A (s, a)$ 。
现在只需要知道 $V (s)$ 是多少即可&＃xff0c;我们可以使用另一种神经网络&＃xff0c;为每个观察近似 $V (s)$ 。要训练它&＃xff0c;可以采用在DQN方法中使用过的相同的训练过程&＃xff1a;执行Bellman步骤&＃xff0c;然后最小化均方误差以改进 $V (s)$ 的近似值。
这种方法被称为Advantage Actor-Critic方法&＃xff0c;简称A2C。
训练步骤&＃xff1a;
请添加图片描述

3 A3C&＃xff1a;Asynchronous Advantage Actor-Critic

3.1 相关性和采样效率

强化学习的样本之间的相关性打破了随机梯度下降的优化至关重要的独立同分布的假设。带来的负面效果为梯度的方差很大&＃xff0c;这意味着训练批包含非常相似的样本&＃xff0c;所有这些样本都将我们的网络推向了相同的方向。从全局来看&＃xff0c;这些样本可能将网络推向了完全错误的方向。
最常用的解决方案就是使用多个并行环境来收集状态转移&＃xff0c;所有这些环境均使用当前的策略。我们现在训练的是从不同环境中获得的不同的片段数据&＃xff0c;这打破了同一个片段中样本的相关性。但这样采样效率低下&＃xff0c;因为使用一次就抛弃了。

3.2 A3C并行化

请添加图片描述

神经网络

推荐阅读

深度
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
tensorflow
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
深度
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
算法
概论组合最优化问题、计算复杂性和启发式算法概念（现代优化计算方法）

1.组合最优化问题定义：是通过数学方法的研究去寻找离散事件的最优编排、分组、次序或筛选等。描述：最优化问题的数学模型的一般描述是，x为决策 ... [详细]

蜡笔小新 2023-10-17 18:23:43
ocr
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
svm
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
算法
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
深度
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
自动驾驶
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
神经网络
如何知道一个网络中每个权重的重要性

如图所示B可以看做是网络的权重,A是输入,C是输出,要想知道网络的权重,只需将,B中的其中一个权重设置为0,如果权重的改变没有对结果造成很大的影响,说明该权重没有影响,神经网络是 ... [详细]

蜡笔小新 2023-10-17 09:30:30
tensorflow
Windows7 安装TensorflowGPU文档

安装Tensorflow-GPU文档第一步：通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]

蜡笔小新 2023-10-17 07:23:13
算法
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15
神经网络
keras归一化激活函数dropout

激活函数:1.softmax函数在多分类中常用的激活函数，是基于逻辑回归的，常用在输出一层，将输出压缩在0~1之间，且保证所有元素和为1，表示输入值属于每个输出值的概率大小2、Si ... [详细]

蜡笔小新 2023-10-16 18:35:17
pytorch
都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战

篇首语：本文由编程笔记#小编为大家整理，主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 18:30:35
深度
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20

手机用户2602931615

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章