【Seaborn绘图】深度强化学习实验中的paper绘图方法

作者：圣换少爷 | 来源：互联网 | 2023-09-13 17:06

来源：知乎(zhuanlan.zhihu.comp75477750)编辑:DeepRL强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片，

来源&＃xff1a;知乎(zhuanlan.zhihu.com/p/75477750)

编辑: DeepRL

强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片&＃xff0c;使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas,不同的源数据对应的其他参数也略有不同.

1. ndarray

先看一个小例子

def getdata(): basecond &＃61; [[18, 20, 19, 18, 13, 4, 1], [20, 17, 12, 9, 3, 0, 0], [20, 20, 20, 12, 5, 3, 0]]cond1 &＃61; [[18, 19, 18, 19, 20, 15, 14], [19, 20, 18, 16, 20, 15, 9], [19, 20, 20, 20, 17, 10, 0], [20, 20, 20, 20, 7, 9, 1]]cond2 &＃61; [[20, 20, 20, 20, 19, 17, 4], [20, 20, 20, 20, 20, 19, 7], [19, 20, 20, 19, 19, 15, 2]]cond3 &＃61; [[20, 20, 20, 20, 19, 17, 12], [18, 20, 19, 18, 13, 4, 1], [20, 19, 18, 17, 13, 2, 0], [19, 18, 20, 20, 15, 6, 0]]return basecond, cond1, cond2, cond3

数据维度都为(3,7)或(4, 7)

第一个维度表示每个时间点采样不同数目的数据(可认为是每个x对应多个不同y值) 第二个维度表示不同的时间点(可认为是x轴对应的x值)

data &＃61; getdata() fig &＃61; plt.figure() xdata &＃61; np.array([0, 1, 2, 3, 4, 5, 6])/5 linestyle &＃61; [&＃39;-&＃39;, &＃39;--&＃39;, &＃39;:&＃39;, &＃39;-.&＃39;] color &＃61; [&＃39;r&＃39;, &＃39;g&＃39;, &＃39;b&＃39;, &＃39;k&＃39;] label &＃61; [&＃39;algo1&＃39;, &＃39;algo2&＃39;, &＃39;algo3&＃39;, &＃39;algo4&＃39;]for i in range(4): sns.tsplot(time&＃61;xdata, data&＃61;data[i], color&＃61;color[i], linestyle&＃61;linestyle[i], condition&＃61;label[i])

sns.tsplot 用来画时间序列图

time参数表示对应的时间轴(ndarray),即x轴,data即要求绘制的数据,上述例子为(3, 7)或(4, 7),color为每条线的颜色,linestyle为每条线的样式,condition为每条线的标记.

plt.ylabel("Success Rate", fontsize&＃61;25) plt.xlabel("Iteration Number", fontsize&＃61;25) plt.title("Awesome Robot Performance", fontsize&＃61;30) plt.show()

1.2 绘图建议

你的程序代码需要使用一个额外的文件记录结果,例如csv或pkl文件,而不是直接产生最终的绘图结果.这种方式下,你能运行程序代码一次,然后以不同的方式去绘制结果,记录超出您认为严格必要的内容可能是一个好主意&＃xff0c;因为您永远不知道哪些信息对于了解发生的事情最有用.注意文件的大小,但通常最好记录以下内容:每次迭代的平均reward或loss,一些采样的轨迹,有用的辅助指标(如贝尔曼误差和梯度)
你需要有一个单独的脚本去加载一个或多个记录文件来绘制图像,如果你使用不同的超参数或随机种子运行算法多次,一起加载所有的数据(也许来自不同的文件)并画在一起是个好主意,使用自动生成的图例和颜色模式使分辨不同的方法变得容易.
深度强化学习方法,往往在不同的运行中有巨大的变化,因此使用不同的随机种子运行多次是一个好主意,在绘制多次运行的结果时,在一张图上绘制不同运行次的结果,通过使用不同粗细和颜色的线来分辨.在绘制不同的方法时,你将发现将他们总结为均值和方差图是容易的,然而分布并不总是遵循正态曲线,所以至少在初始时有明显的感觉对比不同随机种子的性能.

1.3 实验绘图流程

下面以模仿学习的基础实验为例

means &＃61; [] stds &＃61; [] #使用不同的随机种子表示运行多次实验 for seed in range(SEED_NUM): tf.set_random_seed(seed*10) np.random.seed(seed*10) mean &＃61; [] std &＃61; []#构建神经网络模型model &＃61; tf.keras.Sequential() model.add(layers.Dense(64, activation&＃61;"relu")) model.add(layers.Dense(64, activation&＃61;"relu")) model.add(layers.Dense(act_dim, activation&＃61;"tanh")) model.compile(optimizer&＃61;tf.train.AdamOptimizer(0.0001), loss&＃61;"mse", metrics&＃61;[&＃39;mae&＃39;]) #迭代次数for iter in range(ITERATION): print("iter:", iter) #训练模型model.fit(train, label, batch_size&＃61;BATCH_SIZE, epochs&＃61;EPOCHS)#测试,通过与环境交互n次而成,即n趟轨迹roll_reward &＃61; [] for roll in range(NUM_ROLLOUTS): s &＃61; env.reset() done &＃61; False reward &＃61; 0 step &＃61; 0 #以下循环表示一趟轨迹while not done: a &＃61; model.predict(s[np.newaxis, :]) s, r, done, _ &＃61; env.step(a) reward &＃43;&＃61; r step &＃43;&＃61; 1 if step >&＃61; max_steps: break#记录每一趟的总回报值roll_reward.append(reward) #n趟回报的平均值和方差作为这次迭代的结果记录mean.append(np.mean(roll_reward)) std.append(np.std(roll_reward)) #记录每一次实验,矩阵的一行表示一次实验每次迭代结果means.append(mean) stds.append(std)

接着需要保存数据为pkl文件

d &＃61; {"mean": means, "std": stds} with open(os.path.join("test_data", "behavior_cloning_" &＃43; ENV_NAME&＃43;".pkl"), "wb") as f:pickle.dump(d, f, pickle.HIGHEST_PROTOCOL)

绘图的程序代码比较简单

file &＃61; "behavior_cloning_" &＃43; ENV_NAME&＃43;".pkl"with open(os.path.join("test_data", file), "rb") as f:data &＃61; pickle.load(f)x1 &＃61; data["mean"]file &＃61; "dagger_" &＃43; ENV_NAME&＃43;".pkl"with open(os.path.join("test_data", file), "rb") as f:data &＃61; pickle.load(f)x2 &＃61; data["mean"]time &＃61; range(10)sns.set(style&＃61;"darkgrid", font_scale&＃61;1.5)sns.tsplot(time&＃61;time, data&＃61;x1, color&＃61;"r", condition&＃61;"behavior_cloning")sns.tsplot(time&＃61;time, data&＃61;x2, color&＃61;"b", condition&＃61;"dagger")plt.ylabel("Reward")plt.xlabel("Iteration Number")plt.title("Imitation Learning")plt.show()

有时我们需要对曲线进行平滑

def smooth(data, sm&＃61;1):if sm > 1:smooth_data &＃61; []for d in data:y &＃61; np.ones(sm)*1.0/smd &＃61; np.convolve(y, d, "same")smooth_data.append(d)return smooth_data

sm表示滑动窗口大小,为2*k&＃43;1,

smoothed_y[t] &＃61; average(y[t-k], y[t-k&＃43;1], ..., y[t&＃43;k-1], y[t&＃43;k])

2.pandas

sns.tsplot可以使用pandas源数据作为数据输入,当使用pandas作为数据时,time,value,condition,unit选项将为pandas数据的列名.

其中time选项给出使用该列Series作为x轴数据,value选项表示使用该Series作为y轴数据,用unit来分辨这些数据是哪一次采样(每个x对应多个y),用condition选项表示这些数据来自哪一条曲线.

在openai 的spinning up中,将每次迭代的数据保存到了txt文件中,类似如下:

可以使用pd.read_table读取这个以"\t"分割的文件形成pandas

algo &＃61; ["ddpg_" &＃43; ENV, "td3_" &＃43; ENV, "ppo_" &＃43; ENV, "trpo_" &＃43; ENV, "vpg_" &＃43; ENV, "sac_" &＃43; ENV]data &＃61; []for i in range(len(algo)):for seed in range(SEED_NUM):file &＃61; os.path.join(os.path.join(algo[i], algo[i] &＃43; "_s" &＃43; str(seed*10)), "progress.txt")pd_data &＃61; pd.read_table(file)pd_data.insert(len(pd_data.columns), "Unit", seed)pd_data.insert(len(pd_data.columns), "Condition", algo[i])data.append(pd_data)data &＃61; pd.concat(data, ignore_index&＃61;True)sns.set(style&＃61;"darkgrid", font_scale&＃61;1.5)sns.tsplot(data&＃61;data, time&＃61;"TotalEnvInteracts", value&＃61;"AverageEpRet", condition&＃61;"Condition", unit&＃61;"Unit")#数据大时使用科学计数法xscale &＃61; np.max(data["TotalEnvInteracts"]) > 5e3if xscale:plt.ticklabel_format(style&＃61;&＃39;sci&＃39;, axis&＃61;&＃39;x&＃39;, scilimits&＃61;(0, 0))plt.legend(loc&＃61;&＃39;best&＃39;).set_draggable(True)plt.tight_layout(pad&＃61;0.5)plt.show()

程序参考了spinning up 的代码逻辑github.com/openai/spinn

绘制效果如下:

完整代码&＃xff1a;https://github.com/feidieufo/homework/tree/master/hw1

推荐阅读

get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
get
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
get
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
get
带添加按钮的GridView，item的删除事件

先上图片效果；gridView无数据时显示添加按钮，有数据时，第一格显示添加按钮，后面显示数据：布局文件：addr_manage.xml<?xmlve ... [详细]

蜡笔小新 2023-12-10 10:17:36
get
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
get
怎么在Android 应用中实现一个换肤功能

今天就跟大家聊聊有关怎么在Android应用中实现一个换肤功能，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根 ... [详细]

蜡笔小新 2023-10-17 19:36:15
get
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
get
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
get
欢乐的票圈重构之旅——RecyclerView的头尾布局增加

项目重构的Git地址：https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集：http:www.jianshu.comno ... [详细]

蜡笔小新 2023-12-11 19:09:56
get
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
get
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
python
Python使用Pillow包生成验证码图片的方法

本文介绍了使用Python中的Pillow包生成验证码图片的方法。通过随机生成数字和符号，并添加干扰象素，生成一幅验证码图片。需要配置好Python环境，并安装Pillow库。代码实现包括导入Pillow包和随机模块，定义随机生成字母、数字和字体颜色的函数。 ... [详细]

蜡笔小新 2023-12-10 16:51:25
get
花瓣|目标值_Compose 动画边学边做夏日彩虹

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Compose动画边学边做-夏日彩虹相关的知识，希望对你有一定的参考价值。引言Comp ... [详细]

蜡笔小新 2023-10-17 21:58:22
get
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
get
arraylist和linkedlist内部的实现大致是怎样的

1.ArrayList是实现了基于动态数组的数据结构，LinkedList基于链表的数据结构。 2.对于随机访问get和set，ArrayList优于LinkedList，因为Ar ... [详细]

蜡笔小新 2023-10-17 19:00:38

圣换少爷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章