看了文章之后发现文章中并没有很明确的给出采用高维的像素输入应该如蛇涉及网络的结构,不知是否是自己没有阅读仔细。看了很多网上关于DDPG的例子,包括使用DDPG玩赛车游戏TORCS,也是使用的地位的传感器数据。
1楼
这个问题我之前也思考了很长时间,目前也没有找到比较通用的方式,不过我做了一些小的实验,楼主可以参考一下。首先我使用的测试环境是gym环境中的Pendulum,也是连续控制里的经典问题。
具体的State,Action, Rewad就不一一介绍,关于输入的raw pixel的处理方面我采用的是CNN,输入时连续的四帧image,详情如下:
第一层: 卷积核 (4x4x32x64) 步长为2 ,后接2x2的max pooling层
第二层: 卷积核(4x4x32x64) 步长为2 ,后接2x2的max pooling层
第三层: 卷积核 (3x3x32x64) 步长为1 ,后接2x2的max pooling层
经过这个实验猜想为什么DDPG使用高维数据输入训练不易,从连续动作空间与离散动作空间的方面猜想,离散动作空间更易探索,这样的话更容易前面特征层的提取。而连续动作空间相反,并且连续动作空间更容易受特征的微小改变而改变。
2楼
厉害
3楼
多看下例程
4楼
深度学习,AI这些听起来很难一般人也没有接触