最近看google的机器人抓取算法QT-Opt
,该方法通过stochastic search
为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection
,以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods
,最终搞懂了stochastic search
的原理。
也称为 stochastic optimazation。
大概思路是:首先随机选择一些actions,然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中,常用的随机选择actions的方法如下:
1、随机均匀采样
:以当前机械臂末端位置为中心,随机均匀采样
n
n
n个actions。该篇论文的
n
=
16
n=16
n=16。
2、cross-entropy optimization method
:
(1)假设action满足均值为机械臂末端当前位置的高斯分布,
(2)以上述高斯分布随机选择
M
M
M个action
(3)计算每个action的Q-value
(4)选取Q最高的
N
N
N个action,计算这组action的均值和方差,并更新上述高斯分布的均值和方差
重复步骤(2-4)
n
n
n次,最终得到
N
N
N个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection
论文中
M
=
64
,
N
=
6
M=64,N=6
M=64,N=6,步骤(2-4)重复了3次。
cross-entropy optimization method
的介绍可以参考http://t.csdn.cn/FlcOt。