本文中Multi-Robot System (MRS) 并不局限于机器人,指代的是UAV和UGV 要求:安全到达指定地点,尽量选择短距离、短时间
介绍了无人机和自动驾驶:
UAV:3D path planning,要调整飞行高度,需要考虑天气大风等影响因素
UGV:2D,有一定局限性,因为不能像无人机一样跨过障碍;自主性更强,可以到达较远的地点
2.Multi-robots systems
定义:Multi-Robot Systems includes all those groups formed by two or more robots sharing the same work space. (机械臂、无人机、自动驾驶汽车等)
相关术语: ① Multi-Robot Systems:包含多个机器人的系统,很广的概念 ② Multi-Agent System:多个能够相互交互的智能agent组成的系统,不仅仅属于机器人领域,生物学、心理学等领域也适用 ③ Robotic Swarms:一般与可伸缩性,机器人间的通信有关 ④ Sensor Networks:传感器网络
控制和决策结构: ① Centralized Architecture 中心化结构,拥有一个通信中心,通信会受到距离影响/通讯设备,一旦中心被破坏,就糟糕了 ②Decentralized Architecture 非中心化结构,分为 分布式架构 or 层次架构
常用术语: ① Path-planning:找到一条连续的路 in C-space(free space & obstacle space),可能不是平滑的;侧重于提供解方案(找到就行,不要求最优) feasibility,Optimality ② Optimal Path Planning:有cost function,需要优化代价函数 ③ Trajectory Planning:考虑到了车辆的动态特性,速度、加速度
模拟生物学行为, not being fully deterministic, presenting parallel structures, and being adaptive
3.4.1. Neuronal network
文中给出的related work:
CNN分析环境,DQN生成action;
利用MADDPG;
WoLFPHC (Win or Learn Fast Policy Hill-Climbing):解决了学习速度慢、在未知环境难以学习等问题;每个智能体只用保存自己的动作来完成学习任务。 WolF是指,当智能体做的比期望值好的时候小心缓慢的调整参数,当智能体做的比期望值差的时候,加快步伐调整参数。 PHC是一种单智能体在稳定环境下的一种学习算法。该算法的核心就是通常强化学习的思想,增大能够得到最大累积期望的动作的选取概率。该算法具有合理性,能够收敛到最优策略。其算法流程如下