比赛链接:
比赛开始日期:2022/07/15 00:00:00
比赛截止日期:2022/09/15 12:00:00
赛道:re:Invent 2018
规则:5圈总计时间最短排名,出界一次罚时3秒

2022/09/13:
1. 完成率优先 progress/steps 给较大系数
2. 以小车当前位置与最优线路的距离为基数 乘以 速度的n次方
3. 根据最优线路计算不同位置的转角范围给第2步的结果一个合适的系数
4. 将上述结果相加
speed: [0.8,1.6]
steer: [-20,30]
batch size: 512
learn rate: 0.0005
max episodes: 300

5圈平均时间 65s, 单圈 13s
speed: [1,1.8]
steer: [-20,30]
batch size: 512
learn rate: 0.0004
max episodes: 160

5圈平均时间 60s, 单圈 12s
速度不快时,小车还是能稳定走最优线路
最快一圈: 11.405s

11.543s

最慢的一圈: 16.691, 可以看到在切弯的时候出界了,本地设置时出界一次5s,也就是差不多平均每圈接近12s

speed: [0.9,2.0]
steer: [-20,30]
batch size: 256
learn rate: 0.0004
max episodes: 120

单圈大概 11.1654s
speed: [1.0,2.0]
steer: [-20,30]
batch size: 256
learn rate: 0.0003
max episodes: 140

平均单圈成绩: 105.329/10= 10.5329s
最快一圈: 9.928s

最慢一圈: 11.190s

从小车轨迹可以看出随着速度的增加,小车与最优线路的重合度变小了,并且通过小车的数据来看在转弯之前的速度较小,于是在[1.0,2.0] 这个速度段我修改了reward_function.py策略里面的一些参数再训练了一次。
speed: [1.0,2.0]
steer: [-20,25]
batch size: 256
learn rate: 0.0003
max episodes: 140

最快一圈: 9.254s

最慢一圈: 10.782s

结论: 由于发现上面的策略在速度大的时候很难保持最优线路的拟合,估计后期的迭代很难提高速度,考虑再三我放弃了这个策略,决定优化策略之后再重新训练,我将上述结果上传到比赛后的成绩。

第一页排名:

1. 完成率优先 progress/steps 给较大系数
2. 以小车当前位置与最优线路的距离为基数 乘以 速度的n次方
3. 根据最优线路计算不同位置的转角范围给第2步的结果一个合适的系数
4. 将上述结果相乘
Pending