逆强化学习

1.逆强化学习的理论框架

1.teacher的行为被定义成best

2.学习的网络有两个，actor和reward

3.每次迭代中通过比较actor与teacher的行为来更新reward function，基于新的reward function来更新actor使得actor获得的reward最大。

loss的设计相当于一个排序问题，实际中多使用最大熵loss:

-log(sigmoid(P_label - P_actor))

IRL与GAN在原理上相似，actor对应generator，reward function对应 discriminator，真实图片对应专家数据。

相关阅读:
金仓数据库KingbaseES客户端应用参考手册--4. createuser
518企业年会抽奖软件，支持撤消、轮空缺席弃奖
云原生之使用Docker部署Mariadb数据库
图片格式 jpg png gif webp svg
MCU的环形FIFO
二叉树常见问题
(免费分享)基于springboot医院管理系统
国内CRM软件系统厂商排名
短视频账号矩阵源码saas开发-----
HTTP协议中GET请求和POST请求的区别

原文地址：https://blog.csdn.net/yumao1/article/details/133563324