MLAgents (0) Unity 安装及运行

1、下载ML-Agents

下载地址

GitHub - Unity-Technologies/ml-agents: The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents using deep reinforcement learning and imitation learning.

在develop-Tags中，选择release_18

下载zip文件，解压

2、anaconda配置pytorch环境

conda create -n 名称 python=3.9.9

注意：Python 3.9.10 以上目前与mlagents-learn 套件不相容，会出现错误TypeError: Invalid first argument to `register()`. typing.Dict[mlagents.trainers.settings.RewardSignalType, mlagents.trainers.settings.RewardSignalSettings] is not a class.

conda activate 名称

激活环境

在环境中安装pytorch

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge

安装完成后，执行python-->import torch-->torch.cuda.is_available()

如果为true，则安装成功

3、安装ml-agents-release_18所需要的库

在anaconda激活的环境中

（1）cd ml-agents-release_18的文件目录

定位到ml-agents-envs，在文件夹中创建文件setup.cfg清华源加快下载速度

[easy_install]

index_url = https://pypi.tuna.tsinghua.edu.cn/simple

执行命令 python setup.py install

安装库

安装出现 Finished processing dependencies for mlagents-envs==0.27.0

则为安装成功

（2）cd .. --> cd ml-agents

也增加setup.cfg文件

执行命令 python setup.py install

出现错误：error: urllib3 2.0.4 is installed but urllib3<2.0 is required by {'google-auth'}

执行：pip uninstall urllib3

pip install -i https://pypi.douban.com/simple urllib3=1.26.9

重新安装urllib3

再次执行python setup.py install

当出现 Finished processing dependencies for mlagents==0.27.0

即为安装完成

4、在unity中 Window--> Package Manager

找到 com.unity.ml-agents，导入package.json

等待安装完成

之后可以搭建环境，并设置参数等

5、开启ml-agents，运行项目

在unity项目中，创建training-->xxx_config.yamlzheshi


behaviors:
  RB:
    trainer_type: ppo
    hyperparameters:
      batch_size: 10
      buffer_size: 100
      learning_rate: 0.0003
      beta: 0.0005
      epsilon: 0.2
      lambd: 0.99
      num_epoch: 3
      learning_rate_schedule: linear
    network_settings:
      normalize: false
      hidden_units: 128
      num_layers: 2
    reward_signals:
      extrinsic:
        gamma: 0.99
        strength: 1.0
    max_steps: 500000
    time_horizon: 64
    summary_freq: 10000