引言
- 对于生成的声音,如何进行评价,一般是通过计算FAD、FID、KL等不同系数,但是并没有相关的库文件.这里找到了一个在很多项目中都使用的库。
正文
- 下述为这个测试包需要安装的环境,如果直接安装,会默认安装最新的,然后会出很多问题。
"torch>=1.11.0",
"torchaudio",
"scikit-image",
"torchlibrosa",
"absl-py",
"scipy",
"tqdm",
"ssr_eval",
"librosa",
- 这里一个一个做了测试,并列举出每一个包拥有的版本号
torchlibrosa== (from versions: 0.0.1, 0.0.2, 0.0.3, 0.0.4, 0.0.5, 0.0.6, 0.0.7, 0.0.8, 0.0.9, 0.0.10, 0.1.0)
- 注意,这里要选择0.8.0,新版的很多函数发生了改变,不然会出现函数调用的问题。
- 最重要的是使用linux的系统,安装的pytorch最好是1.12.0或者1.13.0
问题一:模型下载不了
- 下载VGGish,打不开对应的网页。直接跳转到对应的网页,下载,然后放到对应的位置。
问题二 TypeError: pad_center() takes 1 positional argument but 2 were given
- 安装librosa的版本为0.8.0,然后在继续使用。
问题三 AttributeError: module ‘numpy’ has no attribute ‘complex’.
结果