论文名称:BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION(ICASSP2022)
代码地址:暂无
ResNet-IBN模块:沿用bytecover的ResNet-IBN作为backbone,IBN block的stride调整为1,添加max pool池化层。
PCA-FC模块:假设输入特征为X=CxN
PCA降维:(学习链接【机器学习】降维——PCA(非常详细) - 知乎)
PCA降维目标:
要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以转换到新的特征空间,同时希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。
将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。
PCA降维步骤:X为输入音频特征CxN,公式3求协方差矩阵,挑选协方差矩阵top-k个最大的特征值对应的特征向量组成U,R(X)表示降维后的音频特征
FC降维:
FC降维步骤:简单粗暴
FC降维问题:随机初始化的FC层降维效果差,FC层作为降维模块来说缺乏了限制,不能在降维后很好的保留重要信息。
PCA-FC降维:将PCA的特征矩阵作为FC层W权重的初始化参数,从而引入先验知识和限制,而后该层参数随着抽特征模块一同优化。