openXBOW的使用（2）

示例4：使用词袋在推文（纯文本）中进行情绪分析

可设置最小词频降低词向量空间，也可设置最大词频来排除常见词

手动将csv文件切分成训练和测试部分：


def split_csv(train_num):
    data=pd.read_csv(r"F:\openXBOW\openXBOW-master\Sentiment Analysis Dataset.csv",error_bad_lines=False) # error_bad_lines忽略报错行  ,delimiter="\t"
    train_data=data.iloc[0:train_num] # iloc：索引从0开始
    train_file_path=r"F:\openXBOW\openXBOW-master\Sentiment analysis Dataset - train.csv"
    train_data.to_csv(train_file_path,index=False) # index 设置为false表示不写行序号
    test_data=data.iloc[train_num+1:]
    test_file_path=r"F:\openXBOW\openXBOW-master\Sentiment Analysis Dataset - test.csv" 
    test_data.to_csv(test_file_path,index=False)

将切分出来的训练集生成codebook，然后用于分析测试集：


java -Xmx12000m -jar openXBOW.jar -i "Sentiment Analysis Dataset - train.csv" -attributes ncr0 -o bowTwitter-train.arff -minTermFreq 2000 -B dictionaryTwitter
 
java -Xmx12000m -jar openXBOW.jar -i "Sentiment Analysis Dataset - test.csv" -attributes ncr0 -o bowTwitter-test.arff -b dictionaryTwitter
    
解析：“-Xmx12000m”增加堆空间。-minTermFreq 设置最小词频

使用2-gram：


java -Xmx12000m -jar openXBOW.jar -i "Sentiment Analysis Dataset - train.csv" -attributes ncr0 -o bowTwitter-train.arff -nGram 2 -minTermFreq 2000 -B dictionaryTwitter
 
解析：-nGrams 指定n grams
 
java -Xmx12000m -jar openXBOW.jar -i "Sentiment Analysis Dataset - test.csv" -attributes ncr0 -o bowTwitter-test.arff -nGram 2 -b dictionaryTwitter

示例5：在音频分类任务中应用openXBOW

预处理：
1. 使用opensmilec抽取LLDs(ComParE)，opensmile不支持EmoDB中的32位 wav文件，需要使用sox将文件转为16位的
2. 要求说话人独立的训练和测试，为实现可信的对未知说话人的估计：使用id为03,08,09,10作为测试集剩余的6个说话人作为训练集。需要一个每个示例都带有标签的测试文件。
3. 情感缩写对应：A=fear,E=disgust,F=happiness,L=boredom,N=neutral,T=sadness,W=anger

实践：（具体路径根据实际修改）


IOTRAIN="-i examples/example5/audio_llds_train.csv -o examples/example5/xbow_train.arff -l examples/example5/labels_train.csv -B examples/example5/codebook" 
 
IOTEST="-i examples/example5/audio_llds_test.csv -o examples/example5/xbow_test.arff -l examples/example5/labels_test.csv -b examples/example5/codebook"
 
# java -jar openXBOW.jar $IOTRAIN
# 优化 :增加参数：-standardizeInput 从34%提升到73%
java -jar openXBOW.jar $IOTRAIN -standardizeInput
 
# 增加codebook大小：精度：0.792
java -jar openXBOW.jar $IOTRAIN -standardizeInput -log -size 1000
 
# 精度降低了?变成了0.354 
java -jar openXBOW.jar $IOTRAIN -standardizeInput -log -size 1000 -a 5 -attributes nt1[65]2[65]
 
# 使用 weka判断精度：
java -classpath "E:\Weka-3-8-5\weka.jar" weka.classifiers.functions.SMO -t examples/example5/xbow_train.arff
    # 解析：选择分类器SMO并进行10倍交叉验证（CV）进行评估
 
# 测试集：
java -jar openXBOW.jar $IOTEST
 
# 计算测试集的精度：0.742
java -classpath "E:\Weka-3-8-5\weka.jar" weka.classifiers.functions.SMO -t examples/example5/xbow_test.arff

测试时不学习codebook

相关阅读:
MySQL备份与恢复
为什么说指针是 C 语言的精髓？
计算机网络_实验5_集线器与交换机对比
优化 cesium 界面广告牌（billboard）数据量大于 10w ＋时，地图加载缓慢、卡顿、加载完成后浏览器严重卡顿甚至崩溃问题
【Kotlin】初识Kotlin（二）
【和小白一起学elk】CH1：elasticsearch8.4.1及其插件head和kibana的安装
Jmeter中http请求时加HTTP Cookie管理器，cookie不生效问题
数据挖掘项目（一）
Vulnhub_CTF-4
[答疑]微信餐馆案例中，“启动二维码对应的程序”这个用例合理吗

原文地址：https://blog.csdn.net/weixin_45647721/article/details/126759793