近期,小米展示了全尺寸人形仿生机器人CyberOne。据悉,CyberOne身高177CM、体重52KG,艺名“铁大”,能够感知人类情绪、视觉敏锐、可实现双足运动姿态平衡。同时,这款全尺寸人形仿生机器人能够感知45种人类语意情绪,拥有8米内深度信息精度可达1%。小米集团创始人、董事长兼CEO雷军表示,CyberOne以人工智能为内核,以标准人形为载体,是小米对未来科技生态的一次探索,也是小米多元融合技术体系的新成果。该机器人最让人惊艳的是其45种人类语义情绪感知能力,让机器人不再是冰冷的金属材料拼接,变得心灵有“温度”可感知。
语义情感分析
语义情感分析属于知识挖掘的范畴,包含信息抽取、观点挖掘、标签建设、图谱建设等任务。情感分析又称倾向性分析,或意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。利用情感分析能力,可以针对带有主观描述的自然语言文本,自动判断该文本的情感正负倾向,并给出相应的结果。
主流技术
目前主流技术主要分为两种。一种是基于情感词典的情感分析。是指根据已构建的情感词典,对待分析文本进行文本处理,抽取情感词、计算该文本的情感倾向。最终分类效果,取决于情感词典的完善性。
另外一种是基于机器学习的情感分析。是指选取情感词作为特征词,将文本矩阵化,利用逻辑回归(Logistic Regression),朴素贝叶斯(Naive Bayes),支持向量机(SVM)以及神经网络(Neural Networks)等方法进行分类。最终分类效果,取决于训练文本的选择以及正确的情感标注。
目前有些研究者将二者结合,例如某些领域的文本没有标注,该领域的情感词典也不够完善,而人工标注需要耗费大量成本,数据的采集相对于人工成本小很多时;可以选取部分文本,利用基本情感词典的方法粗略地计算这些文本的情感得分值,选取分值偏高或偏低的文本作为已标注的训练文本,再结合机器学习的方法进行分析。根据语义分析的粒度不同,又分为文档级别、句子级别、对象级别、词汇级别的情感分析。
发展趋势
近年来,NLP领域的SOTA模型基本都是基于预训练的,目前大多情感分析任务都是在预训练模型的基础上进行,综述文章《S. Poria, D. Hazarika, N. Majumder, and R. Mihalcea. Beneath the tip of the iceberg: Current challenges and》 列举了IMDB、SST-2/5、Semeval 数据集在不同方法上的指标,SOTA情感分析模型的结果无一例外都是基于预训练模型。
虽然业界 SOTA 模型在一些粗粒度情感数据集上能达到超过 95% 的准确率,但在细粒度和复杂任务上,目前的效果还远不如人类水平。同时情感分析模型在多个场景的迁移能力较差,需要更多的学者研究多域自适应算法解决这一问题。
对于应用场景方面,随着电商、智能客服、舆论媒体、社交媒体、人形机器人等技术的发展,情感分析在这些方向都能落地。也许,未来有一天,你会发现,这个世界上最懂你的是人形机器人。