学术动态

当前位置: 首页 学术动态 正文
我院本科生孙启源以第一作者身份在IEEE情感计算汇刊《IEEE Transactions on Affective Computing》发表论文

发布日期:2025-04-22来源:

近日,我院刘瑞教授课题组22级本科生孙启源关于”鲁棒多模态情感识别”的工作《Connecting Cross-Modal Representations for Compact and Robust Multimodal Sentiment Analysis with Sentiment Word Substitution Error》被IEEE情感计算汇刊《IEEE Transactions on Affective Computing》录用。

《IEEE Transactions on Affective Computing》是情感计算领域国际顶级期刊、中国人工智能学会推荐A类学术期刊、中科院一区Top期刊。该研究受到国家自然科学基金面上项目、青年基金项目;中国科协青年人才托举工程项目、122大阳城集团网站骏马计划项目等项目的支持,在刘瑞教授指导下完成。122大阳城集团网站为第一单位和通讯单位。

现实场景下多模态情感时第三方语音识别(ASR)引擎可能会错误地就将语句中情感词识别为发音相似的中性词,导致文本信息中的情感退化,从而影响后续多模态情感识别效果。孙启源同学在刘瑞教授的指导下,以第一作者身份完成论文相关工作,提出了“Alignment, Refinement and Fusion” 一站式解决方案,在MOSI-SpeechBrain, MOSI-IBM, MOSI-iFlytek 三个基准数据集上都取得领先效果。以下为成果简述:

Connecting Cross-Modal Representations for Compact and Robust Multimodal Sentiment Analysis with Sentiment Word Substitution Error

论文作者:孙启源,左昊麟,刘瑞,李海洲

多模态情感分析(MSA)融合文本、声学和视觉信息来有效地预测说话人的情感状态。然而,在现实世界场景中,MSA系统接收到的文本模态通常是通过语音识别(ASR)模型获得的。不幸的是,ASR可能会错误地将情感词识别为语音相似的中性替代,从而导致文本中的情感退化并影响MSA的准确性。最近的尝试旨在首先识别ASR结果中的情感词替换(SWS)错误,然后使用多模态信息细化损坏的词嵌入以进行最终的多模态融合。然而,这样的方法包括繁琐和模棱两可的检测操作,并且忽略了不同模态之间固有的相关性和异质性。为了解决这些问题,我们提出了一个更紧凑的系统,称为ARF-MSA,由三个关键组件组成,以实现具有SWS错误的鲁棒MSA: 1)对齐:我们在“文本-声学”和“文本-视觉”表示之间建立连接,通过利用它们的多模态相关知识,有效地将“text-acoustic-visual”数据映射到统一的情感空间;2)细化:我们在统一情感空间中对文本模态和其他两种模态进行细粒度比较,从而更简洁地细化文本模态中的情感表达;3)融合:最后,我们分层融合来自三种异构模态的主导和非主导表示,以获得MSA的多模态特征。我们在真实世界的数据集上进行了广泛的实验,结果证明了我们模型的有效性。代码可在:https://github.com/ARFMSA/ARF-MSA获得。

论文地址:https://ieeexplore.ieee.org/document/10741889

我院本科生以第一作者身份在中科研一区Top期刊上发表论文,是学院坚持立德树人根本任务,深化教育教学改革,大力践行“科研育人”,积极搭建本科生参与高水平研究的科研与创新平台,加强学生科研兴趣和创新能力培养,以科研反哺教学的成果体现。

地址:内蒙古呼和浩特市大学西路235号太阳成集团tyc122cc

版权所有 © 太阳成集团(tyc122cc-VIP认证)官方网站

官方微信