研究经历
研究方向1: 大语言模型微调及应用 2023.01-至今
针对大模型复杂推理能力的某指令微调方法
项目摘要
目前有投稿计划,因此暂不提供背景介绍和具体细节。
- 项目时间:2023.05-今
- 项目内容:设计了一种高质量复杂推理数据集的自动化生成框架,并基于LoRA对流行的开源大语言模型进行指令微调.
- 指导教师:赵海 教授
- 个人贡献:第一作者
- 关键词:大语言模型,思维链,复杂推理,指令微调
研究方向2: 自然语言处理问答系统 2021.02-2022.12
针对开放域文章检索的句级感知对比学习
项目摘要
通过对比学习训练密集的段落表示已经被证明对于开放领域段落检索(ODPR)非常有效。现有的研究侧重于通过改进负采样策略或额外的预训练来进一步优化。然而,这些研究在捕捉由于不适当的建模粒度而导致内部表示冲突的段落方面仍然是未知的。具体而言,根据我们的观察,一个段落可以由多个语义上不同的句子组织,将这样的段落建模为统一的密集向量并不是最优的。
因此,本文提出了一个基于较小粒度(上下文句子)的精细模型,以减轻相关的冲突。具体而言,我们引入了一种段落内负采样策略,以鼓励在同一个段落中生成多样化的句子表示。在三个基准数据集上的实验验证了我们方法的有效性,特别是在冲突严重的数据集上。广泛的实验证明了我们方法在数据集之间具有良好的可转移性。
- 项目时间:2021.07-2021.10
- 项目内容:我们提出了一个基于较小粒度(上下文句子)的精细模型,以减轻相关的冲突。具体而言,我们引入了一种段落内负采样策略,以鼓励在同一个段落中生成多样化的句子表示。在三个基准数据集上的实验验证了我们方法的有效性,特别是在冲突严重的数据集上。广泛的实验证明了我们方法在数据集之间具有良好的可转移性。
- 指导教师:赵海 教授
- 个人贡献:第三作者,论文发表在 ACL2022
- 相关链接:论文 | 代码
- 关键词:上下文语言模型,机器阅读理解,自然语言处理,SQuAD2.0,深度学习
- 论文引用: Bohong Wu, Zhuosheng Zhang, Jinyuan Wang, and Hai Zhao. 2022. Sentence-aware Contrastive Learning for Open-Domain Passage Retrieval. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1062–1074, Dublin, Ireland. Association for Computational Linguistics.
针对ASI攻击的解耦合段落匹配方法
项目摘要
最近,预训练的上下文化语言模型(PrLMs)在提升各种自然语言理解系统的性能方面取得了显著的成功。然而,有意制作的对抗样本仍然可以欺骗PrLMs,并导致其做出错误的预测。对抗性句子插入(ASI)是对抽取式机器阅读理解(MRC)任务最具挑战性的攻击方法之一,它攻击了上下文化语言嵌入,并导致有偏见的上下文理解。现有的通用防御方法在传递性方面存在问题,然而很少有研究致力于解决这种威胁。
本文提出了一种针对ASI攻击的解耦合段落匹配(DPM)方法,采用两阶段框架。实验结果表明,与对抗训练方法相比,DPM具有良好的性能,并且对不同的ASI策略具有较强的传递性。
- 项目时间:2021.10-2022.02
- 项目内容:本文提出了一种针对ASI攻击的解耦合段落匹配(DPM)方法,采用两阶段框架。实验结果表明,与对抗训练方法相比,DPM具有良好的性能,并且对不同的ASI策略具有较强的传递性。
- 指导教师:赵海 教授
- 个人贡献:第一作者
- 论文链接:暂无
- 关键词:上下文语言模型,抽取式阅读理解,对抗性句子插入
基于上下文语言模型的机器阅读理解系统及优化
项目摘要
近年来,随着深度学习的蓬勃发展,基于Transformer模型的深度预训练上下文语言模型(CLM)逐渐成为NLP领域的主流编码器。深度预训练CLM在文章理解方面有较好的表现,目前的阅读器在文章阅读和语义推理方面已经足够优秀。然而,对MRC系统的错误回答进行研究之后,我们发现阅读器有时会给出一些语义上完全正确,但形式上部分正确的答案。
因此,我们认为在现有的评估体系下,MRC系统的性能很可能并没有被充分发挥出来。在本课题中,我们提出了一种基于深度预训练CLM的多模块化的MRC系统,它针对特定数据集的回答风格进行学习,以更好发挥阅读器的性能。在SQuAD2.0任务上,六种深度预训练CLM的实验结果证明我们提出的MRC系统设计合理,并且系统性能显著超过同型号的2020年的冠军系统Retro-Reader。
研究方向3: 深度学习相关应用 2019.02-2022.03
基于脑电信号的情绪识别中的跨对象域适应研究
项目摘要
情绪识别在许多精神障碍的诊断和治疗以及情感计算中起着重要作用。脑电图 (EEG) 是最常用的生理信号之一,已被证明是一种可靠且合适的情绪识别工具。然而,受试者之间的个体差异和脑电图的非平稳特性限制了情感脑机接口在现实世界应用中的推广。
在本文中,我们研究了几种现有的情绪识别与域适应方法。 此外,我们提出了一种针对基于 EEG 的情绪识别定制的对抗性自动编码器,这在计算机视觉领域非常有效。与上述方法相比,我们提出的模型在 SJTU 情绪脑电数据集 (SEED) 上平均达到了 75.6% 的准确率和最低的 (0.0068) 标准差。
基于图形拓扑和文章检索的链接预测方法
项目摘要
链接预测是预测网络中两个实体之间是否存在链接的问题,这对于挖掘和分析网络的演化具有重要意义。近年来,链接预测的挑战在许多领域引起了广泛关注,例如预测社交网络中的用户关系和预测推荐系统中最有可能选择的项目。在过去的几十年里,链接预测在特征提取和预测器设计方面取得了巨大突破。
在本文中,我们建议使用最先进的(SOTA)深度学习方法来解决链接预测问题,包括图卷积、预训练语言模型(PrLM)和段落检索领域的双编码器框架。除此之外,我们具有提取特征的传统机器学习模型在 Kaggle 排行榜上获得了第 4 名。 我们的代码已开源。
- 项目时间:2022.03-2022.04
- 项目内容:在本文中,我们使用最先进的(SOTA)深度学习方法来解决链接预测问题,包括图卷积、预训练语言模型(PrLM)和段落检索领域的双编码器框架。除此之外,我们具有提取特征的传统机器学习模型在 Kaggle 排行榜上获得了第 4 名。 我们的代码已开源。
- 指导教师:Michalis Vazirgiannis 教授
- 个人贡献:第一作者,负责基于文章检索的链接预测
- 论文链接:
- 关键词:链接预测、引文网络、图卷积、段落检索、逻辑回归。
基于卷积神经网络的高能粒子径迹辨识
项目摘要
在震荡实验中发现发现中微子的质量之后,寻找无中微子双贝塔衰变(NLDBD)被认为是目前探索中微子性质最有希望的技术。由上海交通大学发起的PandaX-III期实验在中国锦屏山地下实验室(CJPL)搭建了一个包含200kg纯度为90%的Xe-136浓缩气体的高压气体时间投射室(TPC),用来检测Xe-136的无中微子双贝塔衰变现象。
本文基于PandaX-III实验,主要研究TPC内像素读出与条读出方式对于信号辨识的影响,以期为识别无中微子双贝塔衰变径迹的实践提供参考。我们使用蒙特卡洛模拟法对PandaX-III探测器中的TPC进行理想化建模,分别采用条读出和像素读出的方式进行仿真,然后采用主成分分析法来进行降维,并将更多信息保存在二维空间用于模型训练与实验对比。借助深度学习的方法,我们发现包含更多信息的像素读出方式可以提高模型的准确性,然而条读出的预测结果对于信号的识别更具优势。
- 项目名称:PandaX-III实验中读出精度对Xe-136无中微子双贝塔衰变识别的影响
- 项目时间:2019.10-2021.02
- 项目内容:在本文中,我们使用蒙特卡洛模拟法对PandaX-III探测器中的TPC进行理想化建模,分别采用条读出和像素读出的方式进行仿真,然后采用主成分分析法来进行降维,并将更多信息保存在二维空间用于模型训练与实验对比。借助深度学习的方法,我们发现包含更多信息的像素读出方式可以提高模型的准确性,然而条读出的预测结果对于信号的识别更具优势。
- 指导教师:王少博 副教授
- 个人贡献:队长,负责数据处理、模型训练和数据可视化
- 论文链接:
- 关键词:无中微子双贝塔衰变,PandaX-III,像素读出,PCA,机器学习
基于注意力机制的单图像人群计数和密度估计
项目摘要
估计人群密度长期以来一直是计算机视觉领域的一项具有挑战性的任务。 然而,已经被证明有效的注意力机制和可变形卷积在该领域很少使用。
在本研究中,我们在我们提出的网络中引入了基于注意力机制的注意力生成网络以及基于多列可变形卷积层的密度估计网络。 结果表明,估计精度和鲁棒性都有显着提高。 我们的工作表明注意力机制和可变形卷积在人群密度估计中是有效的。