【PRICAI 2025会议(CCF-C类)已录用论文】TBERT: Bridging Text Generation and Score Regression through Hierarchical Feature Fusion based LLM for Automated Essay Scoring
摘要:大多数现有的自动论文评分 (AES) 研究都侧重于提高分数预测的准确性,但通常将特征提取和分数预测视为独立任务,这限制了模型的可解释性,并忽略了反馈与分数之间的联系
研究背景与挑战
自动作文评分(Automated Essay Scoring, AES)旨在通过算法快速评估学生作文质量,解决人工评分中的主观差异问题。传统方法依赖手工特征工程或神经网络模型,但往往将特征提取与评分预测割裂,导致模型可解释性差,且无法生成针对性的反馈。近年来,基于大语言模型(LLM)的研究虽提升了语义理解能力,但仍未有效结合评分与反馈生成。本文提出的框架,通过融合BERT的全局语义编码与T5的层次化特征生成,实现了评分与反馈的协同优化。
方法创新:层次化特征融合与动态任务平衡
TBERT 框架将 BERT 的全局文档编码与 T5 的局部特征编码相结合,通过四个阶段实现:
- 层次特征提取:利用一个经过指令微调的 LLM (DeepSeek)
提取多层次的特征,包括特定词汇、短语和句子,这些特征与写作评估标准对齐,并用于生成可解释的反馈 。对于高分和低分论文,模型会设计不同的提取路径,分别侧重于学术词汇/修辞模式和基本词块/错误模式。 特征编码:使用 BERT 作为全局编码器来获取论文的综合表示,同时使用 T5 作为局部特征编码器来处理提取出的层次语言特征。 - 特征融合:通过一个融合层将 BERT 和 T5 编码的表示进行整合
。该层包括特征投影、多头注意力机制、特征拼接和非线性融合,旨在捕捉全局和层次特征之间的复杂关系。 - 联合优化:通过结合均方误差 (MSE) 和交叉熵损失来联合训练模型
。采用一种动态加权机制,根据训练的迭代次数逐渐将模型的重点从反馈生成转移到分数回归。
核心创新点:
- 评分驱动的层次化特征提取:通过设计结构化提示(Prompt),从词汇、短语到句子层面提取与评分标准对齐的特征。例如,高分作文关注学术词汇与连贯结构,低分作文则聚焦重复性表达。
- 注意力驱动的特征融合:通过多头部注意力机制,动态融合BERT的全局文档特征与T5的局部结构特征,捕捉互补的写作特性。
- 动态任务加权机制:训练过程中自适应平衡回归与生成任务,初期侧重特征发现,后期优化评分准确性。
实验结果:长文本评分与可解释性提升
在ASAP数据集上的实验表明,我们的模型在叙事类长文本(如P8,平均长度650词)中表现突出,QWK分数较基线模型R²BERT提升4.7%。其层次化特征提取能力有效缓解了传统模型因文本截断导致的长程依赖丢失问题。
通过定量分析,研究发现TBERT提取的特征(如词汇、短语和句子数量)与论文分数呈正相关,且在统计学上具有显著性。定性分析也表明,TBERT能够为不同评分等级的论文提取出相应的语言特征,从而提供有针对性的反馈。
消融实验表明,TBERT在移除短语级特征后 (TBERT-word+sent) 获得了最高的QWK分数 (0.800),这表明短语级特征可能存在一定程度的冗余。此外,移除 T5组件会显著降低模型的平均QWK分数至0.784,这强调了T5在增强文本生成和协作优化中的关键作用。
此外,案例研究显示,TBERT在一个真实分数为40的论文上准确预测了分数,而缺乏T5组件的模型则预测错误。这表明TBERT的生成反馈机制有助于提高评分准确性。此外,生成的反馈(如核心词汇与句子)与评分高度相关,能帮助教师和学生理解评分依据。
未来展望与局限
TBERT模型在自动论文评分任务中表现出色,特别是在说服性和叙事性写作上。研究表明,多任务和多损失目标能有效提升模型整体性能。此外,利用LLM提取的词汇、短语和句子等层次特征不仅有助于评分过程,还能为师生提供宝贵的反馈。未来的工作将侧重于优化特征提取方法和验证模型的泛化能力。
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/597
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。