【在审论文】通过基于分层特征融合的LLM以桥接文本生成和分数回归的自动作文评分
摘要:大多数现有的自动作文评分研究都集中在学习特征表示上,以提高评分预测的准确性。然而,早期的研究都集中在手工设计的特征工程上,而最近的方法则利用神经网络来建模各种作文结构特征这种分离导致特征提取和评分预测作为独立的任务处理,从而限制了可解释性并忽视了作文反馈和作文分数之间的有意义联系。为了应对这一挑战,我们提出了一种新的框架,它有效地将回归评分与反馈生成相结合。不仅提高了评分准确性,还提供了有针对性的反馈,从而推进了整体评估过程。在公开数据集上进行的广泛实验证明了我们提出的方法的有效性和可解释性,特别强调了其在以下方面的优势:叙事散文中的概念适应能力长篇作品。
本篇论文为英文论文,为不影响在审,仅用中文简单介绍论文核心内容。后续审稿结束将会补充英文版本的博客并配上图片
研究背景与挑战
自动作文评分(Automated Essay Scoring, AES)旨在通过算法快速评估学生作文质量,解决人工评分中的主观差异问题。传统方法依赖手工特征工程或神经网络模型,但往往将特征提取与评分预测割裂,导致模型可解释性差,且无法生成针对性的反馈。近年来,基于大语言模型(LLM)的研究虽提升了语义理解能力,但仍未有效结合评分与反馈生成。本文提出的框架,通过融合BERT的全局语义编码与T5的层次化特征生成,实现了评分与反馈的协同优化。
方法创新:层次化特征融合与动态任务平衡
核心创新点:
- 评分驱动的层次化特征提取:通过设计结构化提示(Prompt),从词汇、短语到句子层面提取与评分标准对齐的特征。例如,高分作文关注学术词汇与连贯结构,低分作文则聚焦重复性表达。
- 注意力驱动的特征融合:通过多头部注意力机制,动态融合BERT的全局文档特征与T5的局部结构特征,捕捉互补的写作特性。
- 动态任务加权机制:训练过程中自适应平衡回归与生成任务,初期侧重特征发现,后期优化评分准确性。
实验结果:长文本评分与可解释性提升
在ASAP数据集上的实验表明,我们的模型在叙事类长文本(如P8,平均长度650词)中表现突出,QWK分数较基线模型R²BERT提升4.7%。其层次化特征提取能力有效缓解了传统模型因文本截断导致的长程依赖丢失问题。此外,案例研究显示,我们的模型生成的反馈(如核心词汇与句子)与评分高度相关,能帮助教师和学生理解评分依据。
未来展望与局限
尽管我们的模型在评分准确性与反馈生成上取得突破,但仍面临数据泛化性、长文本处理效率等挑战。未来工作将探索动态分块策略与稀疏注意力机制,以进一步提升模型性能。此外,如何通过可视化技术增强模型透明度,确保评分公平性,也是重要研究方向。
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/597
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。