【清深CVML组实习】基于LLM的图表理解-文献阅读汇报
摘要:图表对于呈现和解释复杂的数据关系非常重要。最近,多模态大型语言模型(MLLMS)在图表理解方面表现出显著的能力。然而,这些模型的庞大规模限制了它们在资源受限环境中的应用。本文提出了Tiny-Chart,一种仅具有3B参数的图表理解高效MLLM。TinyChart克服了高效图表理解中的两个关键挑战:1)通过思想程序(PoT)学习减少学习数值计算的负担,该方法训练模型生成用于数值计算的Python程序;(2)通过视觉标记合并减少冗长的视觉特征序列,该方法逐渐合并最相似的视觉标记。广泛的实验表明,我们的3BTinyChart在各种图表理解基准上实现了SOTA性能,包括ChartQA、Chart-to-Text、Chart-to-Table、OpenCOA和ChartX。它优于几个具有多达13B参数的图表理解MLLM,并在ChartOA上与开源MLLM GPT-4V相当,甚至更高。
由于尺寸较小,推理期间的吞吐量降低模型缩放和更高效的视觉编码。
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/451
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
文章目录
关闭