中国林科院研发出可持续学习的林业预训练语言模型
中国林科院资源所智慧林草创新团队日前研发了一种可持续学习领域知识的林业预训练语言模型(ForestryBERT),通过构建一套通用的技术体系,突破了通用预训练语言模型难以应对林业知识动态更新的难题,实现了从动态变化的林业语料库中持续学习新知识并有效记忆旧知识,显著提高了模型的环境适应性和理解能力。
该模型实现了3项关键技术突破:一是通过对林业术语、林业法律法规、林业文献等大规模动态语料库的学习,为模型提供了丰富多元的知识来源,使模型能精准捕捉林业语义信息,提升了模型对林业文本的理解能力;二是融合了持续学习方法,构建了动态知识吸收机制,通过软掩码技术与对比学习策略,使模型在面对不断更新的林业知识时,既能高效吸收新知识,又能适当保留旧知识,有效缓解了灾难性遗忘问题,提升了模型的适应性和稳定性;三是研发了多任务评估体系,准确评测模型在林业文本分类和林业抽取式问答中的性能,使模型具有较好的泛化性。
ForestryBERT是在智慧林草创新团队研发的问答式林业预训练语言模型基础上的又一重要技术突破。通过与学习了同样林业知识但未采取持续学习机制的5种领域预训练语言模型的对比结果表明:ForestryBERT性能表现最好,知识遗忘率降低68.5%,具备可持续性和可扩展性。这一成果为林业文本处理提供了创新策略,为林草行业大模型-林龙大模型中林草大语言模型的研发提供了核心技术支撑,也为构建其他行业预训练语言模型提供了可借鉴的思路。
相关研究论文“ForestryBERT: A pre-trained language model with continual learning adapted to changing forestry text”发表在Knowledge-Based Systems,中国林科院资源所硕士生谭晶维为第一作者,张怀清研究员为通讯作者。该项研究得到国家重点研发计划政府间国际科技创新合作项目和国家自然科学基金项目的联合资助。
上一篇:云南发展壮大高原特色农业