本文提出约束反向翻译方法,通过从现有指令-响应对中提取隐含约束构建高质量复杂指令数据集CRAB,并结合反向训练显著提升大型语言模型在复杂指令跟随任务上的性能。
Large Language Model, Supervised Learning, Instruction Tuning, Data Augmentation, Complex Constraints
Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
清华大学计算机科学与技术系, BNRist
Generated by grok-3
Background Problem
大型语言模型(LLMs)在自然语言处理任务中表现出色,但在跟随具有复杂约束(如格式、长度等)的指令时仍存在不足,这限制了其有效性和可用性。现有方法通过使用高级LLMs生成复杂指令-响应对进行后训练,但由于高级LLMs本身在复杂指令跟随上的能力有限,生成数据质量受限且需要大量过滤工作。因此,亟需一种自动化的数据生成方法,减少对高级LLMs复杂指令跟随能力的依赖。
Method
本文提出了’约束反向翻译’(Constraint Back-Translation)方法,核心思想是从现有高质量指令-响应对中提取隐含的复杂约束,生成新的复杂指令数据集CRAB。具体步骤包括:
- 数据收集:从现有高质量数据集(如Alpaca GPT4、OpenAssistant等)中采样13,500个指令-响应对作为种子数据,确保响应长度超过300词以包含多样化隐含约束。
- 约束反向翻译:使用Llama3-70B-Instruct模型和Python脚本,从种子数据中自动生成响应已满足的约束,涵盖13种常见约束类型,并通过ROUGE-L过滤相似约束,确保生成约束与响应的符合性。
- 约束组合:为每个指令随机组合6-8个约束,形成最终复杂指令,并为50%数据添加1-3个上下文示范。 此外,提出了’反向训练’(Reverse Training)方法,作为辅助训练目标,通过输入指令-响应对训练模型生成约束,结合标准监督微调(Forward Training)优化模型性能,损失函数为两者的加权组合。
Experiment
实验基于Llama3 8B和Mistral 7B作为骨干模型,使用CRAB数据集进行训练,并结合ShareGPT数据集和DPO目标进行优化。评估数据集包括IFEval和FollowBench,分别测试严格的词汇/格式约束和多约束复杂指令跟随能力。结果显示:
- 训练后的模型(如Llama3CRAB和MistralCRAB)在IFEval和FollowBench上显著优于基线模型,尤其在DPO优化后,MistralCRAB+DPO在IFEval上达到59.3%,在FollowBench上达到49.4%,超越了专注于复杂指令跟随的Conifer模型在IFEval上的表现。
- 然而,在FollowBench的风格约束类别中,模型表现不如Conifer,可能由于CRAB数据集在风格约束多样性上的不足。
- 在一般指令跟随能力(AlpacaEval)上,模型也表现出色,MistralCRAB+DPO的胜率达到17.6%,显著优于Conifer。
- 消融研究表明,反向训练、向前训练和上下文示范均对性能有积极贡献,尤其上下文示范对复杂约束(L3-L5)跟随能力提升明显。 实验设置较为全面,涵盖了复杂约束和一般指令跟随的多个维度,但风格约束的不足和未使用更大规模模型可能限制了结果的全面性。
Further Thoughts
约束反向翻译方法提供了一个降低数据生成成本和噪声的创新视角,但其依赖于原始响应的多样性可能限制了某些约束类型(如风格约束)的生成质量。未来可以探索结合其他数据生成方法(如Conifer的先约束后响应的方式)来弥补这一不足。此外,反向训练作为辅助目标的机制值得进一步研究:它是否真的增强了模型对约束的理解,还是仅仅通过增加任务多样性间接提升了性能?与领域适应或多任务学习的研究相结合,或许能揭示更深层次的原理。另外,考虑到复杂指令跟随在实际应用(如智能助手、内容生成)中的重要性,是否可以进一步将此方法应用于多模态模型,处理包含图像或音频约束的复杂指令?这可能是一个有前景的跨领域研究方向。