语言大模型由于在大规模通用L域数据预训练通常缺乏对特定任务或L域的知识,因此需要适配微调。微调可以帮助模型更好地适应特定需求,如对敏感数据(如医疗记录)的处理,同时不暴露原始数据。此外,微调可以提G部署效率、减少计算资源需求。指令微调和参数G效学习是适配微调的关键技术。
指令微调(Instruction Tuning)[21],是一种可以帮助语言大模型实现人类语言指令遵循的能力,在零样本设置中泛化到未见任务上的学习方法。指令微调学习形式与多任务提示微调相似,但与提示微调让提示适应语言大模型并且让下游任务对齐预训练任务不同,其是让语言大模型对齐理解人类指令并按照指令要求完成任务,即在给定指令提示的情况下给出特定的回应,其中提示可以选择性包含一条解释任务的指令。指令微调研究涉及指令理解、指令数据获取和指令对齐等内容。
(1)指令理解,指语言大模型准确理解人类语言指令的能力,是语言大模型执行指令完成任务的前提。为了增强对指令的理解,许多工作采用多任务提示方式对基于指令描述的大量任务集上对语言大模型进行微调,如FLAN[50]、InstructGPT[21]等,这些模型在未见的任务上显示出优越的零样本性能。
(2)指令数据获取,指如何构建包含多样性的任务指令数据。指令数据构建常见有三种方式:i)基于公开人工标注数据构建,代表指令数据集包括1616种不同任务的Super-Natural Instruction[51]、2000种不同NLP任务的OPT-IML[52]。ii)借助语言大模型的自动生成构建,如Unnatural Instructions[53],通过种子指令作为提示让语言大模型生成新的指令描述和问题,然后再输入到模型让其输出回答。iii)基于人工标注方法,如ChatGPT在人工标注指令的基础上通 过GPT-3、InstructGPT等在线平台收集用户真实指令数据。
![]() |
智能服务机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 导引机器人 移动消毒机器人 导诊机器人 迎宾接待机器人 |