2022-06-30 04:02:33
DS-TOD是一种面向任务对话(TOD)的领域专门化框架,旨在通过提取特定领域术语并构建领域适配的预训练语料库,提升模型在多领域TOD任务中的性能。以下是其核心内容总结:

领域术语提取与语料库构建
自动提取显著领域术语(如“航班号”“出租车预订”),构建两个领域专用语料库:
DomainCC:基于掩膜语言建模(MLM)的领域特定文本数据。
DomainREDDIT:从Reddit中筛选的领域相关对话数据,用于回复选择(RS)任务。
多目标预训练策略
掩膜语言建模(MLM):在DomainCC上训练,增强领域内语言理解。
回复选择(RS):通过两种目标适配对话结构:
RS类:二分类判断回复是否匹配上下文。
RS对比度:基于噪声对比估计(NCE)的损失函数,区分正负回复对,提升互信息估计能力。
基于适配器的模块化域专门化
适配器层:在Transformer模型中插入轻量级前馈网络层,仅更新适配器参数,保留预训练模型知识。
多领域适配策略:
顺序堆叠:按领域顺序叠加适配器,逐步适配多领域。
适配器融合:加权平均各适配器输出,权重通过微调学习。
步骤
术语提取:从领域对话中识别关键术语(如“酒店预订”“支付方式”)。
数据获取:利用术语过滤大型语料库(如Reddit),生成DomainCC和DomainREDDIT。
预训练:在领域数据上微调PLM(如BERT),注入领域知识。
下游任务适配:通过适配器模块微调,应用于对话状态跟踪(DST)和回复检索(RR)。
适配器结构
每个Transformer层插入适配器层,包含向下投影(压缩表示)、非线性激活(ReLU)和向上投影(恢复维度)。
参数效率高:仅需调整适配器参数(占比约1%-10%),计算量远低于完全微调。
数据集
DomainCC/DomainREDDIT:自建领域语料库,覆盖航班、酒店、餐饮等场景。
MultiWOZ2.1:标准多领域TOD数据集,包含5个领域(酒店、餐厅、景点、出租车、火车)。
基线模型
BERT:通用预训练语言模型。
TOD-BERT:在对话数据上预训练的模型。
关键结果
DST任务:DS-TOD在MultiWOZ上联合准确率提升2.3%(绝对值),显著优于基线。
RR任务:回复检索的Recall@1指标提升3.1%,尤其在低资源领域效果显著。
适配器效率:堆叠或融合适配器的性能与多领域预训练相当,但计算量减少60%。

DS-TOD通过领域术语驱动的预训练和轻量化适配器设计,为多领域TOD任务提供了高效、灵活的解决方案,其开源代码和语料库已公开,可供进一步研究。