Generated with sparks and insights from 6 sources
Introduction
-
数据增强(Data Augmentation,简称DA)是指根据现有数据,合成新数据的一类方法。
-
NLP数据增强技术旨在提升模型的泛化能力和鲁棒性,特别是在数据量有限的情况下。
-
常见的NLP数据增强方法包括同义词替换、随机插入、随机交换、随机删除、回译、掩码语言模型等。
-
数据增强技术在NLP领域的应用较为复杂,因为文本数据的离散性和语义保持的要求。
-
不同的增强方法适用于不同的任务和数据集,选择合适的方法可以显著提升模型性能。
Paraphrasing [1]
-
Thesaurus: 利用词典或知识图谱,将非停用词替换成同义词或上位词。
-
Semantic Embeddings: 使用语义向量,将词或短语替换成相近的词。
-
MLMs: 利用BERT等模型,随机mask掉一些成分后生成新的句子。
-
Rules: 使用规则对句子进行改写,如缩写、动词变位等。
-
Machine Translation: 包括Back-translation(回译)和Unidirectional Translation(单向翻译)。
-
Model Generation: 使用Seq2seq模型生成语义一致的句子。
Noising [1]
-
Swapping: 交换词、实例或句子的位置。
-
Deletion: 随机删除一些词。
-
Insertion: 随机插入同义词。
-
Substitution: 随机替换一些词,模拟拼写错误。
-
Mixup: 将句子表示和标签以一定权重融合,引入连续噪声。
Sampling [1]
-
从数据的分布中采取新样本。
-
采样方法依赖于任务,需要保证数据的可靠性和多样性。
-
常见的采样方法包括随机采样、分层采样等。
-
采样方法可以生成更多的数据,提升模型的泛化能力。
Easy Data Augmentation (EDA) [2]
-
同义词替换(Synonym Replacement, SR): 随机选取n个词并替换成同义词。
-
随机插入(Random Insertion, RI): 随机插入同义词到句子中。
-
随机交换(Random Swap, RS): 随机交换句子中的两个词。
-
随机删除(Random Deletion, RD): 以概率p随机删除句中的词。
Unsupervised Data Augmentation (UDA) [2]
-
UDA是一种半监督学习方法,减少对标注数据的需求。
-
使用一致性训练来约束模型预测对输入噪声的不变性。
-
使用高级数据增强方法如RandAugment和回译。
-
在IMDb文本分类数据集上,UDA方法实现了4.20的错误率。
-
在CIFAR-10上,UDA方法优于所有以前的方法。
工具和库 [2]
-
NLP Albumentation: 一个用于NLP数据增强的工具。
-
NLPAug Library: 提供多种数据增强方法的库。
-
textda: 一个用于文本数据增强的Python库。
-
回译代码: 提供回译实现的代码。
-
EDA代码: 提供EDA实现的代码。
Related Videos
<br><br>
<div class="-md-ext-youtube-widget"> { "title": "AFI\u91d1\u878d\u5e94\u7528\u7cfb\u5217\u8bb2\u5ea7|\u4eba\u5de5\u667a\u80fd\u65b0\u65f6\u4ee3\u7684\u66d9\u5149\u2014NLP\u91d1\u878d\u5e94\u7528 ...", "link": "https://www.youtube.com/watch?v=wL0VJX2KkzI", "channel": { "name": ""}, "published_date": "Oct 5, 2023", "length": "" }</div>