Generated with sparks and insights from 6 sources

img6

img7

img8

img9

img10

img11

Introduction

  • 数据增强(Data Augmentation,简称DA)是指根据现有数据,合成新数据的一类方法。

  • NLP数据增强技术旨在提升模型的泛化能力和鲁棒性,特别是在数据量有限的情况下。

  • 常见的NLP数据增强方法包括同义词替换、随机插入、随机交换、随机删除、回译、掩码语言模型等。

  • 数据增强技术在NLP领域的应用较为复杂,因为文本数据的离散性和语义保持的要求。

  • 不同的增强方法适用于不同的任务和数据集,选择合适的方法可以显著提升模型性能。

Paraphrasing [1]

  • Thesaurus: 利用词典或知识图谱,将非停用词替换成同义词或上位词。

  • Semantic Embeddings: 使用语义向量,将词或短语替换成相近的词。

  • MLMs: 利用BERT等模型,随机mask掉一些成分后生成新的句子。

  • Rules: 使用规则对句子进行改写,如缩写、动词变位等。

  • Machine Translation: 包括Back-translation(回译)和Unidirectional Translation(单向翻译)。

  • Model Generation: 使用Seq2seq模型生成语义一致的句子。

img6

Noising [1]

  • Swapping: 交换词、实例或句子的位置。

  • Deletion: 随机删除一些词。

  • Insertion: 随机插入同义词。

  • Substitution: 随机替换一些词,模拟拼写错误。

  • Mixup: 将句子表示和标签以一定权重融合,引入连续噪声。

Sampling [1]

  • 从数据的分布中采取新样本。

  • 采样方法依赖于任务,需要保证数据的可靠性和多样性。

  • 常见的采样方法包括随机采样、分层采样等。

  • 采样方法可以生成更多的数据,提升模型的泛化能力。

Easy Data Augmentation (EDA) [2]

  • 同义词替换(Synonym Replacement, SR): 随机选取n个词并替换成同义词。

  • 随机插入(Random Insertion, RI): 随机插入同义词到句子中。

  • 随机交换(Random Swap, RS): 随机交换句子中的两个词。

  • 随机删除(Random Deletion, RD): 以概率p随机删除句中的词。

img6

Unsupervised Data Augmentation (UDA) [2]

  • UDA是一种半监督学习方法,减少对标注数据的需求。

  • 使用一致性训练来约束模型预测对输入噪声的不变性。

  • 使用高级数据增强方法如RandAugment和回译。

  • 在IMDb文本分类数据集上,UDA方法实现了4.20的错误率。

  • 在CIFAR-10上,UDA方法优于所有以前的方法。

工具和库 [2]

  • NLP Albumentation: 一个用于NLP数据增强的工具。

  • NLPAug Library: 提供多种数据增强方法的库。

  • textda: 一个用于文本数据增强的Python库。

  • 回译代码: 提供回译实现的代码。

  • EDA代码: 提供EDA实现的代码。

img6

img7

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "AFI\u91d1\u878d\u5e94\u7528\u7cfb\u5217\u8bb2\u5ea7|\u4eba\u5de5\u667a\u80fd\u65b0\u65f6\u4ee3\u7684\u66d9\u5149\u2014NLP\u91d1\u878d\u5e94\u7528 ...", "link": "https://www.youtube.com/watch?v=wL0VJX2KkzI", "channel": { "name": ""}, "published_date": "Oct 5, 2023", "length": "" }</div>