Generated with sparks and insights from 58 sources

img6

img7

img8

img9

img10

img11

Introduction

  • 大模型上下文窗口长度: 目前主流大模型的上下文窗口长度从4K到60K不等,部分模型通过优化技术可以达到100K。

  • 优化技术: 主要的优化技术包括flash-attention和flash-attention 2,这些技术可以显著减少显存占用并提高计算效率。

  • 代表性模型: 代表性的大模型包括GPT-3、GPT-4、PaLM、Galactica和LLaMA,这些模型的参数量通常在百亿到千亿级别。

  • 预训练数据: 大模型的预训练数据通常来自新闻、问答、图书、wiki、code等领域,数据量巨大。

  • 评测数据集: 评测大模型长文本处理能力的主要数据集包括Zero-SCROLLS、L-Eval、LongBench和loogle。

  • 位置编码: 位置编码(如ROPE)在长文本处理中的重要性,改进位置编码可以提高模型的长文本处理能力。

  • 训练成本: 训练大模型需要大量的计算资源,通常需要高性能的GPU集群。

  • 应用场景: 大模型在法律咨询、电商售前售后咨询等领域的应用受到关注,但也面临幻觉问题。

优化技术 [1]

  • flash-attention: 通过分块计算attention,显著减少显存占用并提高计算效率。

  • flash-attention 2: 在flash-attention基础上进一步优化,减少非矩阵乘法运算,并行计算attention。

  • DeepSpeed-Ulysses: 进一步降低模型显存占用,使得训练长上下文模型变得可能。

  • 向量化召回: 通过召回相关知识,增强大模型在专业领域的表现。

  • 插值外推: 通过插值外推方式扩展模型的上下文窗口长度。

img6

img7

img8

img9

img10

img11

代表性模型 [2]

  • GPT-3: OpenAI开发的语言模型,参数量为1750亿。

  • GPT-4: OpenAI最新的大模型,进一步提升了上下文处理能力。

  • PaLM: Google开发的语言模型,参数量为5400亿。

  • Galactica: Meta开发的语言模型,专注于科学领域。

  • LLaMA: Meta开发的语言模型,参数量在百亿级别。

  • T5: Google开发的语言模型,参数量在百亿级别。

  • ChatGPT: OpenAI开发的对话大模型,基于GPT-3和GPT-4。

  • InstructGPT: OpenAI开发的模型,通过指令调优提高模型的对齐能力。

img6

img7

img8

img9

预训练数据 [2]

  • 新闻: 预训练数据的一部分,提供最新的时事信息。

  • 问答: 包含大量的问答对话数据,增强模型的对话能力。

  • 图书: 包含各种书籍内容,提供丰富的语言表达。

  • wiki: 包含维基百科的内容,提供广泛的知识背景。

  • code: 包含代码数据,增强模型的编程能力。

  • 数据量: 预训练数据量通常在数十亿到数百亿级别。

  • 数据处理: 包括去噪、去冗余、去除不相关和潜在有毒的数据。

  • 数据来源: 主要来自公共文本数据集。

img6

img7

img8

img9

img10

img11

评测数据集 [3]

  • Zero-SCROLLS: 评测大模型长文本处理能力的数据集之一。

  • L-Eval: 另一个评测大模型长文本处理能力的数据集。

  • LongBench: 评测大模型长文本处理能力的基准数据集。

  • loogle: 评测大模型长文本处理能力的基准数据集。

  • 任务类型: 包括文本生成、文本理解、问答等任务。

  • 评测标准: 主要评测模型在长文本处理中的准确性和效率。

  • 数据集来源: 主要来自公开的文本数据集。

  • 评测方法: 通过不同长度的文本验证模型的处理能力。

img6

img7

img8

img9

img10

img11

位置编码 [1]

  • ROPE: 旋转位置编码,用于表示token在句子中的前后关系。

  • 位置编码衰减: 随着距离增加,位置编码的区分度减小。

  • 改进方法: 通过减小旋转角度来提高位置编码的表示能力。

  • 插值方式: 提高模型外推能力的一种方法。

  • ALiBi: 直接作用到attention-score上的位置编码方法。

  • 位置编码重要性: 对于长文本处理中的准确性和效率至关重要。

  • 实验结果: 改进位置编码可以显著提高模型的长文本处理能力。

  • 位置编码与flash-attention: flash-attention能够支持旋转位置编码。

img6

img7

img8

img9

img10

img11

训练成本 [1]

  • 计算资源: 训练大模型需要大量的计算资源,通常需要高性能的GPU集群。

  • 显存消耗: attention显存占用是随着训练数据长度呈平方级增长。

  • 训练时间: 训练一个支持上下文长度在100K左右的模型需要大量时间。

  • 训练数据量: 需要大量长度在100K以上的训练数据。

  • 硬件要求: 通常需要8*80G的A100显卡进行训练。

  • 训练成本: 训练大模型的成本非常高,通常需要数百万美元的预算。

  • 优化方法: 通过flash-attention等优化方法可以减少显存占用和训练时间。

  • 训练步骤: 改变训练文本长度,大约需要1000个step模型就能达到收敛的稳态。

img6

img7

img8

img9

img10

img11

应用场景 [1]

  • 法律咨询: 大模型在法律咨询领域的应用受到关注。

  • 电商售前售后咨询: 大模型在电商售前售后咨询中的应用。

  • 幻觉问题: 大模型在特定领域回答准确率并不高,存在幻觉问题。

  • RAG方法: 通过外接知识库,增强大模型在专业领域知识。

  • 微调方法: 通过继续预训练和有监督微调来给模型注入知识。

  • 专业领域: 大模型在专业领域知识的注入和提取上能做到92%+的准确率。

  • 知识增强: 通过对训练数据进行知识增强提高样本的多样性。

  • 未来改进: 需要进一步改进模型的收敛性和编码衰减问题。

img6

img7

img8

img9

img10

img11

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "\u7206\u6740GPT-4\uff0c\u5168\u7403\u6700\u957f\u4e0a\u4e0b\u6587AI\u5927\u6a21\u578b\uff0c\u6587\u6863\u5904\u7406\u795e\u5668\uff0c\u65e0\u9700\u7ffb\u5899 ...", "link": "https://www.youtube.com/watch?v=87zzv524BZk", "channel": { "name": ""}, "published_date": "Feb 13, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "LLaVA\uff1a\u6b63\u9762\u786c\u521aGPT-4V\u3001Cogvlm\uff0c\u5f00\u6e90\u591a\u6a21\u6001\u5927\u6a21\u578bLLaVA ...", "link": "https://www.youtube.com/watch?v=MSy32-HM57Q", "channel": { "name": ""}, "published_date": "Oct 15, 2023", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u5927\u578b\u8bed\u8a00\u6a21\u578b\u4e0e\u751f\u6210\u5f0fAI\u2014\u2014\u53c2\u6570\u9ad8\u6548\u5fae\u8c031\u2014\u2014\u53c2\u6570\u9ad8\u6548\u5fae\u8c03 ...", "link": "https://www.youtube.com/watch?v=hsDaw4S5GZY", "channel": { "name": ""}, "published_date": "Aug 6, 2023", "length": "" }</div>