Generated with sparks and insights from 45 sources

img10

img11

img12

img13

img14

img15

Introduction

  • 使用Chroma构建向量数据库: 通过Chroma库,可以使用本地的SentenceTransformerEmbeddings模型来构建向量数据库。

  • 使用HuggingFaceEmbeddings: 通过HuggingFaceEmbeddings库,可以加载本地的bge-small-zh-v1.5模型,并使用Faiss进行检索。

  • 基于GPU加载Embedding模型: 使用llamaIndex库,可以基于GPU加载本地的HuggingFaceEmbedding模型。

  • 微调Embedding模型: 可以使用LlamaIndex的SentenceTransformersFinetuneEngine类来微调本地的Embedding模型。

  • 使用Milvus向量数据库: 可以使用Milvus向量数据库来存储和检索本地Embedding模型生成的向量。

Chroma向量数据库

  • 构建向量数据库: 使用Chroma库可以构建向量数据库。

  • 本地Embedding模型: 可以使用SentenceTransformerEmbeddings模型,如all-MiniLM-L6-v2。

  • 文档加载: 使用PyMuPDFLoader和UnstructuredMarkdownLoader加载文档。

  • 文档切分: 使用RecursiveCharacterTextSplitter进行文档切分。

  • 向量持久化: 可以将向量数据库持久化存储到磁盘上。

img10

img11

img12

img13

img14

img15

HuggingFaceEmbeddings [1]

  • 加载本地模型: 使用HuggingFaceEmbeddings库加载本地的bge-small-zh-v1.5模型。

  • 文档分割: 使用RecursiveCharacterTextSplitter将文档分割成小块。

  • 向量存储: 使用FAISS库构建向量存储。

  • 检索器: 使用FAISS库的检索器进行相似度检索。

  • 示例代码: 提供了如何加载和使用HuggingFaceEmbeddings的示例代码。

img10

img11

img12

img13

img14

img15

GPU加载 [2]

  • 使用llamaIndex库: 可以基于GPU加载本地的HuggingFaceEmbedding模型。

  • 环境配置: 需要配置PYTORCH_CUDA_ALLOC_CONF环境变量。

  • 文档加载: 使用SimpleDirectoryReader加载文档。

  • 向量存储: 使用VectorStoreIndex存储向量。

  • 示例代码: 提供了如何基于GPU加载本地Embedding模型的示例代码。

img10

img11

img12

微调Embedding [3]

  • 使用LlamaIndex: 可以使用LlamaIndex的SentenceTransformersFinetuneEngine类来微调本地的Embedding模型。

  • 生成数据集: 使用LLM生成训练和评估的数据集。

  • 微调过程: 使用SentenceTransformersFinetuneEngine类进行微调。

  • 评估方法: 使用Ragas框架和InformationRetrievalEvaluator进行评估。

  • 示例代码: 提供了如何微调Embedding模型的详细示例代码。

img10

img11

img12

img13

img14

img15

Milvus向量数据库

  • 安装pymilvus: 使用pip安装pymilvus库。

  • 向量化: 使用AzureOpenAIEmbeddings模型进行向量化。

  • 向量存储: 使用Milvus库存储向量。

  • 检索功能: 使用Milvus库的相似度检索功能。

  • 示例代码: 提供了如何使用Milvus向量数据库的示例代码。

img10

img11

img12

img13

img14

img15

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "\u5982\u4f55\u9009\u62e9RAG\u7684Embedding\u6a21\u578b\uff1f", "link": "https://www.youtube.com/watch?v=HNjYL0gSExs", "channel": { "name": ""}, "published_date": "Apr 20, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "ComfyUI\u57fa\u7840\u6559\u7a0b\u7cfb\u5217| embedding\u6a21\u578b\u7684\u539f\u7406\u3001\u4e0b\u8f7d\u3001\u5b89\u88c5\u4e0e ...", "link": "https://www.youtube.com/watch?v=8C6wvISkUcE", "channel": { "name": ""}, "published_date": "Apr 4, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u57fa\u4e8eOllama\u5b9e\u73b0100%\u672c\u5730\u5316RAG\u5e94\u7528 - ChatOllama", "link": "https://www.youtube.com/watch?v=x4qPdrgVb_Y", "channel": { "name": ""}, "published_date": "Mar 2, 2024", "length": "" }</div>