学习下LlamaIndex-初始篇

发表于 2024-04-21 分类于 LLM 阅读次数：阅读次数： Disqus：

LlamaIndex 是目前比较新的大模型RAG框架，RAG是指检索增强生成 (Retrieval-Augmented Generation, RAG)是指在利用大语言模型回答问题之前，先从外部知识库检索相关信息。RAG 被证明能显著提升答案的准确性，并特别是在知识密集型任务上减少模型的错误输出。通过引用信息来源，用户可以核实答案的准确性，从而增强对模型输出的信任。
此外，RAG 有助于快速更新知识并引入特定领域的专业知识。
RAG 有效结合了大语言模型的参数化知识和非参数化的外部知识库，成为实施大语言模型的关键方法之一。本文概述了 RAG 在大语言模型时代的发展模式，总结了三种模式：初级 RAG、高级 RAG 和模块化 RAG。
首先我们可以了解下LlamaIndex的几大模块，
使用大型语言模型(LLMs):无论是OpenAI还是任何托管的LLM,亦或是您自己本地运行的模型,LLM都被用于从索引和存储到查询和解析数据的每一个步骤。LlamaIndex提供了大量可靠经过测试的提示,我们也将向您展示如何自定义您自己的提示。
LlamaIndex 主要有这五大块能力

Data connectors
Data indexes
Engines
Data agents
Application integrations

其中加载部分可以认为是初始的部分，我们可以从各个数据源去获取信息，比如各种文档，或者confluence，甚至api接口，只需要合适的数据加载器，我们就能将其转化为我们要的数据
比如我想要将我博客里的Markdown文件作为知识库加载

reader = SimpleDirectoryReader(
    input_dir="./somedir/source/_posts/",
    required_exts=[".md"],
    recursive=True
)
docs = reader.load_data()

然后由文档来就构建我们的索引

1	index = VectorStoreIndex.from_documents(docs)

但是这里我们需要提前设置好对应的 embedding 模型，这个很重要，如果有条件推荐使用OpenAI的，如果想用本地的可以考虑使用BAAI智源出品的，只是要注意是否支持多语言，如果要使用本地embedding的话需要安装

1	pip install llama-index-embeddings-huggingface

这里我选了BAAI也就是智源研究所的bge-m3模型，因为这个是支持多语言的，如果是纯英文的可以用他们 BAAI/bge-small-en-v1.5

from llama_index.core import Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
Settings.llm = Ollama(model="gemma:7b", request_timeout=60.0)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="BAAI/bge-m3"
)
index = VectorStoreIndex.from_documents(docs)
query_engine = index.as_query_engine(llm=gemma_7b)
response = query_engine.query("数据库主从延迟")
print(response)

另外LLM 我使用了本地部署的 gemma:7b，因为想尝试下本地的链路，需要注意的是一些文档还是用的原来的service_context，在新版本中这个已经被改掉了，都是通过 Settings 来设置，此外还有诸如 SimpleDirectoryReader 这些包也被挪到了 llama_index.core 中，需要注意下
然后我们就能使用这种方式来增强LLM，把我们的本地文档作为知识库来搜索，结合了大模型的能力。