不知道大家在使用RAG技术进行检索优化时有没有遇到这些问题:为什么明明资料上有的内容,但是在回答用户问题时一直不对?为什么让他根据资料回答问题,但是大模型还是会胡说八道?

遇到类似的问题要怎么破?今天把现阶段RAG优化策略一次说清楚。

这些优化策略贯穿了RAG的整个流程:检索前、检索中和检索后。

在这里插入图片描述

一、 检索前优化:提升“知识库”质量

这是最根本也是最基础的优化,目标是让检索器能快速找到最相关的内容。正所谓用垃圾生产产品,出来的产品也是垃圾。如果知识库本身质量差,后续步骤再优秀也无济于事。

文档预处理与分块策略

精细化分段:不要简单地按固定字数分段。

通过分段标识符自定义分段内容,使用自然语言处理技术,识别段落、标题等,确保一个分段在语义上是完整的。

分段最大长度:在设置分段最大长度时,长度尽量不要太长,设置的最大长度也要在模型的上下文长度范围内,超出范围模型会忘记前面的内容。

重叠长度:在段与段之间设置重叠区域,防止关键信息被恰好切断在两个段之间。如果你的资料已经处理的很干净了,那就一定不要重叠长度,不然容易造成冗余。

清理与标准化:去除无关内容(页眉、页脚、广告)、纠正OCR错误、统一格式等。这边建议使用markdown格式存储分段内容。

向量化模型优化

选用高质量的嵌入模型:不是所有text-embedding模型都一样。选择在权威评测(如Hugginaface实时更新的测评榜单上MTEB)中排名靠前的模型, 重点关注检索命中指标(Retrieval),实际选型的话还是需要自己去测试。

语言、行业等因素在不同模型上表现出来的性能是不一样的。

领域微调:如果你的领域非常专业(如医学、法律),使用领域内的数据对通用的嵌入模型进行微调,可以让模型更好地理解专业术语和上下文。微调不等于万能,所以非必要情况下不建议微调模型。

多语言支持:如果涉及多语言,需选用支持多语言的嵌入模型。

索引结构优化

选择合适的向量数据库:根据数据规模、延迟要求和成本,选择Pinecone、Weaviate、Chroma、Milvus等。它们提供了高效的近似最近邻搜索算法。

向量检索:通过生成查询嵌入并查询与其向量表示最相似的文本分段,这个更适用于长句检索、口语化的表达以及多语言检索;

关键词检索:索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段。这个更适用于专有名词、生僻字、简短句,结构化查询;

混合索引:结合传统关键词检索和向量检索,形成混合检索。这能结合两者的优点:向量检索理解语义,关键词检索保证精确术语匹配。

二、 检索中优化:提升“查找”精度

这一步关注如何从知识库中精准地捞出最相关的信息。

查询转换与扩展

查询重写:让LLM在检索前先优化用户的问题。例如,将口语化的问题改写成更正式、更适合检索的查询语句。

HyDE:一个非常有效的策略。让LLM根据原始问题生成一个假设性的答案,然后用这个生成的答案去向量库中检索。因为假设答案和真实答案在语义空间上会更接近。

查询扩展:通过LLM或传统方法,为原始问题生成多个相关的查询词,扩大检索范围,避免遗漏。

检索策略进阶

混合检索:如上文所述,将向量检索和关键词检索的结果合并,并按分数重新排序。

多路召回与重排序

多路召回:使用不同的方法(如向量、关键词、甚至基于图数据库的关系查询)同时进行检索,得到多个候选文档列表。

重排序:使用一个更强大、更精细的模型(称为重排器,如bge-reranker)对多路召回的候选文档进行重新打分和排序,只保留Top-K个最相关的。这是大幅提升准确率的“杀手锏”。

元数据过滤:为每个文档段添加元数据(如来源、作者、日期、类别)。在检索时,先根据元数据过滤,再在子集内进行语义搜索。例如:“只检索2024年以后的财务报告”。

三、 检索后优化:提升“生成”质量

即使检索到了相关文档,如何让LLM更好地利用它们生成答案也同样重要。

上下文压缩与去噪

冗余去重:大模型检索出答案之后需要分析检索出来的内容是否出现重复信息时,如果出现重复信息则需要进行去重。

相关性过滤:设定一个相似度阈值,过滤掉分数过低的文档块,避免无关信息干扰LLM。

关键信息提取:让LLM先对检索到的文档进行总结和提炼,只将最核心的信息放入生成上下文中。这可以有效解决上下文窗口限制问题。

提示工程兜底优化

召回没有答案:如果没有检索到信息时,需要回复“这个问题没有被收录/这个问题资料库中没有等”,避免没有答案大模型自己造答案。

答案没有用:分析辨识大模型检索的内容,识别其中与问题相关内容,编辑后回答用户:如果内容与问题不相关,则回复"

召回答案有缺失,不完整:分析辨识大模型检索的内容,确保它们可以完整的回答用户的问题,如果内容残缺则回复“信息缺失,请联系"。

包含图片:如果上传的资料中存在以 markdown()标记的图片时,需要保留选取答案前后的图片表达式确保他们可以正常显示。

四、如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐