llmware：在笔记本上跑 RAG 和本地大模型

mofangcode820

29人浏览 · 2026-06-21 17:07:06

mofangcode820 · 2026-06-21 17:07:06 发布

文章目录

llmware：在笔记本上跑 RAG 和本地大模型

llmware：在笔记本上跑 RAG 和本地大模型

llmware 在 GitHub 上拿到 14.8K Star。

这个项目做了一件事：让你在本地设备上跑完整的 RAG 流程，从文档解析、知识库构建到模型推理，全程不需要调用外部 API。300 多个模型可以直接用，1B 到 9B 参数的小模型针对 RAG 做了专门优化。

1、它解决什么问题

做 RAG 的人都知道，真正的瓶颈往往不在模型本身，而在数据处理和部署环境。

企业文档格式五花八门，PDF 表格解析出来乱七八糟，Word 样式丢得一干二净。好不容易把文档处理好了，发现模型只能跑在云端，数据一上传，合规部门找上门。

llmware 把整条链路搬到了本地。文档解析、文本切分、向量嵌入、检索、推理，每一步都可以在你的笔记本上完成。对于那些对数据隐私有要求的企业场景，这基本是刚需。

正文顶部截图

2、核心架构

llmware 分两个部分。

第一是模型目录。300 多个模型，按用途分成几个系列：BLING 系列是 1B 到 5B 的轻量模型，适合在 CPU 上跑 RAG 问答；DRAGON 系列是 6B 到 9B 的生产级 RAG 模型；SLIM 系列专门做函数调用和多步骤 Agent 工作流。模型都做了 GGUF 量化，笔记本上直接能加载。

第二是 RAG 管线。从解析文档到建立知识库再到查询推理，全流程内置。支持 PDF、Word、Excel、PPT、HTML、图片、音频等十几种格式的解析。向量数据库方面，Milvus、ChromaDB、FAISS、Qdrant、PGVector 都能接，灵活搭配。

3、几个值得关注的能力

本地推理：支持 GGUF、OpenVINO、ONNXRuntime，还能在高通芯片的 NPU 上跑。Windows、Mac、Linux 都覆盖，包括 ARM64 设备。

Prompt with Sources：把检索结果直接注入 prompt，模型回答基于你提供的上下文。自带事实校验方法，可以检查模型输出是否有来源支撑。

Agent 和函数调用：用 SLIM 模型可以做情感分析、实体提取、主题分类、布尔判断等结构化输出。多个 SLIM 模型组合起来就是一个多步骤 Agent。

数据库可插拔：文本存储支持 SQLite（开箱即用）、MongoDB、Postgres；向量库支持 10 种。从笔记本到集群都能适配。

README区域截图

4、快速上手

安装：

pip3 install llmware

如果需要完整功能（包括更多格式解析和向量库支持）：

pip3 install 'llmware[full]'

最小化 RAG 示例，三步跑通：

from llmware.library import Library
from llmware.retrieval import Query
from llmware.prompts import Prompt

# 创建知识库，导入文档
lib = Library().create_new_library("my_library")
lib.add_files("/path/to/my/files")

# 安装向量嵌入
lib.install_new_embedding(embedding_model_name="mini-lm-sbert", vector_db="chromadb")

# 加载模型，基于知识库问答
prompter = Prompt().load_model("llmware/bling-phi-3-gguf")
source = prompter.add_source_new_query(lib, query="my question", result_count=5)
responses = prompter.prompt_with_source("my question")