llmware:在笔记本上跑 RAG 和本地大模型
llmware:在笔记本上跑 RAG 和本地大模型
llmware 在 GitHub 上拿到 14.8K Star。
这个项目做了一件事:让你在本地设备上跑完整的 RAG 流程,从文档解析、知识库构建到模型推理,全程不需要调用外部 API。300 多个模型可以直接用,1B 到 9B 参数的小模型针对 RAG 做了专门优化。
1、它解决什么问题
做 RAG 的人都知道,真正的瓶颈往往不在模型本身,而在数据处理和部署环境。
企业文档格式五花八门,PDF 表格解析出来乱七八糟,Word 样式丢得一干二净。好不容易把文档处理好了,发现模型只能跑在云端,数据一上传,合规部门找上门。
llmware 把整条链路搬到了本地。文档解析、文本切分、向量嵌入、检索、推理,每一步都可以在你的笔记本上完成。对于那些对数据隐私有要求的企业场景,这基本是刚需。

2、核心架构
llmware 分两个部分。
第一是模型目录。300 多个模型,按用途分成几个系列:BLING 系列是 1B 到 5B 的轻量模型,适合在 CPU 上跑 RAG 问答;DRAGON 系列是 6B 到 9B 的生产级 RAG 模型;SLIM 系列专门做函数调用和多步骤 Agent 工作流。模型都做了 GGUF 量化,笔记本上直接能加载。
第二是 RAG 管线。从解析文档到建立知识库再到查询推理,全流程内置。支持 PDF、Word、Excel、PPT、HTML、图片、音频等十几种格式的解析。向量数据库方面,Milvus、ChromaDB、FAISS、Qdrant、PGVector 都能接,灵活搭配。
3、几个值得关注的能力
本地推理:支持 GGUF、OpenVINO、ONNXRuntime,还能在高通芯片的 NPU 上跑。Windows、Mac、Linux 都覆盖,包括 ARM64 设备。
Prompt with Sources:把检索结果直接注入 prompt,模型回答基于你提供的上下文。自带事实校验方法,可以检查模型输出是否有来源支撑。
Agent 和函数调用:用 SLIM 模型可以做情感分析、实体提取、主题分类、布尔判断等结构化输出。多个 SLIM 模型组合起来就是一个多步骤 Agent。
数据库可插拔:文本存储支持 SQLite(开箱即用)、MongoDB、Postgres;向量库支持 10 种。从笔记本到集群都能适配。

4、快速上手
安装:
pip3 install llmware
如果需要完整功能(包括更多格式解析和向量库支持):
pip3 install 'llmware[full]'
最小化 RAG 示例,三步跑通:
from llmware.library import Library
from llmware.retrieval import Query
from llmware.prompts import Prompt
# 创建知识库,导入文档
lib = Library().create_new_library("my_library")
lib.add_files("/path/to/my/files")
# 安装向量嵌入
lib.install_new_embedding(embedding_model_name="mini-lm-sbert", vector_db="chromadb")
# 加载模型,基于知识库问答
prompter = Prompt().load_model("llmware/bling-phi-3-gguf")
source = prompter.add_source_new_query(lib, query="my question", result_count=5)
responses = prompter.prompt_with_source("my question")
不装数据库也行,SQLite + ChromaDB 都是文件级的,零配置启动。
5、适合谁用
- 在做 RAG 系统、需要把企业文档灌进向量库的开发者,尤其是对数据安全有要求的场景
- 想在本地设备上跑大模型推理、不想依赖云服务的团队
- 在搭 AI Agent、需要多模型协作处理文档的场景
的开发者,尤其是对数据安全有要求的场景
- 想在本地设备上跑大模型推理、不想依赖云服务的团队
- 在搭 AI Agent、需要多模型协作处理文档的场景
更多推荐



所有评论(0)