从零开始：用DeepSeek-R1-Distill-Qwen-1.5B打造个人AI代码助手

本文介绍了基于星图GPU平台自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像的完整实践，实现轻量级本地AI代码助手的构建。该方案支持函数调用与代码生成，适用于模型微调、AI应用开发等场景，兼顾高性能与低显存占用，适合个人开发者及企业私有化部署。

知乎机构号团队

940人浏览 · 2026-01-17 07:57:58

知乎机构号团队 · 2026-01-17 07:57:58 发布

从零开始：用DeepSeek-R1-Distill-Qwen-1.5B打造个人AI代码助手

在本地部署一个高效、轻量且具备强大推理能力的AI代码助手，是许多开发者提升开发效率的核心诉求。本文将基于 DeepSeek-R1-Distill-Qwen-1.5B 镜像，结合 vLLM 与 Open-WebUI，手把手带你完成从环境搭建到实际调用的全流程实践，最终实现一个可交互、可编程、低延迟的本地化AI代码助手。

1. 技术背景与选型价值

随着大模型小型化技术的发展，“小参数、高能力”的蒸馏模型正成为边缘计算和本地部署的重要选择。DeepSeek-R1-Distill-Qwen-1.5B 正是这一趋势下的代表性成果：

通过在 DeepSeek-R1 的 80 万条高质量推理链上对 Qwen-1.5B 进行知识蒸馏，实现了“1.5B 参数，7B 级表现”的性能飞跃。
支持函数调用、JSON 输出、Agent 插件等高级功能，适用于代码生成、数学解题、逻辑推理等多种场景。
显存占用极低：FP16 模型仅需 3GB 显存，GGUF-Q4 量化版本更压缩至 0.8GB，可在树莓派、手机或嵌入式设备运行。
商用友好：Apache 2.0 协议授权，支持 vLLM、Ollama、Jan 等主流推理框架一键启动。

一句话总结：硬件只需 4GB 显存，即可拥有数学得分超 80 分、代码生成能力强的本地 AI 助手。

2. 系统架构与核心组件

本方案采用三层架构设计，确保高性能服务与易用性兼顾：

[用户界面] ←→ [Open-WebUI] ←→ [vLLM 推理引擎] ←→ [DeepSeek-R1-Distill-Qwen-1.5B 模型]

2.1 核心组件说明

组件	职责
vLLM	高性能 LLM 推理库，提供 REST API 接口，支持 PagedAttention 加速 KV Cache 管理
Open-WebUI	图形化前端界面，支持对话历史管理、模型参数调节、多会话切换
GGUF / FP16 模型文件	本地加载的模型权重，支持 CPU/GPU 混合推理
CUDA + WSL2（Windows 用户）	提供 Linux 兼容环境与 GPU 加速能力

该组合特别适合希望在 Windows 主机上使用 NVIDIA 显卡进行本地推理的开发者。

3. 环境准备与依赖安装

3.1 硬件与系统要求

项目	推荐配置
GPU	NVIDIA 显卡（如 RTX 3060/4060Ti），显存 ≥6GB
CPU	Intel i5 或以上
内存	≥16GB
存储	≥20GB 可用空间（用于模型下载）
操作系统	Windows 10/11（启用 WSL2）或原生 Ubuntu 20.04+

⚠️ 注意：vLLM 目前仅支持 Linux 环境运行，Windows 用户需通过 WSL2 安装 Ubuntu 子系统。

3.2 启用 WSL2 并安装 Ubuntu

打开 PowerShell（管理员权限）执行以下命令：

# 启用 WSL 功能
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart

# 启用虚拟机平台
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

# 设置 WSL2 为默认版本
wsl --set-default-version 2

# 下载并安装 Ubuntu 22.04 LTS（从 Microsoft Store）

安装完成后启动 Ubuntu，设置用户名和密码。

4. Linux 环境配置与软件安装

进入 WSL2 终端后，依次执行以下步骤。

4.1 更新系统源并安装基础工具

sudo apt update && sudo apt upgrade -y
sudo apt install build-essential git python3-pip wget curl unzip -y

4.2 安装 Miniconda（推荐替代 Anaconda）

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

按提示完成安装后重启终端，创建独立虚拟环境：

conda create -n deepseek-env python=3.12 -y
conda activate deepseek-env

4.3 安装 CUDA 驱动（WSL 版本）

NVIDIA 为 WSL 提供了专用 CUDA 支持，执行以下命令安装：

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

验证安装成功：

nvidia-smi
nvcc --version

4.4 安装 vLLM

pip install vllm

✅ vLLM 自动检测 GPU 并启用 FlashAttention 加速，推理速度显著优于 HuggingFace Transformers。

5. 模型下载与本地部署

5.1 下载 DeepSeek-R1-Distill-Qwen-1.5B 模型

使用 git lfs 克隆模型仓库（建议提前安装 Git LFS）：

git lfs install
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git

或将路径映射到 Windows 盘符（如 E:\models）：

mkdir -p /mnt/e/models
cd /mnt/e/models
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git

5.2 使用 vLLM 启动模型服务

vllm serve /mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B \
  --gpu-memory-utilization 0.92 \
  --max-model-len 90000 \
  --host 0.0.0.0 \
  --port 8000

参数说明：

参数	作用
`--gpu-memory-utilization 0.92`	最大利用 92% 显存存储 KV 缓存，提高并发能力
`--max-model-len 90000`	支持最长 90K tokens 上下文（实际输入建议分段处理）
`--host 0.0.0.0`	允许外部访问（便于 WebUI 连接）

启动成功后，日志中会出现如下关键信息：

INFO:     Uvicorn running on http://0.0.0.0:8000
INFO:     Available routes are:
         /v1/chat/completions → 对话接口
         /v1/completions     → 补全接口
         /v1/models          → 模型列表

6. 部署 Open-WebUI 实现可视化交互

6.1 安装 Docker（Ubuntu 环境）

curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

退出并重新登录以应用权限。

6.2 启动 Open-WebUI 容器

docker run -d \
  -p 3000:8080 \
  -e OPEN_WEBUI_MODEL_NAME="DeepSeek-R1-Distill-Qwen-1.5B" \
  -e VLLM_API_BASE="http://<your-host-ip>:8000/v1" \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

🔁 替换 <your-host-ip> 为宿主机 IP（如 192.168.1.100）。若在同一台机器运行，可用 host.docker.internal。

访问 http://localhost:3000 即可进入图形界面。

6.3 登录账号（参考文档）

账号：kakajiang@kakajiang.com
密码：kakajiang

首次登录后可修改密码，并绑定本地 vLLM 模型。

7. API 调用示例：集成到你的项目中

你可以通过 Python 脚本直接调用 vLLM 提供的 /v1/chat/completions 接口，实现自动化代码生成。

7.1 基础请求代码

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "model": "/mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [
        {"role": "user", "content": "请用 Java 实现一个简单的 HTTP 网关，支持路由转发和日志记录"}
    ],
    "temperature": 0.7,
    "max_tokens": 1024
}

response = requests.post(url, headers=headers, json=data)
if response.status_code == 200:
    result = response.json()
    print("AI 回复：", result["choices"][0]["message"]["content"])
else:
    print("请求失败：", response.status_code, response.text)

7.2 函数调用能力测试（Function Calling）

该模型支持结构化输出，可用于构建 Agent 工具链。

{
  "functions": [
    {
      "name": "generate_code",
      "description": "根据需求生成指定语言的代码",
      "parameters": {
        "type": "object",
        "properties": {
          "language": {"type": "string"},
          "task": {"type": "string"}
        },
        "required": ["language", "task"]
      }
    }
  ]
}

配合提示词工程，可让模型返回 JSON 格式的可解析响应，便于程序自动处理。