如何高效使用Open R1 API：generate.py与sft.py函数调用完全指南

时泓岑Ethanael

734人浏览 · 2026-03-17 03:11:28

时泓岑Ethanael · 2026-03-17 03:11:28 发布

如何高效使用Open R1 API：generate.py与sft.py函数调用完全指南

【免费下载链接】open-r1 Fully open reproduction of DeepSeek-R1 项目地址: https://gitcode.com/gh_mirrors/open/open-r1

Open R1是GitHub加速计划中一个重要的开源项目，旨在完全开源复现DeepSeek-R1模型。该项目提供了强大的API工具，其中generate.py和sft.py是两个核心功能模块，分别用于文本生成和监督微调，帮助开发者轻松构建和优化AI模型。

Open R1项目核心功能概述 🚀

Open R1项目通过模块化设计提供了完整的模型训练与推理解决方案。项目主要包含两大核心功能模块：

文本生成模块（generate.py）：基于预训练模型快速生成高质量文本
监督微调模块（sft.py）：通过监督学习优化模型性能

项目采用三阶段训练流程，确保模型能够逐步提升推理能力和任务适应性：

Open R1三阶段训练流程图：展示了从Distill到最终模型的完整训练路径，包含SFT和GRPO等关键步骤

generate.py：高效文本生成工具详解

generate.py模块提供了构建文本生成管道的完整功能，通过简单配置即可实现大规模文本生成任务。

核心函数：build_distilabel_pipeline

该函数是generate.py的核心，用于构建基于Distilabel框架的文本生成管道，支持多种参数配置以满足不同生成需求。

def build_distilabel_pipeline(
    model: str,
    base_url: str = "http://localhost:8000/v1",
    prompt_column: Optional[str] = None,
    prompt_template: str = "{{ instruction }}",
    temperature: Optional[float] = None,
    top_p: Optional[float] = None,
    max_new_tokens: int = 8192,
    num_generations: int = 1,
    input_batch_size: int = 64,
    client_replicas: int = 1,
    timeout: int = 900,
    retries: int = 0,
) -> Pipeline:

关键参数说明

参数名称	类型	默认值	描述
model	str	无	用于生成的模型名称
base_url	str	"http://localhost:8000/v1"	vLLM服务器URL
temperature	float	None	生成温度，控制随机性
max_new_tokens	int	8192	最大生成 tokens 数量
num_generations	int	1	每个问题的生成次数
input_batch_size	int	64	输入处理批次大小

快速使用示例

python src/open_r1/generate.py \
    --hf-dataset open-r1/Math-Instructions \
    --model Qwen2.5-7B-Instruct \
    --vllm-server-url http://localhost:8000/v1 \
    --temperature 0.7 \
    --max-new-tokens 2048 \
    --num-generations 3

sft.py：监督微调完整指南

sft.py模块提供了强大的监督微调功能，支持多种模型配置和训练策略，帮助开发者快速优化模型性能。

核心函数：main

main函数是sft.py的入口点，协调数据集加载、模型初始化和训练过程，支持丰富的训练配置选项。

def main(script_args, training_args, model_args):
    set_seed(training_args.seed)
    # 日志设置
    # 数据集、模型和分词器加载
    # SFT Trainer初始化
    # 训练循环执行
    # 模型保存与评估

关键配置参数

sft.py支持通过命令行参数或配置文件进行详细设置，主要参数类别包括：

模型参数：模型名称、路径、量化配置等
训练参数：学习率、批大小、训练轮次等
数据参数：数据集名称、分割、预处理配置等
输出参数：保存路径、日志配置、Hub推送设置等

典型训练命令示例

accelerate launch --config_file=recipes/accelerate_configs/zero3.yaml src/open_r1/sft.py \
    --model_name_or_path open-r1/Qwen2.5-Math-7B-RoPE-300k \
    --dataset_name open-r1/Mixture-of-Thoughts \
    --dataset_config all \
    --learning_rate 4.0e-5 \
    --num_train_epochs 5 \
    --max_seq_length 32768 \
    --per_device_train_batch_size 2 \
    --gradient_checkpointing \
    --bf16 \
    --output_dir data/OpenR1-Distill-7B

实战应用：从模型训练到文本生成

完整工作流程

数据准备：准备高质量的指令数据集
模型微调：使用sft.py进行监督微调
服务部署：启动vLLM服务加载微调后的模型
文本生成：使用generate.py进行批量文本生成

性能优化技巧

批量处理：适当调整input_batch_size参数以提高GPU利用率
梯度检查点：启用--gradient_checkpointing减少内存占用
混合精度：使用--bf16参数加速训练并减少内存使用
分布式训练：通过accelerate配置文件实现多GPU训练

项目资源与扩展阅读

配置文件模板：recipes/accelerate_configs/
数据集过滤工具：scripts/pass_rate_filtering/
评估脚本：scripts/benchmark_e2b.py
训练配置示例：recipes/OpenR1-Distill-7B/sft/config_distill.yaml

要开始使用Open R1项目，请先克隆仓库：

git clone https://gitcode.com/gh_mirrors/open/open-r1

通过合理使用generate.py和sft.py这两个核心模块，开发者可以快速构建和优化适用于各种场景的AI模型，从数学推理到代码生成，Open R1提供了灵活而强大的工具链支持。

【免费下载链接】open-r1 Fully open reproduction of DeepSeek-R1 项目地址: https://gitcode.com/gh_mirrors/open/open-r1

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

【小白向】虾壳云一键部署一站式服务，从下载解压到启动 OpenClaw v2.7.9 全程无需额外操作（最新安装包）

CSDN-OPC开发者社区

告别剪辑！AI 电商广告一键成片，几张商品图直接输出你的广告大片！

CSDN-OPC开发者社区

Agent 从「搭框架」到「装技能包」：2026年技能经济完全指南

AI Agent 的开发范式正在发生一次静悄悄的革命。2023-2024 年，大家争相搭建 LangChain、AutoGPT 等框架；2025-2026 年，焦点已切换到「技能包（Agent Skills）」的封装与分发。Prompt Engineering 正在让位于 Skill Engineering。谁先建好技能库，谁就掌握了下一阶段 AI 工程的核心资产。