deepseek配置文件

weixin_51113097

441人浏览 · 2026-01-22 11:24:25

weixin_51113097 · 2026-01-22 11:24:25 发布

services:
vllm:
container_name: vllm
ulimits:
stack: 67108864
memlock: -1
restart: always
image: vllm/vllm-openai
ipc: host
volumes:
- /mnt/models/:/models
command: [
"--model", "/models/deepseek-70b",
"--served-model-name", "DeepSeek-R1-70B",
"--gpu-memory-utilization", "0.9",
"--max-num-batched-tokens", "32768",
"--max-num-seqs", "256",
"--tensor-parallel-size", "8",
"--max-model-len", "32768",
"--enable-reasoning","--reasoning-parser","deepseek_r1"]
ports:
- "127.0.0.1:8000:8000" # 关键修改点
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
environment:
- VLLM_DISABLE_TELEMETRY=1
- NCCL_P2P_DISABLE=1
- NCCL_P2P_LEVEL=NVL
- NCCL_ALGO=Ring
- NCCL_MIN_NCHANNELS=16
- NCCL_DEBUG=WARN
- VLLM_MAX_NUM_TOKENS=100000
- CUDA_LAUNCH_BLOCKING=0
- CUBLAS_WORKSPACE_CONFIG=:4096:8
bge_embedding:
container_name: bge_embedding
image: ghcr.io/huggingface/text-embeddings-inference:latest
restart: unless-stopped
volumes:
- /mnt/models/bge-large-zh-v1.5:/models/bge-large-zh-v1.5 # 确保模型路径正确
command: [
"--model-id", "/models/bge-large-zh-v1.5",
"--port=8001",
"--revision=main",
"--pooling=cls",
"--auto-truncate", # 自动截断超长文本
"--max-client-batch-size=64",
"--max-batch-tokens=65536"
]
ports:
- "127.0.0.1:8001:8001"
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1 # 根据需求调整GPU数量
capabilities: [gpu]
environment:
- CUDA_VISIBLE_DEVICES=0
- HF_HUB_ENABLE_HF_TRANSFER=1

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

当 AI 编程从“辅助”走向“治理”：一个前端工程师的 2026 年观察

2026 年，AI 编程正在从代码补全、AI IDE 进入 Agent 工程化阶段。它不再只是帮开发者写几段代码，而是开始参与 issue 处理、测试修复、重构迁移甚至 PR 提交。但真正的问题也随之变化：AI 是否能生成代码，已经不是核心；更关键的是，它生成的代码是否安全、可维护、可审计。本文结合 METR 开发者生产力研究、Agentic Coding 趋势、MCP 安全风险，以及实际开发中遇

CSDN-OPC开发者社区

AI Agent 是什么？

CSDN-OPC开发者社区

小型场景ai agent网络安全syslog日志接入方案——以flocks为例

（我在用的日志审计设备转发日志时，可以添加device自带标记真实源IP），第二种情况是某台服务器上可能部署了nginx等中间件日志，同时其操作系统日志也需要发给日志接收服务器，在日志中找出可以区分出的关键字后，也可以通过contains区分，实现同一服务器IP发出的nginx日志到nginx目录，服务器底层日志到其他指定目录，便于AI的分析。此类用户如果能实现flocks能读取操作系统日志、中间