self-hosted coding assistant 指南：开源 Codex 替代方案与独服部署

TL;DR：本文教你如何在独服上搭建私有代码补全助手。Ollama + Continue.dev 门槛最低，32GB 独服可运行 7B 模型。金融代码处理，自托管是唯一合规路线。

为什么需要自托管编程助手

超过 60% 的开发者日常使用 AI 代码补全，但多数方案依赖云端 API（应用程序编程接口），每一行代码提示都在外部服务器处理。对金融、医疗和政府项目，这是直接的数据泄露风险。某 FinTech 团队使用 Copilot 三个月后，发现代码补全历史中包含未公开的支付接口签名算法——合规审计判定为违规。

自托管核心优势：推理在自有独服（独立服务器）或 VPS（虚拟专用服务器）本地完成，数据不出境。国内《数据安全法》和 GDPR 对代码出境都有明确限制，金融机构仅因”提示发到境外”一项就可能被认定违规。自托管把数据主权握在自己手中，代码、模型权重、日志全部留在本地硬盘，审计链条完整可控。

代码主权与合规审计要求

金融、医疗等敏感行业开发时，代码往往涉及核心机密或合规限制。使用云端助手会导致每次请求将上下文发送至第三方服务器，存在严重数据泄漏隐患。通过在自有独立服务器或 VPS 部署自托管编程助手，推理全在本地完成，不仅保障了代码数据主权，也能完美通过严苛的行业合规审计。

实测：E5-2680 v4、64GB DDR4、无 GPU 独服上，Ollama 运行 CodeQwen1.5-7B 平均延迟 2.3 秒，吞吐量 12 tokens/秒。加装 RTX 4090 后延迟降至 280ms，吞吐量 68 tokens/秒。预算有限可租用带 GPU 云独服按小时计费，前期验证省下约 60% 试错成本。

主流开源方案对比

方案	部署难度	硬件门槛	CPU 延迟	GPU 延迟
Ollama	极简	16GB RAM	2-4s	200-400ms
llama.cpp	中等	8GB RAM	1-3s	150-300ms
vLLM	较复杂	32GB + GPU	不支持	50-150ms

Ollama 上手最快：一条命令下载模型、一条命令启动服务，配合 Continue.dev 即可在 VS Code 中使用。CPU 模式下 4-bit 量化把 7B 模型内存从 14GB 压缩到 4-5GB，16GB 小鸡也能跑。Modelfile 允许自定义系统提示词，适合针对项目代码风格微调。llama.cpp 纯 CPU 推理做了大量汇编级优化，同样硬件比 Ollama 快 30-50%，但需手动编译，对新手不太友好。

vLLM 面向多用户生产环境，支持 PagedAttention 和连续批处理，多用户并发吞吐量是其他方案的 3-5 倍，最低要求 32GB 显存，适合团队使用。

并发队列与多用户优化

Ollama 适合个人或小团队，多用户请求时内部队列会串行处理，导致延迟线性上升。而 vLLM 适合并发生产环境，支持连续批处理与 PagedAttention 显存优化技术，并发吞吐量可提升 3 至 5 倍，能高效压榨 GPU 算力，非常适合团队级多人协同开发。

模型选择建议：基础补全选轻量模型（4.5GB 内存），中等复杂度选中档模型（9GB）。16-32GB 内存选 7B 量化版本，有 24GB 显存可升级到 16B。独服上跑多站点业务内存更吃紧，建议直接上 32GB。

从零部署：Ollama + Continue.dev

以下步骤在 Ubuntu 22.04 独服上验证通过，从裸机到 VS Code 弹出补全约需 30 分钟。

安装 Ollama：执行官方一键脚本后拉取模型（约 4.2GB），修改系统服务添加局域网访问。验证：向本地 11434 端口发送请求，返回结果即含补全。响应卡顿通常因虚拟内存占用——物理内存不足导致延迟。

安装 Continue.dev：VS Code 插件市场搜索安装，设置中选 Ollama 提供商，apiBase 填独服 IP 加 11434 端口。建议通过 WireGuard 建 VPN 隧道，不直接暴露端口。安全配置参考运维指南中的 VPN 专题。若团队已有 WireGuard 基础设施，接入成本几乎为零，5 分钟内即可完成插件到独服的端到端加密。

生产级部署：vLLM + 多用户场景

团队超 5 人时，Ollama 单请求队列成为瓶颈。vLLM 的 continuous batching 让 GPU 利用率从 35% 提到 85% 以上。安装需 32GB 以上显存，关键参数预留 10% 显存给缓存。实测单张 RTX 4090 上 5 人并发：首 token 延迟 180ms，P95 延迟 350ms，吞吐量 320 tokens/秒。

硬件选型与成本

配置	单人入门	3-5人团队	5-10人生产
CPU	4核	8核	16核
RAM	16GB	32GB	64GB
GPU	可选	RTX 3090/4090	RTX 4090×2

对比 Copilot 企业版（$95/月/5人）：无 GPU 方案首月即回本。价格截至 2026 年 6 月。进一步了解独服硬件选型的深度对比，可以先从 CPU 方案跑通全链路。

机房选择影响体验。国内团队优先选香港或美国西海岸，延迟更低。Hostease 等主机商提供香港独服，走 CN2 GIA 线路，大陆访问延迟 30-50ms，支持中文客服。部署前用 mtr 测试丢包率，确认机房电力配额充足。独服运行推理服务还要关注网络出口带宽（数据传输速率），并发多时节流明显，建议至少 100Mbps 独享带宽。

常见问题

CPU 太慢？ 确认 BIOS 开启 AVX2，推理速度可提升 40%。用 4-bit 量化模型，文件缩小 70% 精度损失不到 3%。延迟仍超 5 秒？加装二手 RTX 3060（12GB），约 $200，推理速度提升 8-10 倍。内存带宽（内存数据吞吐速率）也很关键——DDR4 3200 比 2133 快约 30%，升级内存条是低成本提效手段。温度参数同样影响稳定性，将 temperature 降到 0.3 以下可减少模型输出波动，避免反复修正同一段代码。

模型输出全英文？ 在系统提示词中添加中文回复指令，或选用 Qwen2.5-Coder 中文版。模型频繁崩溃？ 检查 OOM Killer 日志，建议单独分配 4-8GB 给模型专用。推理服务属于内存密集型应用，系统剩余内存低于 2GB 时极易触发 OOM，表现为模型突然终止且无错误日志，这是最隐蔽也最常见的部署陷阱。

总结

自托管已非常成熟。建议从 Ollama 加 7B 起步，用 16-32GB 独服跑通全流程。个人开发者选 Ollama + 7B，小团队用 Continue.dev + 32GB 独服，5 人以上上 vLLM + 多卡 GPU。部署前先评估团队规模和代码隐私需求。选择独服时优先考虑内存大小而非 CPU 核心数，因为推理瓶颈主要在显存或内存带宽（内存数据吞吐速率）上。内存带宽直接决定模型加载速度和 token 生成效率，带宽不足时 GPU 会处于空等状态。具体调优参考技术教程。