为什么你需要一个私有 ChatGPT

用 ChatGPT 网页版很方便,但有三个痛点:

  1. 隐私 — 你问的每个问题都经过 OpenAI 的服务器
  2. 费用 — GPT-4 按 token 计费,重度使用月费不低
  3. 限制 — 频次限制、内容审查、网络要求

如果你有一台稍微好点的电脑(16G 内存 + 任意 NVIDIA 显卡),完全可以在本地跑一个不联网、免费、无审查的 ChatGPT 替代品。


你需要什么

组件 作用 一句话
Ollama 本地运行大模型 “装模型"的工具
Open WebUI 网页聊天界面 长得像 ChatGPT 的前端
一个模型 回答问题的大脑 推荐 qwen3:8b 或 llama3.2

整条链路:

你输入问题 → Open WebUI → Ollama → 本地 GPU/CPU 推理 → 返回答案

全程不走网络。拔网线也能用。


第一步:安装 Ollama

Linux / macOS

1
curl -fsSL https://ollama.com/install.sh | sh

Windows

直接去 ollama.com 下载安装包,双击安装。

安装完成后验证:

1
2
ollama --version
# 输出类似: ollama version is 0.6.x

第二步:下载一个模型

Ollama 装好后还没模型。挑一个适合你配置的:

模型 大小 最低显存 适合
qwen3:8b ~5GB 8GB 显存 中文优秀,日常对话首选
llama3.2:3b ~2GB 4GB 显存 无 GPU 也能跑,轻量
deepseek-r1:8b ~5GB 8GB 显存 推理能力强,适合复杂问题
mistral:7b ~4GB 6GB 显存 英文强,编程辅助好
1
2
3
4
5
# 推荐,中文友好,8B 参数性价比高
ollama pull qwen3:8b

# 无独显选这个
ollama pull llama3.2:3b

下载完测试一下:

1
ollama run qwen3:8b "用一句话解释量子纠缠"

能返回答案就 OK。


第三步:安装 Open WebUI

注意: Open WebUI 依赖 Docker,先装好 Docker(docker.com 下载)。

一条命令搞定:

1
2
3
4
5
6
docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui-data:/app/backend/data \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

等 1-2 分钟(首次拉镜像),然后浏览器打开 http://localhost:3000

首次设置

  1. 打开 localhost:3000 → 创建管理员账号(本地存储,不经过云端)
  2. 右上角头像 → 设置模型 → 你会看到 Ollama 自动识别的模型列表
  3. 如果没看到模型 → 设置里确认 Ollama 地址是 http://host.docker.internal:11434

第四步:开始聊天

现在你打开 localhost:3000,界面和 ChatGPT 几乎一样:

  • 左侧:对话历史
  • 中间:聊天窗口
  • 支持 Markdown、代码高亮、文件上传
  • 模型选择器在输入框上方

试试传一份 PDF 让它总结——Open WebUI 自带 RAG,自动把文件内容嵌入对话上下文。


进阶配置

1. 接入云端 API(模型不够用的时候)

Open WebUI 可以同时接本地 Ollama + 云端 API。设置 → 管理员面板 → 连接 → 添加 OpenAI API:

API Key: sk-your-openai-key
Base URL: https://api.openai.com/v1

然后在模型列表里会同时出现本地 Ollama 模型和 GPT-4,随时切换。

2. 外网访问

如果你想让手机或其他设备访问(比如在局域网里的 iPad 上聊天):

1
2
3
4
5
6
7
8
# 启动时改绑定地址
docker run -d \
  --name open-webui \
  -p 0.0.0.0:3000:8080 \
  -v open-webui-data:/app/backend/data \
  -e WEBUI_AUTH=false \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

然后访问 http://你的电脑IP:3000 即可。注意: WEBUI_AUTH=false 会关闭登录,仅限局域网环境使用。

3. GPU 加速确认

1
2
# 检查 Ollama 是否在用 GPU
ollama run qwen3:8b "hello" --verbose

输出里如果看到 eval_rate: 40+ tokens/s,说明 GPU 在跑。如果只有 5-10 tokens/s,是 CPU 模式。


常见问题

Q: Docker 启动后 localhost:3000 打不开?

A: 等一分钟,docker logs open-webui -f 看启动日志,搜 Application startup complete

Q: Open WebUI 看不到 Ollama 模型?

A: Docker 容器默认不能直接访问 localhost。在 Open WebUI 设置里把 Ollama 地址改成:

http://host.docker.internal:11434

Q: 模型回答很慢?

A: 8B 模型用 CPU 跑确实慢。要么加显卡,要么换小模型 llama3.2:3b,响应速度能快 3-5 倍。


总结

项目 耗时 费用
装 Ollama 2 分钟 免费
下载模型 5-10 分钟(取决于网速) 免费
装 Open WebUI 3 分钟 免费
合计 15 分钟 ¥0

15 分钟,零成本,你就有了一个完全私有的、不受审查的、不限次数的 AI 助手。