从零搭建私有 ChatGPT：Ollama + Open WebUI 完整教程

为什么你需要一个私有 ChatGPT

用 ChatGPT 网页版很方便，但有三个痛点：

隐私 — 你问的每个问题都经过 OpenAI 的服务器
费用 — GPT-4 按 token 计费，重度使用月费不低
限制 — 频次限制、内容审查、网络要求

如果你有一台稍微好点的电脑（16G 内存 + 任意 NVIDIA 显卡），完全可以在本地跑一个不联网、免费、无审查的 ChatGPT 替代品。

你需要什么

组件	作用	一句话
Ollama	本地运行大模型	“装模型"的工具
Open WebUI	网页聊天界面	长得像 ChatGPT 的前端
一个模型	回答问题的大脑	推荐 qwen3:8b 或 llama3.2

整条链路：

你输入问题 → Open WebUI → Ollama → 本地 GPU/CPU 推理 → 返回答案

全程不走网络。拔网线也能用。

第一步：安装 Ollama

Linux / macOS

1

curl -fsSL https://ollama.com/install.sh | sh

Windows

直接去 ollama.com 下载安装包，双击安装。

安装完成后验证：

1
2


ollama --version
# 输出类似: ollama version is 0.6.x

第二步：下载一个模型

Ollama 装好后还没模型。挑一个适合你配置的：

模型	大小	最低显存	适合
`qwen3:8b`	~5GB	8GB 显存	中文优秀，日常对话首选
`llama3.2:3b`	~2GB	4GB 显存	无 GPU 也能跑，轻量
`deepseek-r1:8b`	~5GB	8GB 显存	推理能力强，适合复杂问题
`mistral:7b`	~4GB	6GB 显存	英文强，编程辅助好

1
2
3
4
5


# 推荐，中文友好，8B 参数性价比高
ollama pull qwen3:8b

# 无独显选这个
ollama pull llama3.2:3b

下载完测试一下：

1

ollama run qwen3:8b "用一句话解释量子纠缠"

能返回答案就 OK。

第三步：安装 Open WebUI

注意： Open WebUI 依赖 Docker，先装好 Docker（docker.com 下载）。

一条命令搞定：

1
2
3
4
5
6


docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui-data:/app/backend/data \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

等 1-2 分钟（首次拉镜像），然后浏览器打开 http://localhost:3000。

首次设置

打开 localhost:3000 → 创建管理员账号（本地存储，不经过云端）
右上角头像 → 设置 → 模型 → 你会看到 Ollama 自动识别的模型列表
如果没看到模型 → 设置里确认 Ollama 地址是 http://host.docker.internal:11434

第四步：开始聊天

现在你打开 localhost:3000，界面和 ChatGPT 几乎一样：

左侧：对话历史
中间：聊天窗口
支持 Markdown、代码高亮、文件上传
模型选择器在输入框上方

试试传一份 PDF 让它总结——Open WebUI 自带 RAG，自动把文件内容嵌入对话上下文。

进阶配置

1. 接入云端 API（模型不够用的时候）

Open WebUI 可以同时接本地 Ollama + 云端 API。设置 → 管理员面板 → 连接 → 添加 OpenAI API：

API Key: sk-your-openai-key
Base URL: https://api.openai.com/v1

然后在模型列表里会同时出现本地 Ollama 模型和 GPT-4，随时切换。

2. 外网访问

如果你想让手机或其他设备访问（比如在局域网里的 iPad 上聊天）：

1
2
3
4
5
6
7
8


# 启动时改绑定地址
docker run -d \
  --name open-webui \
  -p 0.0.0.0:3000:8080 \
  -v open-webui-data:/app/backend/data \
  -e WEBUI_AUTH=false \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

然后访问 http://你的电脑IP:3000 即可。注意： WEBUI_AUTH=false 会关闭登录，仅限局域网环境使用。

3. GPU 加速确认

1
2


# 检查 Ollama 是否在用 GPU
ollama run qwen3:8b "hello" --verbose

输出里如果看到 eval_rate: 40+ tokens/s，说明 GPU 在跑。如果只有 5-10 tokens/s，是 CPU 模式。

常见问题

Q: Docker 启动后 localhost:3000 打不开？

A: 等一分钟，docker logs open-webui -f 看启动日志，搜 Application startup complete。

Q: Open WebUI 看不到 Ollama 模型？

A: Docker 容器默认不能直接访问 localhost。在 Open WebUI 设置里把 Ollama 地址改成：

http://host.docker.internal:11434

Q: 模型回答很慢？

A: 8B 模型用 CPU 跑确实慢。要么加显卡，要么换小模型 llama3.2:3b，响应速度能快 3-5 倍。

总结

项目	耗时	费用
装 Ollama	2 分钟	免费
下载模型	5-10 分钟（取决于网速）	免费
装 Open WebUI	3 分钟	免费
合计	15 分钟	¥0

15 分钟，零成本，你就有了一个完全私有的、不受审查的、不限次数的 AI 助手。

为什么你需要一个私有 ChatGPT#

你需要什么#

第一步：安装 Ollama#

Linux / macOS#

Windows#

第二步：下载一个模型#

第三步：安装 Open WebUI#

首次设置#

第四步：开始聊天#

进阶配置#

1. 接入云端 API（模型不够用的时候）#

2. 外网访问#

3. GPU 加速确认#

常见问题#

总结#