Ollama (本地模型)
配置 MyDeskBot 使用 Ollama 在本地运行 AI 模型。
概述
Ollama 允许您在自己的硬件上完全离线运行 AI 模型。非常适合隐私敏感的工作。
支持的模型
Ollama 支持许多开源模型:
- Llama 3 - Meta 的开源模型
- Mistral - 高质量开源模型
- Codestral - 专门用于编程
- Phi-3 - 小型、高效的模型
- 以及更多...
快速开始
1. 安装 Ollama
访问 ollama.ai 并下载适合您平台的版本:
- macOS - 下载 DMG 并安装
- Windows - 下载 EXE 安装程序
- Linux - 运行安装脚本:
curl -fsSL https://ollama.ai/install.sh | sh
2. 拉取模型
bash
# Llama 3(推荐)
ollama pull llama3
# Mistral
ollama pull mistral
# Codestral(用于编程)
ollama pull codestral
# Phi-3(小型、快速)
ollama pull phi3模型选择
推荐模型
| 模型 | 大小 | 适用场景 | 所需 RAM |
|---|---|---|---|
| Llama 3 8B | 4.7GB | 通用 | 8GB |
| Llama 3 70B | 40GB | 复杂任务 | 64GB |
| Mistral 7B | 4.1GB | 编程、通用 | 8GB |
| Codestral | 6.7GB | 编程 | 8GB |
| Phi-3 | 2.3GB | 快速任务 | 4GB |
硬件要求
- CPU:任何现代 CPU
- RAM:至少 8GB(大型模型需要更多)
- GPU:可选,但可以大幅提高速度
- 推荐 8GB+ VRAM 的 NVIDIA GPU
- 也支持 AMD GPU
优势
隐私
- 100% 离线 - 无需互联网
- 数据本地 - 您的数据永远不会离开设备
- 无需 API 密钥 - 不需要第三方服务
成本
- 免费使用 - 无按 token 计费
- 一次性硬件成本 - 一次投资,永久使用
- 无限使用 - 没有速率限制
灵活性
- 自定义模型 - 微调您自己的模型
- 多模型 - 在模型之间轻松切换
- 版本控制 - 固定到特定模型版本
限制
- 依赖硬件 - 需要强大的硬件
- 比云端慢 - 通常比基于 API 的模型慢
- 模型质量 - 不如 GPT-4 或 Claude 3.5 强大
- 多模态有限 - 某些模型缺乏图像功能
故障排除
连接失败
- 确保 Ollama 正在运行:
ollama serve - 检查端点 URL
- 验证端口 11434 未被阻止
内存不足
- 使用更小的模型
- 关闭其他应用程序
- 考虑升级 RAM
性能缓慢
- 使用 GPU 加速设置
- 选择更小的模型
- 减少上下文长度
高级用法
自定义模型
bash
# 创建自定义 Modelfile
cat > Modelfile <<EOF
FROM llama3
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM You are a helpful coding assistant.
EOF
# 构建模型
ollama create mycoder -f ModelfileGPU 加速
Ollama 自动使用可用的 GPU。对于 NVIDIA GPU,确保已安装 CUDA。
量化
使用量化模型减少内存使用:
bash
ollama pull llama3:8b-q4_k_m # 4 位量化