Skip to content

Ollama (本地模型)

配置 MyDeskBot 使用 Ollama 在本地运行 AI 模型。

概述

Ollama 允许您在自己的硬件上完全离线运行 AI 模型。非常适合隐私敏感的工作。

支持的模型

Ollama 支持许多开源模型:

  • Llama 3 - Meta 的开源模型
  • Mistral - 高质量开源模型
  • Codestral - 专门用于编程
  • Phi-3 - 小型、高效的模型
  • 以及更多...

快速开始

1. 安装 Ollama

访问 ollama.ai 并下载适合您平台的版本:

  • macOS - 下载 DMG 并安装
  • Windows - 下载 EXE 安装程序
  • Linux - 运行安装脚本:curl -fsSL https://ollama.ai/install.sh | sh

2. 拉取模型

bash
# Llama 3(推荐)
ollama pull llama3

# Mistral
ollama pull mistral

# Codestral(用于编程)
ollama pull codestral

# Phi-3(小型、快速)
ollama pull phi3

模型选择

推荐模型

模型大小适用场景所需 RAM
Llama 3 8B4.7GB通用8GB
Llama 3 70B40GB复杂任务64GB
Mistral 7B4.1GB编程、通用8GB
Codestral6.7GB编程8GB
Phi-32.3GB快速任务4GB

硬件要求

  • CPU:任何现代 CPU
  • RAM:至少 8GB(大型模型需要更多)
  • GPU:可选,但可以大幅提高速度
    • 推荐 8GB+ VRAM 的 NVIDIA GPU
    • 也支持 AMD GPU

优势

隐私

  • 100% 离线 - 无需互联网
  • 数据本地 - 您的数据永远不会离开设备
  • 无需 API 密钥 - 不需要第三方服务

成本

  • 免费使用 - 无按 token 计费
  • 一次性硬件成本 - 一次投资,永久使用
  • 无限使用 - 没有速率限制

灵活性

  • 自定义模型 - 微调您自己的模型
  • 多模型 - 在模型之间轻松切换
  • 版本控制 - 固定到特定模型版本

限制

  • 依赖硬件 - 需要强大的硬件
  • 比云端慢 - 通常比基于 API 的模型慢
  • 模型质量 - 不如 GPT-4 或 Claude 3.5 强大
  • 多模态有限 - 某些模型缺乏图像功能

故障排除

连接失败

  • 确保 Ollama 正在运行:ollama serve
  • 检查端点 URL
  • 验证端口 11434 未被阻止

内存不足

  • 使用更小的模型
  • 关闭其他应用程序
  • 考虑升级 RAM

性能缓慢

  • 使用 GPU 加速设置
  • 选择更小的模型
  • 减少上下文长度

高级用法

自定义模型

bash
# 创建自定义 Modelfile
cat > Modelfile <<EOF
FROM llama3
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM You are a helpful coding assistant.
EOF

# 构建模型
ollama create mycoder -f Modelfile

GPU 加速

Ollama 自动使用可用的 GPU。对于 NVIDIA GPU,确保已安装 CUDA。

量化

使用量化模型减少内存使用:

bash
ollama pull llama3:8b-q4_k_m  # 4 位量化

相关链接