Ollama本地部署大语言模型完整指南

# Ollama本地部署大语言模型

## 什么是Ollama？

Ollama是一个开源工具，让你能够在本地计算机上轻松运行各种大语言模型。与云服务不同，本地运行LLM完全免费，数据不会离开你的电脑，非常适合处理敏感信息或离线开发。

## 安装Ollama

### Windows安装

访问Ollama官网(https://ollama.com)下载安装包，双击安装即可。

### macOS安装

```bash
brew install ollama
```

### Linux安装

```bash
curl -fsSL https://ollama.com/install.sh | sh
```

## 下载和运行模型

### 常用模型推荐

```bash
# Llama 3 - Meta最新开源模型
​ollama pull llama3

# Mistral - 法国的高性能开源模型
​ollama pull mistral

# Code Llama - 专为编程优化的模型
​ollama pull codellama

# Qwen - 阿里云的通义千问
​ollama pull qwen2

# DeepSeek Coder - 深度求索的编程模型
​ollama pull deepseek-coder
```

### 运行模型

```bash
# 启动对话
​ollama run llama3

# 带模型参数
​ollama run llama3:70b
```

## 用作API服务

Ollama启动后会在本地开启API服务，端口为11434：

```python
import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "llama3",
        "prompt": "什么是机器学习？",
        "stream": False
    }
)
print(response.json()["response"])
```

## 与其他工具集成

### 与Continue集成

在VS Code中安装Continue扩展，配置使用Ollama后端，就可以在编辑器中使用本地AI。

### 与LangChain集成

```python
from langchain_community.llms import Ollama

llm = Ollama(model="llama3")
response = llm.invoke("解释什么是RAG？")
```

## 硬件要求

- 7B模型：最少8GB内存
- 13B模型：最少16GB内存
- 70B模型：需要GPU，至尠48GB显存

## 性能优化建议

1. 使用GPU加速：确保安装了NVIDIA驱动和CUDA
2. 选择合适的模型大小：不要勉强运行超出硬件能力的模型
3. 使用量化版本：如q4_0、q5_1等，在算力和质量间平衡

## 总结

Ollama让本地运行LLM变得简单，无论是学习研究还是开发AI应用，它都是不可或缺的工具。通过本指南，你应该能够快速上手本地AI开发。
Ollama本地部署大语言模型完整指南

评论 (0)