# Ollama本地部署大语言模型
## 什么是Ollama?
Ollama是一个开源工具,让你能够在本地计算机上轻松运行各种大语言模型。与云服务不同,本地运行LLM完全免费,数据不会离开你的电脑,非常适合处理敏感信息或离线开发。
## 安装Ollama
### Windows安装
访问Ollama官网(https://ollama.com)下载安装包,双击安装即可。
### macOS安装
```bash
brew install ollama
```
### Linux安装
```bash
curl -fsSL https://ollama.com/install.sh | sh
```
## 下载和运行模型
### 常用模型推荐
```bash
# Llama 3 - Meta最新开源模型
ollama pull llama3
# Mistral - 法国的高性能开源模型
ollama pull mistral
# Code Llama - 专为编程优化的模型
ollama pull codellama
# Qwen - 阿里云的通义千问
ollama pull qwen2
# DeepSeek Coder - 深度求索的编程模型
ollama pull deepseek-coder
```
### 运行模型
```bash
# 启动对话
ollama run llama3
# 带模型参数
ollama run llama3:70b
```
## 用作API服务
Ollama启动后会在本地开启API服务,端口为11434:
```python
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "llama3",
"prompt": "什么是机器学习?",
"stream": False
}
)
print(response.json()["response"])
```
## 与其他工具集成
### 与Continue集成
在VS Code中安装Continue扩展,配置使用Ollama后端,就可以在编辑器中使用本地AI。
### 与LangChain集成
```python
from langchain_community.llms import Ollama
llm = Ollama(model="llama3")
response = llm.invoke("解释什么是RAG?")
```
## 硬件要求
- 7B模型:最少8GB内存
- 13B模型:最少16GB内存
- 70B模型:需要GPU,至尠48GB显存
## 性能优化建议
1. 使用GPU加速:确保安装了NVIDIA驱动和CUDA
2. 选择合适的模型大小:不要勉强运行超出硬件能力的模型
3. 使用量化版本:如q4_0、q5_1等,在算力和质量间平衡
## 总结
Ollama让本地运行LLM变得简单,无论是学习研究还是开发AI应用,它都是不可或缺的工具。通过本指南,你应该能够快速上手本地AI开发。
暂无评论。成为第一个评论的人吧!