LLM

在本地启动和运行大语言模型

Ollama支持在本地启动和运行Llama2等大语言模型。

2023年12月26日
ollama
分享

Ollama支持在本地启动和运行Llama2等大语言模型。

下载安装

macOS

下载

Windows

即将推出!目前您可以通过 WSL2 在 Windows 上安装 Ollama。

Linux 和 WSL2

curl https://ollama.ai/install.sh | sh

手动安装说明

docker

官方Ollama Docker 镜像 ollama/ollama可在 Docker Hub 上获取。

快速开始

运行并与 Llama 2 聊天:

ollama run llama2

模型库

ollama.ai/library上提供的一系列Ollama支持的开源模型。

以下是一些可以下载的开源模型示例:

  • Llama 2: ollama run llama2
  • Mistral: ollama run mistral
  • Dolphin Phi: ollama run dolphin-phi
  • Phi-2: ollama run phi
  • Neural Chat: ollama run neural-chat
  • Starling: ollama run starling-lm
  • Code Llama: ollama run codellama
  • Llama 2 Uncensored: ollama run llama2-uncensored
  • Llama 2 13B: ollama run llama2:13b
  • Llama 2 70B: ollama run llama2:70b
  • Orca Mini: ollama run orca-mini
  • Vicuna: ollama run vicuna
  • LLaVA: ollama run llava

注意:您应该至少有 8 GB 可用内存来运行 7B 模型,16 GB 来运行 13B 模型,32 GB 来运行 33B 模型。

定制模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建一个名为 Modelfile 的文件,其中用 FROM 指定要导入模型的本地文件路径
    FROM ./vicuna-33b.Q4_0.gguf
  2. 在 Ollama 中创建模型
    ollama create example -f Modelfile
  3. 运行模型
    ollama run example

从 PyTorch 或 Safetensors 导入

详细信息请参阅导入模型指南。

自定义提示

Ollama 库中的模型可以通过提示进行定制。例如,要定制llama2模型:

ollama pull llama2

创建一个Modelfile

FROM llama2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

更多示例请参阅示例目录。有关使用模型文件的更多信息,请参阅模型文件文档。

CLI 参考

创建模型

ollama create用于从模型文件创建模型。

ollama create mymodel -f ./Modelfile

拉一个模型

ollama pull llama2

此命令还可用于更新本地模型。只有有差异才会被拉出。

删除模型

ollama rm llama2

复制模型

ollama cp llama2 my-llama2

多行输入

对于多行输入,您可以使用以下方式换行文本"""

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多式联运模型

>>> What's in this image? /Users/jmorgan/Desktop/smile.png
The image features a yellow smiley face, which is likely the central focus of the picture.

传入提示作为参数

$ ollama run llama2 "Summarize this file: $(cat README.md)"
 Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.

列出您计算机上的模型

ollama list

启动Ollama

当您想要启动 ollama 但不需要桌面应用程序时使用ollama serve

构建

安装cmake并执行go

brew install cmake go

然后生成依赖:

go generate ./...

然后构建二进制文件:

go build .

更详细的说明可以在开发者指南中找到。

运行本地的构建

接下来,启动服务器:

./ollama serve

最后,在单独的 shell 中运行模型:

./ollama run llama2

REST API

Ollama 有一套用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt":"Why is the sky blue?"
}'

与模型聊天

curl http://localhost:11434/api/chat -d '{
  "model": "mistral",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

其他接口请参阅API 文档。

社区整合

Web和桌面程序

终端

数据库

包管理器

移动端

扩展和插件

更多文章

示例如何使用Three.js和localStorage在多个窗口中“同步”3D场景。

2023年12月25日 · 3D
lobe-chat-1
LobeChat是开源的高性能聊天机器人框架,支持一键免费部署私人ChatGPT/LLM网页应用程序。
2023年12月22日 · GPT 聊天机器人
fooocus-1
Fooocus是一款图像生成软件,和Midjourney一样简单但提供了更多高级功能。
2023年12月21日 · 图像生成 AI
gpt-crawler-1
让我们使用名为GPT爬虫的新开源项目在短短两分钟内创建一个自定义 GPT。
2023年12月20日 · GPT 爬虫