🐋 使用 Llama.cpp 运行 DeepSeek R1 动态 1.58-bit
向 UnslothAI 表示极大的感谢!多亏了他们的努力,我们现在可以在 Llama.cpp 上运行 完整的 DeepSeek-R1 671B 参数模型的动态 1.58-bit 量化版本(压缩到仅 131GB)!最棒的是,你再也不用为需要大型企业级 GPU 或服务器而感到沮丧了 —— 现在可以在你的个人电脑上运行这个模型(尽管对于大多数消费级硬件来说速度较慢)。
Ollama 上唯一真正的 DeepSeek-R1 模型是这里提供的 671B 版本:https://ollama.com/library/deepseek-r1:671b。其他版本是 蒸馏模型。
本指南专注于使用 与 Open WebUI 集成的 Llama.cpp 运行 完整的 DeepSeek-R1 动态 1.58-bit 量化模型。在本教程中,我们将以一台 M4 Max + 128GB RAM 的机器为例,展示步骤。你可以根据自己的配置调整设置。
第一步:安装 Llama.cpp
你 可以选择:
- 下载预编译的二进制文件
- 或者自己构建:按照这里的说明操作:Llama.cpp 构建指南
第二步:下载由 UnslothAI 提供的模型
前往 Unsloth 的 Hugging Face 页面,下载适当的 动态量化版本 的 DeepSeek-R1。对于本教程,我们将使用 1.58-bit(131GB) 版本,这个版本经过高度优化但仍然出奇地高效。
了解你的“工作目录”——就是你的 Python 脚本或终端会话正在运行的地方。默认情况下,模型文件会下载到该目录的一个子文件夹,因此请确保你知道其路径!例如,如果你在 /Users/yourname/Documents/projects
下运行以下命令,下载的模型将保存到 /Users/yourname/Documents/projects/DeepSeek-R1-GGUF
。
如果想了解更多关于 UnslothAI 的开发过程以及这些动态量化版本为何如此高效,请查看他们的博客文章:UnslothAI DeepSeek R1 动态量化。
以下是通过编程方式下载模型的方法:
# 在运行此代码之前,请安装 Hugging Face 相关依赖:
# pip install huggingface_hub hf_transfer
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF", # 指定 Hugging Face 仓库
local_dir = "DeepSeek-R1-GGUF", # 模型将下载到此目录
allow_patterns = ["*UD-IQ1_S*"], # 仅下载 1.58-bit 版本
)