🐋 運行 DeepSeek R1 Dynamic 1.58-bit 使用 Llama.cpp
特別感謝 UnslothAI 的卓越貢獻!多虧了他們的努力,我們現在可以在 Llama.cpp 上運行 完整的 DeepSeek-R1 671B 參數模型,其動態 1.58-bit 量化形式已壓縮到僅 131GB!而最棒的是?您再也不需要絕望的面對需要龐大的企業級 GPU 或伺服器的需求——現在可以在您的個人電腦上運行該模型(雖然對於大多數消費級硬體來說速度較慢)。
備註
Ollama 上唯一真正的 DeepSeek-R1 模型是這裡提供的 671B 版本:https://ollama.com/library/deepseek-r1:671b。其他版本是 精簡模型。
本指南專注於使用 Llama.cpp 與 Open WebUI 集成運行 完整的 DeepSeek-R1 Dynamic 1.58-bit 量化模型。這裡的演示步驟將基於一台 M4 Max + 128GB RAM 的機器。您可以根據自己的配置進行適配。
第一步:安裝 Llama.cpp
您可以選擇:
- 下載預編譯的二進制文件
- 或自行編譯:請按照此處的說明進行:Llama.cpp 編譯指南
第二步:下載由 UnslothAI 提供的模型
前往 Unsloth 的 Hugging Face 頁面 並下載適合的 動態量化版本 DeepSeek-R1。本指南使用的是 1.58-bit(131GB) 版本,這是高度優化但仍然功能強大的版本。