本帖最後由 javacomhk 於 2025-2-13 04:47 編輯
1. 在iOS App Store 或 Google Play Store 搜尋及下載安裝
PocketPal AI
2. 選擇右下角 Go to Models
3. 選擇右下角 + 號 及 Add from Hugging Face
4. 搜尋 DeepSeek 及選擇 DeepSeek-R1-Distill-Qwen-1.5B
5. 選擇下載 DeepSeek-R1-Distill-Qwen-1.5B_Q4_K_M.gguf 1.12GB
"DeepSeek-R1-Distil-Qwen-1.5B_Q4_K_M.gguf" 這個檔案名稱的意思是:
這是一個 GGUF 格式 的模型檔案,它是 DeepSeek-R1 模型得到的一個版本,這個模型是基於 Qwen (通義千問) 1.5B 參數模型進行蒸餾(Distill)得到的,並使用了 4-bit 量化(Q4) 技術進行壓縮,具體使用的量化方法是 K-Quants Medium (K_M) 變體。
Qwen:這通常指的是 Qwen 系列模型,由 阿里巴巴開源的 Qwen (通義千問) 模型家族。這可能表示該模型是基於 Qwen 的架構或技術訓練/蒸餾出來的。
GGUF (GGML Unified Format) 是一種專為高效推理設計的機器學習模型文件格式,主要用於 CPU 和低資源設備及有幾個主要好處:
- 無需 GPU:GGUF 格式專為 CPU 進行優化,特別適用於沒有強大 GPU 的設備,例如筆記本電腦和手機/平板設備。
- 支援量化(Quantization):支持 Q2、Q4、Q5、Q6、Q8 等多種量化格式,使得大語言模型(如 LLaMA、Mistral、Qwen、 DeepSeek-R1)能夠在較低資源環境下運行。量化 (Quantization) 是一種模型壓縮技術,旨在減少模型檔案的大小和運行時的記憶體佔用,同時盡可能保持模型性能。量化通過降低模型權重的精度來實現這一點。Q4 通常能更好地保留模型性能,但模型檔案仍然會比未量化的版本小很多。
- 一個 1.5B 參數的模型,如果使用 16-bit (f16) 需要約 3.6GB RAM,但若使用 Q4 量化的 GGUF,模型記憶體需求減少約 75%,大幅降低了運行成本,非常適合在手機/平板上運行本地推理。
了解這些資訊可以幫助您根根據了手機/平板內存及容量更好地選擇和使用模型。例如,如果你有新的快啲嘅Android 平板電腦有12GB RAM 可以嘗試用 DeepSeek-R1-Distill-Qwen-7B-IQ3_XS.GGUF, 如果您希望在資源受限的環境中運行模型,Q4 量化版本會比未量化的版本更合適。而 "K_M" 則表示這個量化版本在性能和大小之間做出了較好的平衡。 知道模型是基於 Qwen 系列的,也有助於您了解模型的特性和能力範圍。
6. 下載完成後,Load model 試玩 |