Rank: 3 Rank: 3 Rank: 3

1^# 跳轉到 » 倒序看帖

字體大小: tT

發表於 2025-6-28 19:07 | 只看該作者

M4 Mac Mini算唔算SoC？玩Local LLM係唔係佢粒M4最實際？

本帖最後由 ntony 於 2025-6-28 19:12 編輯

M4 Mac Mini成部機乜都齊，個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用，又好似慳少少電。

我自己就主要係想做inferencing，用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下？

0

0

john_linux

中級會員

Rank: 2 Rank: 2

2^#

發表於 2025-6-28 22:42 | 只看該作者

M4 Mac Mini成部機乜都齊，個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用，又好似慳少少電。

我自己就主要係想做inferencing，用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下？
ntony 發表於 2025-6-28 07:07 PM

錯區
Mac mini係唔係SoC都好，都同單板電腦無關
建議改去系統組件或者蘋果國度

TOP

john_linux

中級會員

Rank: 2 Rank: 2

3^#

發表於 2025-6-28 22:53 | 只看該作者

本帖最後由 john_linux 於 2025-6-28 22:59 編輯

M4 Mac Mini成部機乜都齊，個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用，又好似慳少少電。

我自己就主要係想做inferencing，用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下？
ntony 發表於 2025-6-28 07:07 PM

Any肥
作為Mac mini M4 Pro（CPU 10P4E/GPU 20-core/64GB RAM）用家，佢粒GPU行AI都係慢（用Ollama行command-r:35b只有12 token/s）
所以要b數大定係速度快就睇你預算

要行b數大嘅model就買Mac
要行得快就買Nvidia

TOP

ntony

進階會員

Rank: 3 Rank: 3 Rank: 3

4^#

發表於 2025-6-29 00:28 | 只看該作者

本帖最後由 ntony 於 2025-6-29 00:32 編輯

多謝分享！

我考慮過有玩SoC嘅高手會有其他SoC local行AI model嘅經驗。雖然我明白SoC非常唔合適，起碼無得加memory。但砌一部機去行local AI model或者open source LLM model，真係無乜好討論。
如果唔使計成本，唔使理耗電，我都識自己去買兩塊nVidia咭用LXC或Docker image去開埋CUDA玩。

蘋果國度班group友真係有咁多人會用Apple機為咗行local AI model？

command-r:35b只有12 token/s

行35b有12 t/s都算係咁。

TOP

john_linux

中級會員

Rank: 2 Rank: 2

5^#

發表於 2025-6-29 01:26 | 只看該作者

本帖最後由 john_linux 於 2025-6-29 01:31 編輯

行35b有12 t/s都算係咁
ntony 發表於 2025-6-29 12:28 AM

12 token/s 就滿足真係好幸福

畀多少少實測數據
Llama3.3:70b=5 token/s
Llama4=唔好諗
R1-1776:70b=5 token/s
Gemma3:12b=26 token/s

自己試吓先
https://tokens-per-second-visualizer.tiiny.site/

TOP

kenken33

進階會員

Rank: 3 Rank: 3 Rank: 3

6^#

發表於 2025-6-29 01:52 | 只看該作者

本帖最後由 kenken33 於 2025-6-29 01:56 編輯

行模型最緊要係記憶體頻寬，MAC MINI 唔係比你玩AI，係文書上網機
mac studio啦，入門萬6 410GB/s 記憶體頻寬 36GB RAM，再上一級3皮2 就M3 Ultra 819GB/s 96GB一般都夠晒玩, 已經係接近5070TI 既記憶體頻寬，96GB都唔夠就打爆512GB 佢，已經係行到原生AI大模型最平嘅機。

TOP

ntony

進階會員

Rank: 3 Rank: 3 Rank: 3

7^#

發表於 2025-6-30 03:27 | 只看該作者

12 token/s 就滿足真係好幸福

畀多少少實測數據
Llama3.3:70b=5 token/s
Llama4=唔好諗
R1-1776 ...
john_linux 發表於 2025-6-29 01:26

我睇Digital Spaceport砌咁多機，就算用Xeon或者直接插3090 24GB VRAM都只係快少少。
不過我覺得要有用，條baseline起碼要用Llama3.3:70b或者Gwen3 335b，DeepSeek R1 671b已經係好好用嘅model。有10 t/s速度，咁一般回覆都係幾分鐘左右。

TOP

normalyan