M4 Mac Mini算唔算SoC?玩Local LLM係唔係佢粒M4最實際?

本帖最後由 ntony 於 2025-6-28 19:12 編輯

M4 Mac Mini成部機乜都齊,個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用,又好似慳少少電。

我自己就主要係想做inferencing,用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下?

M4 Mac Mini成部機乜都齊,個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用,又好似慳少少電。

我自己就主要係想做inferencing,用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下?
ntony 發表於 2025-6-28 07:07 PM



錯區
Mac mini係唔係SoC都好,都同單板電腦無關
建議改去系統組件或者蘋果國度

TOP

本帖最後由 john_linux 於 2025-6-28 22:59 編輯
M4 Mac Mini成部機乜都齊,個價錢同自己加呢樣嗰樣去增加個token/second。係唔係直接一部M4 Mac Mini順手又萬用,又好似慳少少電。

我自己就主要係想做inferencing,用Ollama或者llama.cpp有OpenAI嘅API layer去自己試驗下寫AI application。

我諗呢個group有玩local LLM嘅高手應該有考慮過呢個方案。會唔會有咩分析同心得分享下?
ntony 發表於 2025-6-28 07:07 PM



Any肥
作為Mac mini M4 Pro(CPU 10P4E/GPU 20-core/64GB RAM)用家,佢粒GPU行AI都係慢(用Ollama行command-r:35b只有12 token/s)
所以要b數大定係速度快就睇你預算

要行b數大嘅model就買Mac
要行得快就買Nvidia

TOP

本帖最後由 ntony 於 2025-6-29 00:32 編輯

多謝分享!

我考慮過有玩SoC嘅高手會有其他SoC local行AI model嘅經驗。雖然我明白SoC非常唔合適,起碼無得加memory。但砌一部機去行local AI model或者open source LLM model,真係無乜好討論。
如果唔使計成本,唔使理耗電,我都識自己去買兩塊nVidia咭用LXC或Docker image去開埋CUDA玩。

蘋果國度班group友真係有咁多人會用Apple機為咗行local AI model?


command-r:35b只有12 token/s

行35b有12 t/s都算係咁。

TOP

本帖最後由 john_linux 於 2025-6-29 01:31 編輯
行35b有12 t/s都算係咁
ntony 發表於 2025-6-29 12:28 AM



12 token/s 就滿足真係好幸福

畀多少少實測數據
Llama3.3:70b=5 token/s
Llama4=唔好諗
R1-1776:70b=5 token/s
Gemma3:12b=26 token/s

自己試吓先
https://tokens-per-second-visualizer.tiiny.site/

TOP

本帖最後由 kenken33 於 2025-6-29 01:56 編輯

行模型最緊要係記憶體頻寬,MAC MINI 唔係比你玩AI,係文書上網機
mac studio啦,入門萬6 410GB/s 記憶體頻寬 36GB RAM, 再上一級3皮2 就M3 Ultra 819GB/s 96GB一般都夠晒玩, 已經係接近5070TI 既記憶體頻寬,96GB都唔夠就打爆512GB 佢,已經係行到原生AI大模型最平嘅機。

TOP

12 token/s 就滿足真係好幸福

畀多少少實測數據
Llama3.3:70b=5 token/s
Llama4=唔好諗
R1-1776 ...
john_linux 發表於 2025-6-29 01:26


我睇Digital Spaceport砌咁多機,就算用Xeon或者直接插3090 24GB VRAM都只係快少少。
不過我覺得要有用,條baseline起碼要用Llama3.3:70b或者Gwen3 335b,DeepSeek R1 671b已經係好好用嘅model。有10 t/s速度,咁一般回覆都係幾分鐘左右。

TOP

text prompt冇乜所謂啦, 又唔係趕時間

你話如果image gen就一定唔得啦!要等兩三日一幅相

TOP

text prompt冇乜所謂啦, 又唔係趕時間

你話如果image gen就一定唔得啦!要等兩三日一幅相  ...
normalyan 發表於 2025-6-30 10:02



無錯
唔係image或video generation,又唔係image或voice to text,真係無急得咁緊要嘅。咁急就只能使錢。

正如做一般software development都唔會用部十萬銀嘅機去做unit test同build from source。

TOP

行模型最緊要係記憶體頻寬,MAC MINI 唔係比你玩AI,係文書上網機
mac studio啦,入門萬6 410GB/s 記憶體頻 ...
kenken33 發表於 2025-6-29 01:52



雖然仁兄您講緊嘅可能係事實。
Apple自己唔係咁講。我知HKEPC要用十萬蚊嘅文書機去send email嘅。而家變得好合理丫,要local LLM inferencing幫手寫email,咁緊係要插張5090落去幫手下,雖然直接用AI card會更加快。



TOP