谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗

http://www.aastocks.com/tc/usq/quote/stock-news-content.aspx?symbol=NVDA&id=NOW.1512673&source=AAFN



外媒報道,谷歌研究(Google Research)周二(24日)發表無需預先訓練的壓縮演算法TurboQuant,能在不影響模型精準度下,將大語言模型(LLM)的KV快取量壓縮至3位元。在英偉達(NVDA.US)  +3.480 (+1.986%)   盤後 -0.358%H100圖像處理器(GPU)的基準測試中,相較於未量化的32位元鍵值,4位元的TurboQuant在計算注意力邏輯值(attention logits)時的效能提升最高可達8倍,同時將KV快取記憶體減少至少6倍。

KV快取用於儲存先前計算出的注意力資料,使大語言模型無需在每個標記生成步驟中重新計算。隨著上下文視窗不斷擴大,這些快取正逐漸成為主要記憶體樽頸。雖然傳統向量量化方法能縮小快取規模,但由於必須將量化常數與壓縮資料一同儲存,每個值會產生幾位元小量記憶體開銷。在更大上下文視窗下,這些開銷會隨之累積。TurboQuant算法則消除有關樽頸。

記憶體股Sandisk(SDNK.US)及美光(MU.US)  -13.440 (-3.398%)   盤後 -1.495%隔晚(25日)分別跌3.5%及3.4%。(fc/j)(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)

via HKEPC IR 5.1.14 - Android(5.1.2F)

已經有大佬實作,mac用mlx,效果顯著
注意係壓kv cache,唔係模型.

Uploaded_via_HKEPC_IR_Pro_Android(3866a).jpg

via HKEPC IR 5.1.14 - Android(5.1.2F)

TOP

美光等RAM廠,股價一早己經跌定

via HKEPC Reader for Android

TOP

希望可使RAM價回落

TOP

民用打機用又得唔得?
壓GDDR 張GRAPHIC 唔駛咁多RAM 仲正

TOP

節省用 ram 定提升性能 ?

TOP

節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 12:05

理論上節省用ram,自然提升效能.因為瓶頸係ram 速度

via HKEPC IR 5.1.14 - Android(5.1.2F)

TOP

本帖最後由 s84292 於 2026-3-30 09:32 編輯
節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 04:05


llm 運作時會快取大量最近的請求,
呢個新技術係類似jpeg壓縮咁將快取資料大量壓縮
舊的主流壓縮技術只可以壓到1/3,新技術可以壓縮到1/6
雖然係有損,但仍然保留到96~98%精度

縮小左自然慳位(少70% ram)之餘又可以慳位寬

https://github.com/sharpner/turboquant-mlx

有興趣可以參考呢個測試報告,該壓縮技術已經可以在mlx 上

不過要發揮最大性能都係要cuda,
在NVIDIA H100 GPU 上的實測顯示,TurboQuant 最高能帶來 8 倍的推理與生成速度提升。
因為nv 係算力夠,而記憶體性能跟不上

TOP