Rank: 3 Rank: 3 Rank: 3

1^# 跳轉到 » 倒序看帖

字體大小: tT

發表於 2026-3-26 11:48 | 只看該作者

谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗

http://www.aastocks.com/tc/usq/quote/stock-news-content.aspx?symbol=NVDA&id=NOW.1512673&source=AAFN

外媒報道，谷歌研究(Google Research)周二(24日)發表無需預先訓練的壓縮演算法TurboQuant，能在不影響模型精準度下，將大語言模型(LLM)的KV快取量壓縮至3位元。在英偉達(NVDA.US) +3.480 (+1.986%) 盤後 -0.358%H100圖像處理器(GPU)的基準測試中，相較於未量化的32位元鍵值，4位元的TurboQuant在計算注意力邏輯值(attention logits)時的效能提升最高可達8倍，同時將KV快取記憶體減少至少6倍。

KV快取用於儲存先前計算出的注意力資料，使大語言模型無需在每個標記生成步驟中重新計算。隨著上下文視窗不斷擴大，這些快取正逐漸成為主要記憶體樽頸。雖然傳統向量量化方法能縮小快取規模，但由於必須將量化常數與壓縮資料一同儲存，每個值會產生幾位元小量記憶體開銷。在更大上下文視窗下，這些開銷會隨之累積。TurboQuant算法則消除有關樽頸。

記憶體股Sandisk(SDNK.US)及美光(MU.US) -13.440 (-3.398%) 盤後 -1.495%隔晚(25日)分別跌3.5%及3.4%。(fc/j)(美股為即時串流報價； OTC市場股票除外，資料延遲最少15分鐘。)

via HKEPC IR 5.1.14 - Android(5.1.2F)

0

0

ki_cat

進階會員

Rank: 3 Rank: 3 Rank: 3

2^#

發表於 2026-3-26 12:04 | 只看該作者

已經有大佬實作,mac用mlx,效果顯著
注意係壓kv cache,唔係模型.

Uploaded_via_HKEPC_IR_Pro_Android(3866a).jpg

via HKEPC IR 5.1.14 - Android(5.1.2F)

TOP

m92fshing

進階會員

Rank: 3 Rank: 3 Rank: 3

3^#

發表於 2026-3-27 21:44 | 只看該作者

美光等RAM廠，股價一早己經跌定

via HKEPC Reader for Android

TOP

tikk

初級會員

Rank: 1

4^#

發表於 2026-3-29 21:53 | 只看該作者

希望可使RＡＭ價回落

TOP

rcbananahk

進階會員

Rank: 3 Rank: 3 Rank: 3

5^#

發表於 2026-3-30 10:03 | 只看該作者

民用打機用又得唔得?
壓GDDR 張GRAPHIC 唔駛咁多RAM 仲正

TOP

usei

特級會員

Rank: 4 Rank: 4 Rank: 4 Rank: 4

6^#

發表於 2026-3-30 12:05 | 只看該作者

節省用 ram 定提升性能 ?

TOP

ki_cat

進階會員

Rank: 3 Rank: 3 Rank: 3

7^#

發表於 2026-3-30 14:20 | 只看該作者

節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 12:05

理論上節省用ram,自然提升效能.因為瓶頸係ram 速度

via HKEPC IR 5.1.14 - Android(5.1.2F)

TOP

s84292

特級會員

Rank: 4 Rank: 4 Rank: 4 Rank: 4

8^#

發表於 2026-3-30 17:17 | 只看該作者

本帖最後由 s84292 於 2026-3-30 09:32 編輯

節省用 ram 定提升性能 ?
usei 發表於 2026-3-30 04:05

llm 運作時會快取大量最近的請求，
呢個新技術係類似jpeg壓縮咁將快取資料大量壓縮
舊的主流壓縮技術只可以壓到1/3,新技術可以壓縮到1/6
雖然係有損，但仍然保留到96~98%精度

縮小左自然慳位（少70% ram)之餘又可以慳位寬

https://github.com/sharpner/turboquant-mlx

有興趣可以參考呢個測試報告，該壓縮技術已經可以在mlx 上

不過要發揮最大性能都係要cuda,
在NVIDIA H100 GPU 上的實測顯示，TurboQuant 最高能帶來 8 倍的推理與生成速度提升。
因為nv 係算力夠，而記憶體性能跟不上

TOP

谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗

[收藏此主題] [關注此主題的新回覆]

[通過 QQ、MSN 分享給朋友]