※ 引述《LDPC (Channel Coding)》之銘言:
: DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃
: 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間
: 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html
既然有人提推論,我就講看看訓練端
DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million
和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練
未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million
簡單用 GPT-4 : DSv3 = o1 : DSR1,但應該更多啦,不過低估在這邊不重要
整理一下目前已知+估計+rumor
GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
GPT-4 : >$100 million
DeepSeekR1 (DSR1): ~$12 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million
也就是說目前市面上的訓練成本會下降至少 ~50 倍
反過來說是同樣的預算下,若忽視模型設計和 tokenization
模型的迭代週期也會暴漲約 50 倍
我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS
而且在未來六個月會不斷看到新聞是
某某模型訓練成本下降 10% 或加快 10%
或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑
這樣的新聞
另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE
並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好
而且只要 test-time 時間越長,成果就成線性的更好
-
結論是
我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽
只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法
他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI
加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍
大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止
因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距
先得到聖杯的人贏者通吃
沒有留言:
張貼留言