掌握最即時的股市資訊

2025年1月27日 星期一

Re: [請益] 費半成份股全線崩盤 怎麼辦?


Re: [請益] 費半成份股全線崩盤 怎麼辦? - 看板 Stock - 批踢踢實業坊
既然有人提推論,我就講看看訓練端 DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練 未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million 簡單用 GPT-4 : DSv3 = o1 : DSR1,但應該更多啦,不過低估在這邊不重要 整理一下目前已知+估計+rumor GPT-3 : ~$4.6 million DeepSeekV3 (DSv3): ~$5.576 million GPT-4 : >$100 million DeepSeekR1 (DSR1): ~$12 million OpenAI's o1 Model: ~$200 million GPT-5 : ~$500 million 也就是說目前市面上的訓練成本會下降至少 ~50 倍 反過來說是同樣的預算下,若忽視模型設計和 tokenization 模型的迭代週期也會暴漲約 50 倍 我敢說現在 Meta, OpenAI, MS, Google 的伺服器裡面一定滿滿都是 DS 而且在未來六個月會不斷看到新聞是 某某模型訓練成本下降 10% 或加快 10% 或是 OpenAI 成功部屬更低成本的模型,赤字大幅下滑 這樣的新聞 另外 DSR1 也展現了更進化的 CoT,只是單單將推論過程暴露給 MoE 並允許退回驗證回答,這樣的 pipeline 就足以讓模型更好 而且只要 test-time 時間越長,成果就成線性的更好 - 結論是 我覺得 DS 的出現不會讓資本資出減少,反而是開啟另一輪軍備競賽 只要巨頭們意識到其他巨頭正在複製 DS 的成功,而且甚至更有效率的方法 他們只能繼續加大支出,而且部分的巨頭可能可以轉虧為盈,譬如 OpenAI 加速 50 倍很多嗎?你加速 50 倍,我就要加速 100 倍 大家都加速一百倍的時候,我要加速五百倍,直到開發出 AGI 為止 因為現在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距 先得到聖杯的人贏者通吃 ※ 引述《LDPC (Channel Coding)》之銘言: : DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃 : 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間 : 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.136 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737964753.A.06E.html

沒有留言:

張貼留言