掌握最即時的股市資訊

2025年2月1日 星期六

Re: R: [請益] 為什麼中國越來越強?


Re: R: [請益] 為什麼中國越來越強? - 看板 Stock - 批踢踢實業坊
怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構 和軟體 就是一個苦力枯燥活) 大體而言 在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16 (浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp16 去訓練LLM這類模型 大多都會崩 直到bf16這種新型的16進位出來 這時候訓練成本 (等於同架構算力變兩倍) 直接下到一半 在過去很少人在訓練用fp8(8位元)精度 去訓練模型 因為先天認為就是模型不穩 (順帶一提 在inference 把模型降到int8 是一個常見降成本做法 但training就很難) 然後deepseek 這個做得很好 他們重寫底層cuda優化 (寫ptx 直接優化硬體並列) 硬生生的把訓練pipeline寫出了一個fp8的版本 這又讓算力直接變兩倍 (*1) 我找到一篇稍微講他們並列設計方式軟體優化整理 https://finance.sina.com.cn/roll/2025-01-01/doc-inecmssv2908917.shtml 該編直接破題 捲工程 MoE 有一個最大挑戰就是 通訊成本 以及如何把通訊成本降下來 DeepSeek也是圍繞在 NVLink Load Balance (*2) 這也是圍繞在高throughput的NVLink 優化活 https://news.cnyes.com/news/id/5847731 *1和*2基本上就是圍繞NV卡Cuda底層的軟體優化活 QQ 這玩意不能無痛移植到其他架構 會是完全不一樣的推倒重練活 甚至硬體不支援無法複製 https://blog.csdn.net/weixin_42082868/article/details/130158784 而MoE對VRAM要求很高 說不需要HBM的 =_=......畢竟記憶體在LLM是一個重要參數 有很多算法是拿記憶空間換算力 (cache <-> 計算 參考白算盤) 因為是MoE 所以意味者每個token產生 只用了模型37B參數 這意味者 你的智能上限 就是37B參數的智能 這也意味者現階段600B Dense 模型 上限可以更高 (有點像你在思考一個問題瞬間時刻 只用了腦容量10%跟 腦容量100%) 這也是為何MoE在Fine-Tune 基於泛化不足 難度會比Dense模型不穩 在Inference端 受益於 1. KV Cache壓縮 ( Multi-head Latent Attention) 2. 37B參數運算量 per token 3. MLP (multi-token prediction) (參照Medusa這類paper) 每次不是一個個token產生 而是一次產生兩個token (你也可以推廣到n顆預測 但n>2 token 每次預測 失誤率會變高 等於做白工) 所以產出token速度會造成同架構600B模型大概 10倍快 然後搭配老黃B200 int8 算力https://36kr.com/p/2927059579722630 老黃硬體也可以受益這種低精度 搭配MoE 解放出能提供的更多人數上限 (Inference Capaciy是單次訪問算力x人數) LLM現在最大門檻就是inference速度慢 很多paper都在環繞1,2,3推廣 而deep seek就是把現階段最好的1,2,3搭起來 搭AI Backend key take away 通篇deepseek其實是把近年來所有經典算法圍繞在NV的cuda底層優化 所以要把這算法複製在其他平台 會重新遇到一個底層優化的問題 就像AMD底層優化 並不如cuda好 而這次大概就是ai backend 碼農 看到中國deekseek做得很好 個人建議 如果沒NV卡 手上有M1/M2/M3晶片 可以嘗試把上面123玩玩看 現在pytorch 有針對Mac GPU優化 (指令 device="mps" 如果你有NV卡那就不用多此一舉) https://github.com/karpathy/minGPT 強烈建議手刻KV Cache ( https://github.com/Zefan-Cai/KVCache-Factory ) https://dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/ KV Cache 開發是現在LLM裡面的顯學之一 除了增加就業能力 還可以幫助你股版吵架能力 @@/ -- 以後薯條炸到一半 你可以直接跟買漢堡客戶吵起LLM話題 股版吵架吵起來!!!!! 現在你想進入OpenAI 刷AI Backend會比走AI research容易 現在大廠都缺AI Backend ※ 引述《afflic (afflic)》之銘言: : 給一些覺得中國很爛的人看看市場現在在擔心些什麼 : 艦長J快訊 重要的突破要多寫一次 : 2025/1/31 : 總之,這幾天是一次很燒腦的過年假期,感覺比平常還要認真研讀資料,甚至大年初一晚 : 上還有大陸券商辦專家論壇..... 這個市場實在太捲。 : 當然,花了這些精神做功課,就是要研究一下開年後的投資動作,究竟是新春大特賣趕快 : 撿便宜、還是苗頭不太對腳底要抹油?很遺憾的,這幾天研究下來,個人目前對硬體的看 : 法越來越偏向後者,但相關的AI應用卻可能加速發展。 : DS的論文重點以及它在演算法上的突破,網路上已經有很多人分享,我就不再贅述;直接 : 講幾個觀察到的重點吧~ : 1. 還記得Apple為了推銷Apple Intelligence,將iPhone 全面升級到8GB以上嗎?這僅僅 : 是為了跑一個3B 參數的小模型而已。 現在,有人成功用一張 Nvidia RTX 6000 (48GB V : RAM) 就可以跑動 DS 671bn 參數的大模型,而且這個模型還開源可以直接下載。 : 這代表什麼意思?以後企業或個人要佈建AI,可能買一台具有高階顯卡的電腦就做的到。 : 不用每個月花200USD訂閱OpenAI、不用CSP租賃昂貴的AI server & 網路..... 在地端佈 : 署AI 變得簡單&便宜許多。這兩天已經有看到朋友的公司開始研究把AI模型的佈建轉為 : 在地端執行的可能性。 : 2 各大廠紛紛投入:短短幾天,可以看到微軟、AWS、NVIDIA 都開始提供DS R1 模型的服 : 務。由於對硬體的要求的確不高,百萬token 輸出的價格只要2.19美元(作為對比: Ope : nAI的輸出價格爲60美元/百萬Token),價差接近30倍。 : NVIDIA 官方也有描述:在單個NVIDIA HGX H200系統上,完整版DeepSeek-R1 671B的處理 : 速度可達3,872 Token/秒。僅需一個系統就可以完整運作DS R1 大模型。就算企業依然需 : 要利用雲端來佈建AI,需要的系統&價格也比之前簡化許多。 : 3 NV關鍵優勢不再? 這兩年來,我們持續提到NV產品在大模型與高運算力方面的優勢, : 包括記憶體的使用、NVlink多卡串聯、Scale-up/out 的領先等等;在探討下一代Rubin或 : 更後面的產品,討論的是一個機櫃做到NVL 144/288 、如何處理這麼大功耗的產品、系統 : 架構該如何演進等等;重點不僅僅是“教主產品做的比別人好”,而是“不用教主的產品 : 就根本無法訓練&使用這些大的模型”。 : 忽然間,這個必要性被打了一個大問號。 : 進而延伸的問題:HBM、CoWoS等等原本為了在空間體積功耗等等限制下塞進最多算力的技 : 術,是不是仍然必要?還是有許多便宜的替代品可以用? : BTW,很多人喜歡把政治問題扯進來。對我來說,探討DS本身到底用了多少卡有意義嗎? : 沒有,重點是現在實際佈署R1的硬體需求就是極低;其次,它有沒有抄OpenAI? 應該有吧 : ~ 不過OpenAI 的 GPTBoT 在網路上不顧版權的到處亂抓資料也不是一兩天的事情了~ : 抓完還不開源勒。對投資而言,整個市場結構的變化,比這些枝微末節的小事重要多了。 : 投資總有風險,本人過去績效不做未來獲利之保證。最近詐騙猖獗,本人不收會員、不用 : 追蹤、不騙流量、不需粉絲、更不必按讚分享開啟小鈴鐺。快訊僅供好友交流之用,如果 : 你與我看法不同,你肯定是對的千萬不要被我影響。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738376857.A.F38.html ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:29:45 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:30:54
acidrain : 看起來像軟體業的工廠版本 需要更多的作業員去改善 02/01 10:30
acidrain : 模型 扯到人力成本歐美就貴 所以東亞跟印度... 02/01 10:30
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:32:16 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:33:02
SRNOB : 抗中保台 抵制就對了 02/01 10:33
SRNOB : 這篇有料 02/01 10:34
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:35:47
jeangodard : 6 這週最有料的文 02/01 10:35
dongdong0405: 推有料 但股板老害們會看不懂 02/01 10:38
loveadu : 所以我就說了,算力是算力,工具需要人去設計算法 02/01 10:40
loveadu : 有個電路板就喊老AI,難怪自己買美債 02/01 10:41
hamnett17th : 專業 02/01 10:41
TIPPK : (美國)(美國) 02/01 10:43
Jeff1989 : 感謝分享 02/01 10:43
curlymonkey : 專業文 看不懂 02/01 10:44
yyyou : 謝謝大爺 02/01 10:46
rayisgreat : 專業文>< 02/01 10:46
cablate : 推,但股版看不懂,只會跟你說趕快賣NV GG買中國A 02/01 10:46
cablate : 股 02/01 10:46
jeangodard : 所以根本上 DS做得最好的就是去優化cuda的效能 02/01 10:47
jeangodard : 讓nv的gpu能達到更強的能力嗎 02/01 10:47
cablate : 是的,DS目前最有價值的部分就是優化算法 02/01 10:48
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:49:32
tomdavis : 後面就是照抄 把1 2通通移植到其他模型上 02/01 10:48
FICA : 推專業 02/01 10:50
tomdavis : 這個工作沒辦法給AI做XD code只能由碼農來寫XD 02/01 10:50
zaqimon : 所以AI無法自己優化自己底層的code嗎!? 02/01 10:51
zaqimon : 還是DeepSeek員工也都用AI在寫程式!? 02/01 10:52
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:52:37
Windtears : ontrols 02/01 10:52
cablate : 當算法改進,接著卷的一樣是設備,當初各種大神優 02/01 10:52
cablate : 化各種程式演算法在強化基礎建設,你看現在有因為 02/01 10:52
cablate : 演算法而將硬體設備停留在10年前嗎 02/01 10:52
zaqimon : 還是與其花時間問AI 還不如自己寫程式比較快 02/01 10:53
tsukirit : 是沒有,但硬體不見得值那種溢價 02/01 10:53
cablate : 優化底層code你也要提供人類想法,AI沒有你各位想 02/01 10:54
cablate : 的那麼聰明,會問為什麼AI不能優化AI就是還不夠清 02/01 10:54
cablate : 楚AI怎麼運作的,再次提醒現在AI還不是AGIㄛ 02/01 10:54
tsukirit : 網路到處都是WIFI,4G 5G 超普及,但硬體也沒多賺 02/01 10:55
cablate : 溢價兩個字很曖昧,怎樣才算溢價,現在回頭看當初 02/01 10:55
cablate : 各種顯卡,其實也不值那個價格,不是嗎XD 02/01 10:55
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:57:30
axia : 請問ai backend有哪些相關技能可以入門呢 02/01 11:05
AudiA4Avant : 那個底層優化不能移植不同GPU不是? 02/01 11:05
LDPC : 當你node跟node間通訊速度低於一個值 啥優化都沒用 02/01 11:06
LDPC : nvda還有transformer硬體加速 amd沒有 02/01 11:07
lpmybig : LDai救命 老黃跪太慢了 02/01 11:09
LDPC : 樓上一起當韭菜吧 @@ a08說龍山寺還有位子 02/01 11:10
cablate : 韭菜,一起,強大! 02/01 11:10
jiansu : 推 專業 優化算法減少硬體成本是持續永久的 以前的 02/01 11:14
jiansu : 硬體也有機會受惠 這次很多舊硬體拿來跑本地Ai 拼 02/01 11:14
jiansu : 算力就要the more you buy the more you save 這次 02/01 11:14
jiansu : 成本降低遠大於預期 會造成預期獲利方式改變 要修 02/01 11:14
jiansu : 正產業估值和發展模式 算力硬體還是剛需 但可能會 02/01 11:14
jiansu : 變化 另外人有優化硬體想法 Ai有機會幫忙實作XD 02/01 11:14
spa41260 : 算力需求當然是會越來越多,但會不會像現在溢價搶 02/01 11:15
spa41260 : 貨就是個問題了 02/01 11:15
cablate : 總結,晶片/顯卡長期利多,除非AI技術有超大突破, 02/01 11:18
cablate : 大家發現不需要這兩個玩意也能訓練出大模型 02/01 11:18
WTF55665566 : 說白了Deepseek就不是革命性創新 算是演算法革新 02/01 11:22
WTF55665566 : 讓AI運算更有效率 類似遊戲的優化做的好這樣 02/01 11:22
WTF55665566 : 但這種東西大廠要拆解學習也很快 等大廠大團隊跟的 02/01 11:23
WTF55665566 : 差不多了 最後還是回到算力需求跟加大算力軍備競賽 02/01 11:23
WTF55665566 : 02/01 11:23
Skydier : 笑了 一個前幾天還在說DS是假的咖小還在評論ㄚ 02/01 11:25
black205 : 奇怪 不是說套皮嗎 怎麼又開始硬拗了 02/01 11:25
etset : 認真學炸薯條了 02/01 11:25
black205 : 突然又在裝業內 不是創新只是革新 笑死人 02/01 11:25
black205 : 進步毒瘤 02/01 11:26
Skydier : 不愧是政嘿貨色 水準可見一斑 02/01 11:26
pideo : 結論就是美豬就他媽的一群懶鬼啊,只想整天爽,然 02/01 11:27
pideo : 後拿高薪啊 02/01 11:27
pideo : 隔壁5毛是捲到啥都能降成本 02/01 11:28
QQ 這個是環境問題 美國的tiktok部門 同是中國人 已經卷輸中國本土tiktok部門 現在中國人除非沒地方去 也不太會去美國本土tiktok 因為要對打中國本土tiktok ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:30:21
epephanylo : 期待這波討論熱潮過去 會有人整理各種懶人包 XD 02/01 11:29
skullno2 : 這種文章我只能叫AI看完再教我惹 02/01 11:32
hicoy : 降成本剛好是中國的強項 花錢大手大腳的歐美人學不 02/01 11:32
hicoy : 來的 02/01 11:32
WTF55665566 : 偷別人的主架構跟套皮優化又不衝突?更甚者本來就 02/01 11:34
WTF55665566 : 是只花優化成本其餘靠別人才可能壓低成本啊 02/01 11:34
hicoy : 然後一堆人還在糾結硬體相關的 沒看到美股錢都塞到 02/01 11:34
hicoy : 軟體應用去了 02/01 11:34
WTF55665566 : 美國人也不是學不來 而是全球化產業分工後他們把這 02/01 11:34
WTF55665566 : 塊都切給海外盟友來做了 日韓台都是 02/01 11:34
WTF55665566 : 說轉向軟體股的去年就在喊了 結果也是雷聲大雨點小 02/01 11:37
WTF55665566 : 軟體目前獲利模式還是不夠穩定 Chatgpt也還得扛龐 02/01 11:37
WTF55665566 : 大成本 02/01 11:37
stocktonty : 就像要特定的CPU跟板子跟電壓才能超頻的意思 02/01 11:37
stocktonty : 用更高的CPU或是別的板子反而超不到那個時脈 02/01 11:38
hpk89 : 卷軟體人力的話不見得中國就吃香,因為後面還有一 02/01 11:41
hpk89 : 個人更多的印度虎視眈眈 02/01 11:41
iamaq18c : 趕快推 否則會被人發現看不懂XDDD 02/01 11:48
panda816 : 中國內卷出來的東西還能吃到全球華語市場 而且使用 02/01 11:50
panda816 : 習慣上更貼近華語圈的人 02/01 11:50
HenryLin123 : 你要去哪間炸薯條,我跟你買可以幫我鏟爆嗎? 02/01 11:52
panda816 : 印度?我覺得文化差別太大了 他們研發的產品自己用 02/01 11:52
panda816 : 是沒問題 推廣到外國就不看好了 02/01 11:52
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:55:39
ppuuppu : 別去麥當當了,在美國賣地瓜/甘梅薯條會不會賣爆阿 02/01 11:55
ppuuppu : ? 02/01 11:55
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:57:33
HenryLin123 : 地瓜薯條沒看過有人賣,但是你地瓜進價可能也會很 02/01 12:04
HenryLin123 : 貴。 02/01 12:04
ksjr : sweet potato fries不算嗎? 02/01 12:08
q8977452 : 還特地左轉 看是否為stock 板... 02/01 12:08
q8977452 : 臺灣就沒軟體呀...強的都去外商囉 02/01 12:09
ctes940008 : 專業,不過微軟這兩天是發生什麼事..... 02/01 12:13
ga278057 : 太專業了 02/01 12:14
ga278057 : 懶包中國軟體做得很好起飛了,灣硬體遲早沒未來 02/01 12:17
DPP48 : 專業推 02/01 12:25

沒有留言:

張貼留言