最懂你的股市快報: [新聞] GPT-5.2正式亮相！長文件推理逼近滿分、

[新聞] GPT-5.2正式亮相！長文件推理逼近滿分、 - 看板 Stock - 批踢踢實業坊

作者jeff0025 (無法顯示人物名稱)

看板Stock

標題[新聞] GPT-5.2正式亮相！長文件推理逼近滿分、

時間Fri Dec 12 08:33:50 2025

原文標題： GPT-5.2正式亮相！長文件推理逼近滿分、企業應用大進化原文連結： https://ai.ettoday.net/news/3082692 發布時間： 2025年12月12日 06:09 記者署名：吳立言原文內容： OpenAI 今（12日）正式推出全新一代模型 GPT-5.2，主打專業知識工作、長任務代理（ agentic workflows）與複雜專案處理能力。OpenAI 表示，GPT-5.2 是目前最強大的模型系列，包含 Instant、Thinking 與 Pro 三種版本，將率先於 ChatGPT 付費用戶陸續開放，本日同步於 API 全面上線。 OpenAI 指出，GPT-5.2 的設計目標是協助專業人士提升效率，從製作試算表、簡報、撰寫程式碼，到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據，一般企業戶平均每天可節省 40～60 分鐘，重度用戶甚至可省下每周10 小時以上。 GPT-5.2 Thinking 在多項專業與推理評測創下新高，其中包含： GDPval（知識工作評測）：在 44 種職業任務測試中，GPT-5.2 Thinking 與產業專家相比 70.9% 達到平手或勝出，首次達到「整體專家級表現」。程式能力：在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率，刷新既有紀錄。 SWE-bench Verified（Python）：提升至 80%。高難度數學 FrontierMath（Tier 1–3）：提升至 40.3%，為新 SOTA（state of the art）。 AIME 2025（競賽數學）：達到罕見的 100%。這代表該模型在真實世界的工作流程中，更能自主偵錯、完成功能開發、重構大型程式碼庫及協助工程團隊提升開發速度。 GPT-5.2 在多項核心能力上也明顯提升。首先，長上下文推理表現突破新高，在 OpenAI MRCRv2 測試中，模型於 256k tokens 的 4-needle 任務中接近 100% 準確率，特別是在 128k～256k 範圍仍維持高度穩定，意味著能更可靠處理動輒數十萬字的合約、研究論文與大型專案文件。視覺理解方面同樣強化，GPT-5.2 Thinking 在科學圖表辨識（CharXiv）中的錯誤率約減半，在專業介面理解（ScreenSpot-Pro）更大幅領先前代，使其更適用於金融、營運、工程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄，在 τ2-bench Telecom 多輪任務中成功率達 98.7%，能更完整處理跨步驟流程，例如客服案件、資料擷取與一條龍分析生成。至於科研能力，GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92～93% 的高分， OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明，並經外部專家驗證，展現其在科學與數學研究上的實質潛力。 API 定價部分，GPT-5.2 為每百萬字元 1.75 美元（輸入）與 14 美元（輸出）， GPT-5.2 Pro 則為每百萬字元 21 美元（輸入）與 168 美元（輸出）。OpenAI 表示，雖然 GPT-5.2 單位成本較高，但由於模型在推理效率與生成品質上更精準，實際完成同等品質任務所需的總成本反而有機會降低。GPT-5.2 提供三個版本： Instant：快速、涵蓋大多數日常任務 Thinking：適合深度推理、文件分析、程式碼與大專案 Pro：最強版本，適合困難領域與最高品質需求 OpenAI 表示 GPT-5.2 整體輸出更一致、有條理，並針對敏感內容（心理健康、自傷訊息等）加強安全應答。ChatGPT Plus／Pro／Business／Enterprise 今日起陸續開放， GPT-5.1 將在三個月後從 ChatGPT 中下架（API 不受影響）。心得/評論：已反應? 這次發布後好像沒啥人在意 AI真的要泡沫化了嗎? 感覺OpenAI一直強調多強好像對一般使用者來說根本無感 Gemini有完整生態系還送2TB雲端空間又能一個人購買多人共享然後生成圖片又強 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.218.53.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765499634.A.473.html

推 Tohkachan : gemini 便宜又大碗 12/12 08:35

推 MorikonHase : gemini 不後悔中 12/12 08:35

推 Muilie : 瑟瑟呢！奧特曼也唬爛嘴！ 12/12 08:36

→ zzzzzzzzzzzy: 沒用了，永遠被gemini踩在腳下摩擦 12/12 08:36

推 lawyer94 : 話說grok被蛋雕了嗎 12/12 08:37

推 js01078687 : 競爭對消費者是好事 12/12 08:37

推 ackes : 一般人用不到的關係吧通常都只是查查東西畫畫圖 12/12 08:37

推 rxsmalllove : 抱歉估狗也會下去 12/12 08:37

推 sssallen : 不錯喔 12/12 08:38

推 ben121196 : 這邊一片看衰那我知道穩不穩了 12/12 08:39

→ mamorui : 圖咧！菇菇當初訂閱歐噴醬是為了圖！ 12/12 08:39

推 qqtab : 谷歌被吹到獨自跳水 12/12 08:42

推 kuosos520 : grok蠻好用的呀 12/12 08:42

→ agoo : gpt 比較好用 12/12 08:42

→ b9513227 : gemini根本弱智速度慢又常常a問題完了問b問題跟 12/12 08:43

→ b9513227 : 我講a問題 12/12 08:43

推 tamama000 : 記者可以去了 12/12 08:43

推 fhjqwefs : 持續競爭是好事台股3W6就靠鏟子商cc 12/12 08:43

→ tamama000 : 隨時被取代 12/12 08:43

推 Phineas2635 : 繼續吹 12/12 08:44

推 HiuAnOP : 瑟瑟Ai呢？沒有就掰掰 12/12 08:44

→ tctv2002 : 繼續競爭鏟子供應鏈發大財 12/12 08:44

→ tctv2002 : 等他們不競爭台灣就走向日本失落20年 12/12 08:44

推 LoveSports : https://i.imgur.com/N6V3Kkv.png 12/12 08:44

→ idernest : 好了啦奧特曼 12/12 08:45

推 ABC610478 : 因為有對手了 12/12 08:45

推 YumingHuang : GPT-99.9出的時候叫我、謝謝 12/12 08:45

→ LoveSports : 加強後訓練之後各家最新模型ARC-AGI-2高達50幾趴 12/12 08:46

→ LoveSports : 同一個類神經網路透過後訓練加強能力 12/12 08:46

→ YumingHuang : Grok走即時資訊串流鏈的樣子？ 12/12 08:46

推 karta018 : 不用吹，拿幾題測試下去就知道了，上次gemini是真的 12/12 08:46

→ karta018 : 拉開差距 12/12 08:46

推 smallkop : 真的厲害就不用自己發新聞了 12/12 08:47

→ LoveSports : 代表預訓練難以再突破不用推出GPT6就能有大幅進步 12/12 08:47

→ LoveSports : 美國比較多企業用戶已經用習慣GPT不會輕易換Gemini 12/12 08:48

→ LoveSports : OPEN AI得為了那些企業用戶趕上差距 12/12 08:49

推 jinxinmypant: 晚了就不要了 12/12 08:49

推 andy79323 : 過幾天開源的要發新模型 12/12 08:49

→ appledick : 現在其實已經很夠一般人使用了阿....算力過剩了 12/12 08:50

→ LoveSports : 這篇增強能力都是專業用途的，這個方向是對的 12/12 08:50

噓 strlen : 現在AI評測早就不重要的喜歡哪個AI全都是靠感覺 12/12 08:50

→ LoveSports : 光靠閒聊談限制級無法留住那些企業用戶 12/12 08:50

→ appledick : AI現在的問題是同時有巨量的人使用才會有問題..... 12/12 08:50

→ strlen : 就跟智慧手機差不多哪一牌的旗艦機功能幾乎一樣 12/12 08:50

→ strlen : 看硬體跑分也是看爽的實際上打遊戲幾乎沒差別 12/12 08:51

→ strlen : 什麼Gemini比較好 Grok比較強 GPT更人性都是感覺 12/12 08:51

→ strlen : 真叫你說差在哪你也說不出來差別啦笑死 12/12 08:52

→ appledick : 現在是看那些應用可以拿AI拿來重大突破才有意義 12/12 08:52

→ luche : grok的語文意義掌握好像與其他家不同覺得特別強 12/12 08:53

→ appledick : 不然前陣子G奶夯的時候去用GTP順到炸 12/12 08:54

推 LoveSports : 我前陣子丟六篇不同長文給各家AI分析 Gemini 3.0沒 12/12 08:54

→ strlen : 上次看OpenRouter報告 AI現在就兩大剛需應用這是付 12/12 08:54

→ LoveSports : 有搞錯六篇分別的作者 (六個作者有回來回去) 12/12 08:54

→ strlen : 費慾望最強烈的 1.聊天打屁 2.寫程式沒了 12/12 08:54

→ LoveSports : GPT5.1跟Grok4都混淆 12/12 08:54

推 fhjqwefs : 重大突破沒意義能省更多人力訂閱越划算產生盈餘才 12/12 08:54

→ fhjqwefs : 有意義 12/12 08:54

→ strlen : 其它需求和用量遠遠比不上聊天跟寫程式 12/12 08:54

推 deann : 打開還是5.1版阿 12/12 08:55

→ strlen : LLM公司要真聰明就該衝這兩個就好尤其是寫程式 12/12 08:55

噓 OxFFFF : 工作及生活交叉使用比對後，覺得chatGPT 最廢最藏 12/12 08:55

→ LoveSports : 專業用途的企業用戶也很重要，評測結果影響投資 12/12 08:55

推 FOREVER49KG : 好 12/12 08:55

推 deathoflove : 真的企業用的話某些比較保守的產業會優先用M軟cop 12/12 08:55

→ deathoflove : ilot 對很爛但誰叫他是M軟內部DD做起來無慮 12/12 08:55

推 goodevening : ai總結文章影片跟財報很不錯阿，我就是因為這樣買ge 12/12 08:55

→ goodevening : mini 12/12 08:55

推 leo850319 : image gen呢被谷歌打到不做了? 12/12 08:56

推 DogEggz : gork色色一統天下 12/12 08:56

推 flash789 : 只剩瑟瑟能夠救得了cpt了 12/12 08:56

噓 sssallen : G除了玩圖有比較厲害? 12/12 08:57

推 rxsmalllove : 我是覺得AI準確性和安全性再提高一般企業就會是消費 12/12 08:57

→ rxsmalllove : 主力了 12/12 08:57

→ appledick : G玩圖下的指令要很清楚 GTP反而不用 12/12 08:58

→ appledick : 這就是為啥大家說GTP比較人性用很白話的方式就可以 12/12 08:58

推 LoveSports : 那些AI工程師的夢想是要AI解決人類困境所以企業或 12/12 08:59

→ LoveSports : 研究方面用途絕對是他們前進的目標之一 12/12 09:00

→ LoveSports : 不能單純看到一堆人在玩角色扮演談色情就限制框架 12/12 09:00

→ LoveSports : 很多人就著重閒聊就好，矛盾的是又會被批只能聊天 12/12 09:01

推 Vincent8026 : 道德限制還是很硬 12/12 09:02

→ LoveSports : 很多人說著重聊天就好，意思是認定模型只能當笨蛋 12/12 09:02

→ LoveSports : 給人類當聊天陪伴對象或性奴就好，這種觀念太狹隘了 12/12 09:03

推 rxsmalllove : OAI有在跟消費者端的企業合作啊只是不成功變成仁？ 12/12 09:03

推 jerrychuang : 可以做ppt嗎？ 12/12 09:03

推 ikachann : GPT比較好用+1 12/12 09:04

→ ikachann : 一樣的指令下去 GPT產出的明顯比Gemini的完整且正確 12/12 09:05

→ miss32 : 是大量跳槽gemini嗎最近gemini速度變好慢 12/12 09:05

推 puppy20308 : 難怪蘋果不跳下來競爭，太激烈了，等你們打完最後 12/12 09:06

→ puppy20308 : 再來收割 12/12 09:06

推 decorum : AI讓我放棄出家庭作業給學生的做法評量都回歸測驗 12/12 09:07

→ decorum : 過去最重視的期末報告都免了因為作者八成是AI 12/12 09:08

推 mynumber55 : Gemini 最近跟屎一樣 12/12 09:09

推 linch416 : google生態系根本無敵 12/12 09:11

→ decorum : 學位論文還是不能免得花許多力氣查驗真的很討厭 12/12 09:12

推 aqlec : 哪款可以色色？ 12/12 09:12

推 snowdraught : 跑一張圖片太久了 12/12 09:12

→ terry955048 : 碼農快被消滅了..... 12/12 09:13

→ decorum : 又不能禁用因為畢業出去運用AI是基本謀生技能 12/12 09:13

推 doubi : 不知道為啥，這次不是很在意，懶得測 ... 有點麻痺 12/12 09:15

→ dslite : 變成一個問題想三分鐘嗎？ 12/12 09:16

→ doubi : 其實 Gemini GPT Grok 都差不多能用，生活中確實也 12/12 09:17

→ doubi : 會用，所以選最划算的買 12/12 09:17

→ dslite : Grok答錯率有夠高還敢嗆我 12/12 09:17

推 liliumeow : 是不是又要買回去了還是雙棲好了 12/12 09:18

推 ntr203 : 急了 12/12 09:19

推 Fubukichan : Gemini最近用3.0的回答都遠不如5.1的品質跟長度 12/12 09:21

→ dream12305 : GTP是什麼笑死 12/12 09:22

推 WeiRaymond : Gemini真的強 12/12 09:25

推 guanting886 : Gemini最近應該是一狗票人跳過去連語音講話的調調 12/12 09:26

→ guanting886 : 都變怪了 12/12 09:26

→ jenchieh5 : gemini回答那個語氣看久了蠻討厭的，就很會幫既有利 12/12 09:28

→ jenchieh5 : 益者粉飾太平的感覺 12/12 09:28

→ guanting886 : GPT5.2強可能反過來想前面幾代模型都做不到現在做 12/12 09:28

→ guanting886 : 得到發code red突然就變好了想必這個模型可能成 12/12 09:28

→ guanting886 : 本不低 12/12 09:28

推 GOOGOOfish : 問題是B2B會比B2C還轉錢嗎？ 12/12 09:28

推 chachabo : 不要再害goog了 12/12 09:28

推 doubi : GPT 5.2 的圖片生成好像中文一樣是鬼畫符 12/12 09:29

→ guanting886 : 甜蜜期應該是這一個二個月後面等大家benchmark跟 12/12 09:29

→ guanting886 : arena打一打可能就慢慢降回去能力了 12/12 09:29

→ doubi : 其實 Gemini 3 會起飛，很大程度是懂中文的關係 12/12 09:29

→ doubi : Banana 還是比較好用 12/12 09:30

→ guanting886 : Google除了學術資料、PDF OCR做很足，還有海量的數 12/12 09:32

→ guanting886 : 據再配合GA的資料真要挑高品質的資料去訓練比Op 12/12 09:32

→ guanting886 : enAi還有優勢 12/12 09:32

→ elvaismylove: 這連擠牙膏都不算 12/12 09:32

推 pt993526 : 再訂閱回來 12/12 09:33

推 willion003 : 2TB太邪惡了，還共享 12/12 09:34

推 Sawilliam : 都有付費用起來grok最鳥老是忘記之前跟他建好的 12/12 09:35

→ Sawilliam : 規則..回答也一堆錯但grok對某方面限制條件最少.. 12/12 09:35

推 Lowpapa : 沒人在乎 12/12 09:35

→ bnn : 有反應啊辜狗又要跳水了 12/12 09:36

推 redbeanbread: 雷曼殺到ai叫媽媽 12/12 09:37

推 guanting886 : Gemini圖裡面的中文做得比較好就Google的圖資比 12/12 09:37

→ guanting886 : 較多樣、品質也高這都是擴散模型生的 12/12 09:37

→ guanting886 : OpenAI想要差不多水準就是花錢買別人的 data 12/12 09:38

噓 ryan1220 : 我跳出來又站回去了你打我啊笨蛋 12/12 09:39

→ guanting886 : 但你真的追不上地表最強的爬蟲 12/12 09:39

→ OOorc : 垃圾公司 12/12 09:39

推 mouscat : 反正軍備競賽打越兇供應鏈都贏 12/12 09:41

推 alsoty : GPT可以語音聊天，其他的好像都還不行？ 12/12 09:46

→ hatland86 : 早在幾個月前就退訂GPT用Gemini 但我不覺得是誰超 12/12 09:47

→ hatland86 : 越誰的問題發展到後面應該是會並行 12/12 09:47

推 gladopo : 可以色色嗎 12/12 09:48

推 ilovebig99 : 最近Gemini 根本就連不上，好幾次一個問半天沒回應 12/12 09:49

→ ilovebig99 : ，還是回去用ChatGPT 了，ChatGPT 都回玩了，Gemini 12/12 09:49

→ ilovebig99 : 還在那邊轉啊轉。 12/12 09:49

→ csy0922 : Notebooklm跟Nanobanana以外的Gemini就是一坨一堆 12/12 09:49

→ csy0922 : 有的沒的幻覺下指令這樣繼續瞎掰 12/12 09:49

推 shrimprock : AI模型看來沒護城河生態系才有谷歌勝 12/12 09:50

推 hotlatte : 開始小米化了 12/12 09:51

推 yulun1984 : 免費仔用G 12/12 09:51

推 mynumber55 : 很簡單啊，算力根本不夠 12/12 09:52

→ yunf : 不要再吹openai啦我知道他很厲害你不會出 gemini的 12/12 09:53

→ yunf : 比較喔 12/12 09:53

→ strlen : NanoBanana另一個點是為什麼可以無視版權生角色圖 12/12 09:54

→ strlen : GPT弄個吉卜力只是風格就被臭幹 12/12 09:54

→ strlen : Banana是可以直接生鬼滅吉伊卡哇角色 12/12 09:55

推 BBKOX : 戰國時代不要只壓一邊 12/12 09:55

推 bornwinner : 能自己更新程式碼再說 12/12 09:56

→ strlen : 然後沒人在乎狗家侵權？還是巨頭蛇麼都可以 12/12 09:56

推 Sean0211 : 現在目標是AI取代投顧那就真的神了 12/12 09:57

推 linleex : agi已經實現了 12/12 09:59

→ yunf : 投顧轉型用ai好嗎 12/12 10:00

推 heybro : 估狗屌打 12/12 10:00

推 as6633208 : 猛屌打Gemini 3 12/12 10:04

推 shrimprock : 跟瀏覽器大戰一樣最後贏不是誰強而是誰有作業系 12/12 10:04

→ shrimprock : 統 12/12 10:04

→ BBKOX : 作業系統就windows 12/12 10:05

→ as6633208 : 錯，現階段AI比的就是誰答案好，因為現階段AI還會犯 12/12 10:07

→ as6633208 : 傻有瓶頸，遠遠還沒到大家都一樣好比得是應用的階段 12/12 10:07

推 opticalman : 看來分歧，互有支持者，表示gpt gemini grok 差不 12/12 10:08

→ opticalman : 多就這樣了，很難落差很大 12/12 10:08

→ rxsmalllove : 你在看哪落差很大只是各有優勢 12/12 10:09

推 andboypig : 剛剛問了本人 5.2還沒發佈 12/12 10:09

→ mouscat : grok沒辦法跟這兩個比吧 12/12 10:09

推 SuiseiTrain : 反殺 12/12 10:10

推 as6633208 : 屌打Gemini 3 12/12 10:11

推 tsubasawolfy: 5.2付費用戶已經上了 12/12 10:12

推 opticalman : got deepseek Gemini gork gpt ....未來還有很多新 12/12 10:16

→ opticalman : 人橫空出世啦，水平會越拉越近，很難獨強 12/12 10:16

推 kakar0to : 被google生態系屌打 chatgpt這個穴已經沒用了 12/12 10:16

推 kenslc199 : 人多的地方不要去包含AI cc 12/12 10:17

推 Jeff1989 : 逼一逼還是能發揮潛能的 12/12 10:19

→ as6633208 : m365 copilot 就是一個例子，生態系比google還廣， 12/12 10:21

→ as6633208 : 但就是不好用，模型答案準確答案好才是重點，空有生 12/12 10:21

→ as6633208 : 態系沒屌用，模型夠強生態系反而小事 12/12 10:21

推 opticalman : 大家手上都有老黃的gpu，人人都有機會針對缺點優勢 12/12 10:23

→ opticalman : 去改善和挑戰領先者 12/12 10:23

→ bnn : 模型大家都還在改進啊這次gpt不就demo搞投影片生成 12/12 10:23

→ bnn : 自動做試算表這些功能之前就沒訓練還是LLM對話 12/12 10:24

→ bnn : 然後之前claude則是先著重代碼生成每家方針不同 12/12 10:25

推 breathair : 誰強點，誰弱點不重要，都差不多，沒有拉開代差，比 12/12 10:27

→ breathair : 氣長誰都知道誰會死，每個人都知道的話就是死亡螺旋 12/12 10:27

推 mikuyoyo : 有在用都知道gpt回答屌打全部，gemini 只是功能比較 12/12 10:27

→ mikuyoyo : 多和能跟Google整合而已 12/12 10:27

推 as6633208 : 笑死就是因為這條賽道打不贏，才會扯到外部生態系 12/12 10:28

→ as6633208 : ，誰錢多氣長 12/12 10:28

→ mouscat : 我覺得Gemini 的回答方式比較好懂啦 12/12 10:28

→ as6633208 : 就是輸人才一直扯外部找藉口 12/12 10:29

→ as6633208 : 超好笑 12/12 10:29

→ mouscat : Google是反NVDA大聯盟那邊的吧用AVGO晶片 12/12 10:31

推 breathair : 谷歌是打防守，跟進攻方的難度不是一樣的 12/12 10:34

推 yogofresh : 太貴了。有些問題我問DeepSeek反而能得到更好的回答 12/12 10:34

推 salamender : 有競爭才是好事，chatgpt還是有優點阿 12/12 10:41

→ shirleyEchi : 讓他來分析舊金山和約寫了什麼 12/12 10:43

推 kogsww : 來不及了已退訂 12/12 10:43

推 OhmaZiO : 5.2 也沒用還不是繼續說謊+詭辯+道歉 12/12 10:44

噓 rumblefish : AI不要再搶辦公室工作了 12/12 10:46

→ orz811017 : 現在就是反狗家聯軍進攻的回合 12/12 10:49

→ orz811017 : 六大教派圍攻光明頂 12/12 10:49

推 jboys75 : 每次都吹的很強結果…這次觀望一下 12/12 10:49

推 max117980 : ChatGPT 政策一大堆這個不行那個不行前陣子會兩邊 12/12 10:49

→ max117980 : 都貼對比一下答案真的還是Gemini 比較強已經好幾 12/12 10:49

→ max117980 : 天沒用GPT了 12/12 10:49

推 kakalin : 感覺各個AI專精不同領域也是不錯的分工 12/12 10:51

最懂你的股市快報

2025年12月12日星期五

[新聞] GPT-5.2正式亮相！長文件推理逼近滿分、

沒有留言:

張貼留言

最懂你的股市快報

2025年12月12日 星期五

[新聞] GPT-5.2正式亮相！長文件推理逼近滿分、

沒有留言:

張貼留言

2025年12月12日星期五