原文標題: GPT-5.2正式亮相!長文件推理逼近滿分、企業應用大進化
原文連結: https://ai.ettoday.net/news/3082692
發布時間: 2025年12月12日 06:09
記者署名: 吳立言
原文內容:
OpenAI 今(12日)正式推出全新一代模型 GPT-5.2,主打專業知識工作、長任務代理(
agentic workflows)與複雜專案處理能力。OpenAI 表示,GPT-5.2 是目前最強大的模型
系列,包含 Instant、Thinking 與 Pro 三種版本,將率先於 ChatGPT 付費用戶陸續開
放,本日同步於 API 全面上線。
OpenAI 指出,GPT-5.2 的設計目標是協助專業人士提升效率,從製作試算表、簡報、撰
寫程式碼,到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據,一般
企業戶平均每天可節省 40~60 分鐘,重度用戶甚至可省下每周10 小時以上。
GPT-5.2 Thinking 在多項專業與推理評測創下新高,其中包含:
GDPval(知識工作評測):在 44 種職業任務測試中,GPT-5.2 Thinking 與產業專家相
比 70.9% 達到平手或勝出,首次達到「整體專家級表現」。
程式能力:在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率,刷新既有紀錄。
SWE-bench Verified(Python):提升至 80%。
高難度數學 FrontierMath(Tier 1–3):提升至 40.3%,為新 SOTA(state of the
art)。
AIME 2025(競賽數學):達到罕見的 100%。
這代表該模型在真實世界的工作流程中,更能自主偵錯、完成功能開發、重構大型程式碼
庫及協助工程團隊提升開發速度。
GPT-5.2 在多項核心能力上也明顯提升。首先,長上下文推理表現突破新高,在 OpenAI
MRCRv2 測試中,模型於 256k tokens 的 4-needle 任務中接近 100% 準確率,特別是在
128k~256k 範圍仍維持高度穩定,意味著能更可靠處理動輒數十萬字的合約、研究論文
與大型專案文件。
視覺理解方面同樣強化,GPT-5.2 Thinking 在科學圖表辨識(CharXiv)中的錯誤率約減
半,在專業介面理解(ScreenSpot-Pro)更大幅領先前代,使其更適用於金融、營運、工
程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄,在 τ2-bench
Telecom 多輪任務中成功率達 98.7%,能更完整處理跨步驟流程,例如客服案件、資料擷
取與一條龍分析生成。
至於科研能力,GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92~93% 的高分,
OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明,並經外部專
家驗證,展現其在科學與數學研究上的實質潛力。
API 定價部分,GPT-5.2 為每百萬字元 1.75 美元(輸入)與 14 美元(輸出),
GPT-5.2 Pro 則為每百萬字元 21 美元(輸入)與 168 美元(輸出)。OpenAI 表示,雖
然 GPT-5.2 單位成本較高,但由於模型在推理效率與生成品質上更精準,實際完成同等
品質任務所需的總成本反而有機會降低。GPT-5.2 提供三個版本:
Instant:快速、涵蓋大多數日常任務
Thinking:適合深度推理、文件分析、程式碼與大專案
Pro:最強版本,適合困難領域與最高品質需求
OpenAI 表示 GPT-5.2 整體輸出更一致、有條理,並針對敏感內容(心理健康、自傷訊息
等)加強安全應答。ChatGPT Plus/Pro/Business/Enterprise 今日起陸續開放,
GPT-5.1 將在三個月後從 ChatGPT 中下架(API 不受影響)。
心得/評論:
已反應? 這次發布後好像沒啥人在意 AI真的要泡沫化了嗎?
感覺OpenAI一直強調多強好像對一般使用者來說根本無感
Gemini有完整生態系 還送2TB雲端空間 又能一個人購買多人共享
然後生成圖片又強
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.218.53.138 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765499634.A.473.html
推 Tohkachan : gemini 便宜又大碗 12/12 08:35
推 MorikonHase : gemini 不後悔中 12/12 08:35
推 Muilie : 瑟瑟呢! 奧特曼也唬爛嘴! 12/12 08:36
→ zzzzzzzzzzzy: 沒用了,永遠被gemini踩在腳下摩擦 12/12 08:36
推 lawyer94 : 話說grok被蛋雕了嗎 12/12 08:37
推 js01078687 : 競爭對消費者是好事 12/12 08:37
推 ackes : 一般人用不到的關係吧 通常都只是查查東西 畫畫圖 12/12 08:37
推 rxsmalllove : 抱歉 估狗也會下去 12/12 08:37
推 sssallen : 不錯喔 12/12 08:38
推 ben121196 : 這邊一片看衰 那我知道穩不穩了 12/12 08:39
→ mamorui : 圖咧! 菇菇當初訂閱歐噴醬是為了圖! 12/12 08:39
推 qqtab : 谷歌被吹到獨自跳水 12/12 08:42
推 kuosos520 : grok蠻好用的呀 12/12 08:42
→ agoo : gpt 比較好用 12/12 08:42
→ b9513227 : gemini根本弱智 速度慢 又常常a問題完了問b問題跟 12/12 08:43
→ b9513227 : 我講a問題 12/12 08:43
推 tamama000 : 記者可以去 了 12/12 08:43
推 fhjqwefs : 持續競爭是好事 台股3W6就靠鏟子商cc 12/12 08:43
→ tamama000 : 隨時被取代 12/12 08:43
推 Phineas2635 : 繼續吹 12/12 08:44
推 HiuAnOP : 瑟瑟Ai呢?沒有就掰掰 12/12 08:44
→ tctv2002 : 繼續競爭 鏟子供應鏈發大財 12/12 08:44
→ tctv2002 : 等他們不競爭 台灣就走向日本失落20年 12/12 08:44
→ idernest : 好了啦 奧特曼 12/12 08:45
推 ABC610478 : 因為有對手了 12/12 08:45
推 YumingHuang : GPT-99.9出的時候叫我、謝謝 12/12 08:45
→ LoveSports : 加強後訓練之後各家最新模型ARC-AGI-2高達50幾趴 12/12 08:46
→ LoveSports : 同一個類神經網路透過後訓練加強能力 12/12 08:46
→ YumingHuang : Grok走即時資訊串流鏈的樣子? 12/12 08:46
推 karta018 : 不用吹,拿幾題測試下去就知道了,上次gemini是真的 12/12 08:46
→ karta018 : 拉開差距 12/12 08:46
推 smallkop : 真的厲害就不用自己發新聞了 12/12 08:47
→ LoveSports : 代表預訓練難以再突破 不用推出GPT6就能有大幅進步 12/12 08:47
→ LoveSports : 美國比較多企業用戶 已經用習慣GPT不會輕易換Gemini 12/12 08:48
→ LoveSports : OPEN AI得為了那些企業用戶趕上差距 12/12 08:49
推 jinxinmypant: 晚了就不要了 12/12 08:49
推 andy79323 : 過幾天開源的要發新模型 12/12 08:49
→ appledick : 現在其實已經很夠一般人使用了阿....算力過剩了 12/12 08:50
→ LoveSports : 這篇增強能力都是專業用途的,這個方向是對的 12/12 08:50
噓 strlen : 現在AI評測早就不重要的 喜歡哪個AI全都是靠感覺 12/12 08:50
→ LoveSports : 光靠閒聊談限制級無法留住那些企業用戶 12/12 08:50
→ appledick : AI現在的問題是 同時有巨量的人使用才會有問題..... 12/12 08:50
→ strlen : 就跟智慧手機差不多 哪一牌的旗艦機功能幾乎一樣 12/12 08:50
→ strlen : 看硬體跑分也是看爽的 實際上打遊戲幾乎沒差別 12/12 08:51
→ strlen : 什麼Gemini比較好 Grok比較強 GPT更人性 都是感覺 12/12 08:51
→ strlen : 真叫你說差在哪 你也說不出來差別啦 笑死 12/12 08:52
→ appledick : 現在是看那些應用可以拿AI拿來重大突破才有意義 12/12 08:52
→ luche : grok的語文意義掌握好像與其他家不同 覺得特別強 12/12 08:53
→ appledick : 不然前陣子G奶夯的時候 去用GTP順到炸 12/12 08:54
推 LoveSports : 我前陣子丟六篇不同長文給各家AI分析 Gemini 3.0沒 12/12 08:54
→ strlen : 上次看OpenRouter報告 AI現在就兩大剛需應用 這是付 12/12 08:54
→ LoveSports : 有搞錯六篇分別的作者 (六個作者有回來回去) 12/12 08:54
→ strlen : 費慾望最強烈的 1.聊天打屁 2.寫程式 沒了 12/12 08:54
→ LoveSports : GPT5.1跟Grok4都混淆 12/12 08:54
推 fhjqwefs : 重大突破沒意義 能省更多人力訂閱越划算產生盈餘才 12/12 08:54
→ fhjqwefs : 有意義 12/12 08:54
→ strlen : 其它需求和用量遠遠比不上聊天跟寫程式 12/12 08:54
推 deann : 打開還是5.1版阿 12/12 08:55
→ strlen : LLM公司要真聰明 就該衝這兩個就好 尤其是寫程式 12/12 08:55
噓 OxFFFF : 工作及生活交叉使用比對後,覺得chatGPT 最廢最藏 12/12 08:55
→ LoveSports : 專業用途的企業用戶也很重要,評測結果影響投資 12/12 08:55
推 FOREVER49KG : 好 12/12 08:55
推 deathoflove : 真的企業用的話 某些比較保守的產業會優先用M軟cop 12/12 08:55
→ deathoflove : ilot 對 很爛 但誰叫他是M軟 內部DD做起來無慮 12/12 08:55
推 goodevening : ai總結文章影片跟財報很不錯阿,我就是因為這樣買ge 12/12 08:55
→ goodevening : mini 12/12 08:55
推 leo850319 : image gen呢 被谷歌打到不做了? 12/12 08:56
推 DogEggz : gork色色一統天下 12/12 08:56
推 flash789 : 只剩瑟瑟能夠救得了cpt了 12/12 08:56
噓 sssallen : G除了玩圖有比較厲害? 12/12 08:57
推 rxsmalllove : 我是覺得AI準確性和安全性再提高一般企業就會是消費 12/12 08:57
→ rxsmalllove : 主力了 12/12 08:57
→ appledick : G玩圖下的指令要很清楚 GTP反而不用 12/12 08:58
→ appledick : 這就是為啥大家說GTP比較人性 用很白話的方式就可以 12/12 08:58
推 LoveSports : 那些AI工程師的夢想是要AI解決人類困境 所以企業或 12/12 08:59
→ LoveSports : 研究方面用途絕對是他們前進的目標之一 12/12 09:00
→ LoveSports : 不能單純看到一堆人在玩角色扮演談色情就限制框架 12/12 09:00
→ LoveSports : 很多人就著重閒聊就好,矛盾的是又會被批只能聊天 12/12 09:01
推 Vincent8026 : 道德限制還是很硬 12/12 09:02
→ LoveSports : 很多人說著重聊天就好,意思是認定模型只能當笨蛋 12/12 09:02
→ LoveSports : 給人類當聊天陪伴對象或性奴就好,這種觀念太狹隘了 12/12 09:03
推 rxsmalllove : OAI有在跟消費者端的企業合作啊 只是不成功變成仁? 12/12 09:03
推 jerrychuang : 可以做ppt嗎? 12/12 09:03
推 ikachann : GPT比較好用+1 12/12 09:04
→ ikachann : 一樣的指令下去 GPT產出的明顯比Gemini的完整且正確 12/12 09:05
→ miss32 : 是大量跳槽gemini嗎 最近gemini速度變好慢 12/12 09:05
推 puppy20308 : 難怪蘋果不跳下來競爭,太激烈了,等你們打完最後 12/12 09:06
→ puppy20308 : 再來收割 12/12 09:06
推 decorum : AI讓我放棄出家庭作業給學生的做法 評量都回歸測驗 12/12 09:07
→ decorum : 過去最重視的期末報告都免了 因為作者八成是AI 12/12 09:08
推 mynumber55 : Gemini 最近跟屎一樣 12/12 09:09
推 linch416 : google生態系根本無敵 12/12 09:11
→ decorum : 學位論文還是不能免 得花許多力氣查驗 真的很討厭 12/12 09:12
推 aqlec : 哪款可以色色? 12/12 09:12
推 snowdraught : 跑一張圖片太久了 12/12 09:12
→ terry955048 : 碼農快被消滅了..... 12/12 09:13
→ decorum : 又不能禁用 因為畢業出去 運用AI是基本謀生技能 12/12 09:13
推 doubi : 不知道為啥,這次不是很在意,懶得測 ... 有點麻痺 12/12 09:15
→ dslite : 變成一個問題想三分鐘嗎? 12/12 09:16
→ doubi : 其實 Gemini GPT Grok 都差不多能用,生活中確實也 12/12 09:17
→ doubi : 會用,所以選最划算的買 12/12 09:17
→ dslite : Grok答錯率有夠高 還敢嗆我 12/12 09:17
推 liliumeow : 是不是又要買回去了 還是雙棲好了 12/12 09:18
推 ntr203 : 急了 12/12 09:19
推 Fubukichan : Gemini最近用3.0的回答都遠不如5.1的品質跟長度 12/12 09:21
→ dream12305 : GTP是什麼 笑死 12/12 09:22
推 WeiRaymond : Gemini真的強 12/12 09:25
推 guanting886 : Gemini最近應該是一狗票人跳過去 連語音講話的調調 12/12 09:26
→ guanting886 : 都變怪了 12/12 09:26
→ jenchieh5 : gemini回答那個語氣看久了蠻討厭的,就很會幫既有利 12/12 09:28
→ jenchieh5 : 益者粉飾太平的感覺 12/12 09:28
→ guanting886 : GPT5.2強可能反過來想 前面幾代模型都做不到現在做 12/12 09:28
→ guanting886 : 得到 發code red突然就變好了 想必這個模型可能成 12/12 09:28
→ guanting886 : 本不低 12/12 09:28
推 GOOGOOfish : 問題是B2B會比B2C還轉錢嗎? 12/12 09:28
推 chachabo : 不要再害goog了 12/12 09:28
推 doubi : GPT 5.2 的圖片生成好像中文一樣是鬼畫符 12/12 09:29
→ guanting886 : 甜蜜期應該是這一個二個月 後面等大家benchmark跟 12/12 09:29
→ guanting886 : arena打一打可能就慢慢降回去能力了 12/12 09:29
→ doubi : 其實 Gemini 3 會起飛,很大程度是懂中文的關係 12/12 09:29
→ doubi : Banana 還是比較好用 12/12 09:30
→ guanting886 : Google除了學術資料、PDF OCR做很足,還有海量的數 12/12 09:32
→ guanting886 : 據 再配合GA的資料 真要挑高品質的資料去訓練比Op 12/12 09:32
→ guanting886 : enAi還有優勢 12/12 09:32
→ elvaismylove: 這連擠牙膏都不算 12/12 09:32
推 pt993526 : 再訂閱回來 12/12 09:33
推 willion003 : 2TB太邪惡了,還共享 12/12 09:34
推 Sawilliam : 都有付費 用起來grok最鳥 老是忘記之前跟他建好的 12/12 09:35
→ Sawilliam : 規則..回答也一堆錯 但grok對某方面限制條件最少.. 12/12 09:35
推 Lowpapa : 沒人在乎 12/12 09:35
→ bnn : 有反應啊 辜狗又要跳水了 12/12 09:36
推 redbeanbread: 雷曼殺到ai叫媽媽 12/12 09:37
推 guanting886 : Gemini圖裡面的中文做得比較好 就Google的圖資比 12/12 09:37
→ guanting886 : 較多樣、品質也高 這都是擴散模型生的 12/12 09:37
→ guanting886 : OpenAI想要差不多水準就是花錢買別人的 data 12/12 09:38
噓 ryan1220 : 我跳出來又站回去了你打我啊笨蛋 12/12 09:39
→ guanting886 : 但你真的追不上地表最強的爬蟲 12/12 09:39
→ OOorc : 垃圾公司 12/12 09:39
推 mouscat : 反正軍備競賽打越兇 供應鏈都贏 12/12 09:41
推 alsoty : GPT可以語音聊天,其他的好像都還不行? 12/12 09:46
→ hatland86 : 早在幾個月前就退訂GPT用Gemini 但我不覺得是誰超 12/12 09:47
→ hatland86 : 越誰的問題 發展到後面應該是會並行 12/12 09:47
推 gladopo : 可以色色嗎 12/12 09:48
推 ilovebig99 : 最近Gemini 根本就連不上,好幾次一個問半天沒回應 12/12 09:49
→ ilovebig99 : ,還是回去用ChatGPT 了,ChatGPT 都回玩了,Gemini 12/12 09:49
→ ilovebig99 : 還在那邊轉啊轉。 12/12 09:49
→ csy0922 : Notebooklm跟Nanobanana以外的Gemini就是一坨 一堆 12/12 09:49
→ csy0922 : 有的沒的幻覺下指令這樣繼續瞎掰 12/12 09:49
推 shrimprock : AI模型看來沒護城河 生態系才有 谷歌勝 12/12 09:50
推 hotlatte : 開始小米化了 12/12 09:51
推 yulun1984 : 免費仔用G 12/12 09:51
推 mynumber55 : 很簡單啊,算力根本不夠 12/12 09:52
→ yunf : 不要再吹openai啦我知道他很厲害 你不會出 gemini的 12/12 09:53
→ yunf : 比較喔 12/12 09:53
→ strlen : NanoBanana另一個點是 為什麼可以無視版權生角色圖 12/12 09:54
→ strlen : GPT弄個吉卜力 只是風格 就被臭幹 12/12 09:54
→ strlen : Banana是可以直接生鬼滅 吉伊卡哇 角色 12/12 09:55
推 BBKOX : 戰國時代不要只壓一邊 12/12 09:55
推 bornwinner : 能自己更新程式碼再說 12/12 09:56
→ strlen : 然後沒人在乎狗家侵權?還是巨頭蛇麼都可以 12/12 09:56
推 Sean0211 : 現在目標是AI取代投顧 那就真的神了 12/12 09:57
推 linleex : agi已經實現了 12/12 09:59
→ yunf : 投顧轉型用ai好嗎 12/12 10:00
推 heybro : 估狗屌打 12/12 10:00
推 as6633208 : 猛 屌打Gemini 3 12/12 10:04
推 shrimprock : 跟瀏覽器大戰一樣 最後贏不是誰強 而是誰有作業系 12/12 10:04
→ shrimprock : 統 12/12 10:04
→ BBKOX : 作業系統就windows 12/12 10:05
→ as6633208 : 錯,現階段AI比的就是誰答案好,因為現階段AI還會犯 12/12 10:07
→ as6633208 : 傻有瓶頸,遠遠還沒到大家都一樣好比得是應用的階段 12/12 10:07
推 opticalman : 看來分歧,互有支持者,表示gpt gemini grok 差不 12/12 10:08
→ opticalman : 多就這樣了,很難落差很大 12/12 10:08
→ rxsmalllove : 你在看哪 落差很大 只是各有優勢 12/12 10:09
推 andboypig : 剛剛問了本人 5.2還沒發佈 12/12 10:09
→ mouscat : grok沒辦法跟這兩個比吧 12/12 10:09
推 SuiseiTrain : 反殺 12/12 10:10
推 as6633208 : 屌打Gemini 3 12/12 10:11
推 tsubasawolfy: 5.2付費用戶已經上了 12/12 10:12
推 opticalman : got deepseek Gemini gork gpt ....未來還有很多新 12/12 10:16
→ opticalman : 人橫空出世啦,水平會越拉越近,很難獨強 12/12 10:16
推 kakar0to : 被google生態系屌打 chatgpt這個穴已經沒用了 12/12 10:16
推 kenslc199 : 人多的地方不要去 包含AI cc 12/12 10:17
推 Jeff1989 : 逼一逼還是能發揮潛能的 12/12 10:19
→ as6633208 : m365 copilot 就是一個例子,生態系比google還廣, 12/12 10:21
→ as6633208 : 但就是不好用,模型答案準確答案好才是重點,空有生 12/12 10:21
→ as6633208 : 態系沒屌用,模型夠強生態系反而小事 12/12 10:21
推 opticalman : 大家手上都有老黃的gpu,人人都有機會針對缺點優勢 12/12 10:23
→ opticalman : 去改善和挑戰領先者 12/12 10:23
→ bnn : 模型大家都還在改進啊 這次gpt不就demo搞投影片生成 12/12 10:23
→ bnn : 自動做試算表這些功能 之前就沒訓練 還是LLM對話 12/12 10:24
→ bnn : 然後之前claude則是先著重代碼生成 每家方針不同 12/12 10:25
推 breathair : 誰強點,誰弱點不重要,都差不多,沒有拉開代差,比 12/12 10:27
→ breathair : 氣長誰都知道誰會死,每個人都知道的話就是死亡螺旋 12/12 10:27
推 mikuyoyo : 有在用都知道gpt回答屌打全部,gemini 只是功能比較 12/12 10:27
→ mikuyoyo : 多和能跟Google整合而已 12/12 10:27
推 as6633208 : 笑死 就是因為這條賽道打不贏,才會扯到外部生態系 12/12 10:28
→ as6633208 : ,誰錢多氣長 12/12 10:28
→ mouscat : 我覺得Gemini 的回答方式比較好懂啦 12/12 10:28
→ as6633208 : 就是輸人才一直扯外部找藉口 12/12 10:29
→ as6633208 : 超好笑 12/12 10:29
→ mouscat : Google是反NVDA大聯盟那邊的吧 用AVGO晶片 12/12 10:31
推 breathair : 谷歌是打防守,跟進攻方的難度不是一樣的 12/12 10:34
推 yogofresh : 太貴了。有些問題我問DeepSeek反而能得到更好的回答 12/12 10:34
推 salamender : 有競爭才是好事,chatgpt還是有優點阿 12/12 10:41
→ shirleyEchi : 讓他來分析舊金山和約寫了什麼 12/12 10:43
推 kogsww : 來不及了 已退訂 12/12 10:43
推 OhmaZiO : 5.2 也沒用 還不是繼續說謊+詭辯+道歉 12/12 10:44
噓 rumblefish : AI不要再搶辦公室工作了 12/12 10:46
→ orz811017 : 現在就是反狗家聯軍進攻的回合 12/12 10:49
→ orz811017 : 六大教派圍攻光明頂 12/12 10:49
推 jboys75 : 每次都吹的很強 結果…這次觀望一下 12/12 10:49
推 max117980 : ChatGPT 政策一大堆 這個不行那個不行 前陣子會兩邊 12/12 10:49
→ max117980 : 都貼對比一下答案 真的還是Gemini 比較強 已經好幾 12/12 10:49
→ max117980 : 天沒用GPT了 12/12 10:49
推 kakalin : 感覺各個AI專精不同領域也是不錯的分工 12/12 10:51
沒有留言:
張貼留言