#o3模型
OpenAI王炸降價80%!中小企業有福了!
一夜之間,AI圈炸鍋了! 💥就在所有人還在為各家AI公司的價格戰感到眼花繚亂時,OpenAI直接甩出了一記重拳——o3模型價格暴跌80%,從每百萬token的10美元/40美元,直接砍到2美元/8美元!這不是簡單的降價促銷,這是一場徹頭徹尾的"降維打擊"。想像一下,你正在超市裡為一瓶礦泉水要5塊錢而猶豫,突然旁邊的商家告訴你:"同樣的水,我只要1塊錢。"你會怎麼選?新王者登場,碾壓式優勢與此同時,OpenAI還發佈了迄今為止最強大的AI模型——o3-pro。這個"超級大腦"在數學、科學和程式設計領域表現出色,直接超越了Google的Gemini 2.5 Pro和Anthropic的Claude 4 Opus。就像一個學霸突然告訴你:"我不僅成績比你好,學費還比你便宜80%。"這種衝擊力可想而知。CEO山姆·奧特曼在社交媒體上自信地宣佈:"使用者會對o3-pro的性價比感到滿意。"這句話聽起來客氣,但背後的殺氣騰騰卻不言而喻。生態鎖定的"溫柔陷阱"QKS集團的分析師辛格一針見血地指出:"這不是簡單的商品化,而是生態系統鎖定。"就像當年的亞馬遜AWS,先用低價吸引使用者入場,然後讓你離不開整個生態系統。一旦你的業務完全依賴於OpenAI的技術堆疊,想要切換到其他平台的成本就會變得高得離譜。這招實在是太狠了! 🎯中小企業的"春天"來了?IDC研究總監拉詹認為,這對初創企業和中小企業來說是個"遊戲規則改變者"。那些原本因為成本問題而望而卻步的AI項目,現在終於有了落地的可能。但是,天下沒有免費的午餐。便宜的模型訪問並不等於可擴展的部署。就像給你一台法拉利,但你還得學會開車、買保險、找停車位。企業的"甜蜜煩惱"雖然價格誘人,但企業要真正受益還面臨不少挑戰。合規性、資料治理、安全框架——這些都是繞不過去的坎。辛格警告說:"沒有集中的AI政策,企業很容易陷入治理盲區。"想像一下,你的員工都在用AI工具,但公司卻不知道資料流向了那裡,這是多麼可怕的事情。OpenAI目前已經服務著300萬商業使用者,企業使用者自2025年2月以來激增了50%。這些數字背後,是一個正在重新洗牌的市場。競爭優勢將不再僅僅取決於模型質量,而是取決於治理能力、協調能力和領域專業知識。就像武俠小說裡說的:"天下武功,唯快不破。"但在AI時代,"唯智不破"或許更加貼切。 (澤問科技)
OpenAI深夜數連發:o3降價80%,o3-pro上線,奧特曼最後一次手發長文,開源模型卻延期了……
OpenAI昨夜動作頻頻:伺服器一度當機,o3模型價格暴跌80%,o3-pro正式發佈,開源模型卻意外跳票,Sam Altman還發了篇可能是最後一次純人工寫作的長文。o3價格跳水,每百萬token僅2美元OpenAI宣佈將o3模型的價格下調80%,輸入價格從8美元降至2美元每百萬token,輸出價格從40美元降至8美元。這個價格調整立即生效,意味著o3的單token價格已經與GPT-4.1持平。不過別高興太早,由於o3生成的token數量約為GPT-4.1的7倍,實際每次查詢的成本還是明顯更高。Artificial Analysis 分析指出:o3的新定價與Gemini 2.5 Pro相當,在人工智慧指數表現上也旗鼓相當。同時,它以更低的單token價格實現了比Claude 4 Sonnet Thinking更高的智能水平。OpenAI研究員Noam Brown表示,智能成本與智能能力的曲線將持續快速提升。「輸入成本現為每100萬次呼叫2美元,輸出成本為每100萬次呼叫8美元。成本與智能提升的曲線將繼續快速發展。」開發者Scott Wu的評價更加直接:「新的o3價格比兩年前的GPT-4-32k便宜了15倍。與此同時,用例數量可能增長了100萬倍。向OpenAI團隊致敬!」知名AI專家Jeremy Howard更新了Aider的評測,指出o3以更低成本和更快速度實現了接近Gemini Pro模型的性能,位列第三。o3-pro正式登場,但推理太慢了OpenAI同時發佈了o3-pro模型,現已向所有ChatGPT Pro使用者和API開放。在專家評測中,o3-pro在科學、教育、程式設計、資料分析和寫作等關鍵領域全面超越o3。評審者一致認為o3-pro在清晰度、全面性、遵循指令能力和精準性方面表現更優。學術評測資料顯示,o3-pro確實強悍:AIME數學測試:90%(4/4可靠性測試)GPQA博士級科學測試:76%Codeforces編碼比賽Elo評分:2301o3-pro還支援20萬token上下文,最高輸出10萬token,適合處理完整項目歷史及大型程式碼庫。沃頓商學院的Ethan Mollick教授分享了一個有趣的測試:o3-pro成功解決了從「SPACE」到「EARTH」的詞梯難題,而且生成的路徑與網際網路上僅有的答案不同,排除了訓練資料污染的可能。Rohan Paul興奮地表示:「o1與o1 pro版本有顯著差距,o3 Pro被認為具有非常卓越的性能表現。」他還分享了詳細的性能對比圖:Boris Power指出:「自最初的o1-preview版本以來,推理模型性能的提升呈現令人矚目的軌跡,60%以上的勝率在模型升級中極為罕見。」Sam Altman自己也難掩興奮:「初次看到與o3版本相比的勝率時難以置信其提升幅度。」Alex Volkov在他的播客中評價:「o3-pro基於人類反饋,表現顯著優於o3及其他已有模型。」但o3-pro有個大問題:太慢了!開發者Yuchen Jin的測試讓人哭笑不得:僅僅一句「Hi」的互動,o3-pro思考了13分28秒,花費高達80美元!Yuchen Jin無奈地說:「o3-pro是當前推理速度最慢且過度推理的模型。」他甚至向Sam Altman喊話,希望能看到o3-pro的「內在獨白」,瞭解它到底在想什麼。另一位使用者Advait抱怨:「o3 pro什麼時候能回答我的問題?已經載入45分鐘了。」儘管如此,Yuchen Jin還是承認:「o3-pro繼承了o1-pro的穩健性,同時整合了內建搜尋功能,表現穩定。」OpenAI員工Aidan McLaughlin透露,ChatGPT實際使用的是「o3-medium」配置,而非更高級的「o3-high」。這種配置從o1開始就一直在用,可能是出於成本考慮,也可能是為了突出o3-pro的性能躍升。API定價方面,o3-pro每百萬輸入token收費20美元,輸出80美元,比o1-pro便宜87%。OpenAI建議搭配後台模式使用,適合處理長時任務。Kevin Weil表示,OpenAI正在為Plus使用者翻倍o3的呼叫速率限制,讓使用者能更自由地使用這個強大的模型。開源模型意外延期,是為了狙擊DeepSeek?就在大家期待OpenAI的開源模型時,Sam Altman突然宣佈延期:「我們的開源權重模型需要更多時間,預計夏末發佈而非6月。我們的研究團隊做了一些意想不到且相當驚人的事情,我們認為等待將非常值得,但需要更長時間。」網友們的反應各異。有人直接問「GPT-5在那?」,有人調侃「你真的說了'我們在烹飪',然後就關火去過暑假了」。這個時間點很微妙。DeepSeek剛剛發佈了性能強悍的R1模型,OpenAI選擇在此時延期,是為了狙擊對手,還是因為自家模型還不如DeepSeek R1?OIiver的猜測:「延期幾乎可以肯定是因為OpenAI在周期很晚的時候決定,將支援scratchpad的思考方案拼接到記憶體高效的MoE架構上,並配備即時推理檢查安全工具。這三個部分單獨來看都是開創性的,整合在一起需要重新訓練、新的評估和新的紅隊測試——如果要公開發佈權重,這些工作不能急於求成。」Sam Altman的「溫和奇點」在這個特殊的夜晚,Sam Altman發佈了一篇題為《溫和奇點》的長文,他說這可能是自己最後一次完全不借助AI寫作了。文章的核心觀點相當震撼:「我們已經越過了事件視界;起飛已經開始。人類即將建構數字超級智能,至少到目前為止,它遠沒有看起來那麼奇怪。」時間線預測:2025年:能夠完成真正認知工作的智能體已經到來,編寫電腦程式碼將永遠不同2026年:可能出現能夠發現新見解的系統2027年:可能出現能夠在現實世界中執行任務的機器人關於智能成本: 「在2030年代,智能和能源——想法,以及實現想法的能力——將變得極其豐富。這兩者長期以來一直是人類進步的根本限制因素;有了豐富的智能和能源(以及良好的治理),理論上我們可以擁有其他一切。」關於奇點的本質: 「從相對論的角度來看,奇點是一點一點發生的,融合是緩慢進行的。我們正在攀登指數技術進步的長弧;向前看總是垂直的,向後看總是平坦的,但它是一條平滑的曲線。」「這就是奇點的運作方式:奇蹟變成例行公事,然後成為賭注。」關於ChatGPT查詢的能耗: 「人們經常好奇ChatGPT查詢使用多少能源;平均查詢使用約0.34瓦時,大約是烤箱一秒鐘多一點的用電量,或高效燈泡幾分鐘的用電量。它還使用約0.000085加侖的水;大約是一茶匙的十五分之一。」關於工作的未來: 「一千年前的自給農民看到我們今天的工作會說我們有假工作,認為我們只是在玩遊戲來娛樂自己,因為我們有充足的食物和難以想像的奢侈品。我希望我們看一千年後的工作時會認為它們是非常假的工作,我毫不懷疑對於從事這些工作的人來說,它們會感覺非常重要和令人滿意。」關於AI安全和分配的兩步走戰略:解決對齊問題:確保AI系統能夠學習並朝著我們集體真正想要的長期目標行動(社交媒體推送演算法是錯位AI的例子;那些演算法在讓你繼續滾動方面非常出色,清楚地理解你的短期偏好,但它們通過利用你大腦中的某些東西來做到這一點,這些東西會覆蓋你的長期偏好)讓超級智能變得便宜、廣泛可用:不要過度集中在任何個人、公司或國家。社會是有韌性的、有創造力的,適應迅速。如果我們能夠利用人們的集體意志和智慧,那麼雖然我們會犯很多錯誤,有些事情會出現嚴重問題,但我們會快速學習和適應最後的願景: 「智能太便宜而無法計量已經觸手可及。這聽起來可能很瘋狂,但如果我們在2020年告訴你今天會達到什麼程度,那可能聽起來比我們對2030年的當前預測更瘋狂。」「願我們平穩、指數級且平靜地擴展到超級智能。」網友們對這篇文章的反應相當激烈:有人認為這是重大訊號:「Sam說這是他最後一次純人工寫作,這意味著什麼?AGI真的要來了?」有人關注實際影響:「如果2027年機器人真的能在現實世界執行任務,那製造業、服務業都要天翻地覆了。」也有人保持懷疑:「每年都說AGI要來了,結果呢?我看這就是在給投資人畫餅。」還有人關注倫理問題:「Sam提到的對齊問題確實很關鍵,社交媒體演算法已經是個教訓了,超級智能如果錯位,後果不堪設想。」一位開發者評論道:「有意思的是他提到科學家現在的生產力是之前的2-3倍,如果AI能讓我們在一年內完成十年的研究,那確實是指數級的變化。」另一位網友則關注能源問題:「ChatGPT一次查詢只用0.34瓦時,比我想像的少多了。但如果真的智能無處不在,總能耗還是個大問題。」或許,我們真的站在了一個時代的轉折點上。相關連結OpenAI官方連結:OpenAI官方模型發佈說明:https://help.openai.com/en/articles/9624314-model-release-noteso3模型文件:https://platform.openai.com/docs/models/o3o3-pro模型文件:https://platform.openai.com/docs/models/o3-pro後台模式指南:https://platform.openai.com/docs/guides/backgroundSam Altman的「溫和奇點」長文:原文連結:https://blog.samaltman.com/the-gentle-singularity第三方分析連結:Artificial Analysis模型對比:https://artificialanalysis.ai/modelsArtificial Analysis趨勢分析:https://artificialanalysis.ai/trends#efficiency相關推文連結:OpenAI官方推文(o3-pro發佈):https://twitter.com/OpenAI/status/1932530423911096508OpenAI開發者推文(價格調整):https://twitter.com/OpenAIDevs/status/1932532781457752533 (AGI Hunt)
滿血o3降智和幻覺倍增的原因可能找到了
OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨立測試揭穿是刷榜了,而奇怪的測試基準資料可能就是o3降智和幻覺倍增的原因?你可能要問了,一個數學基準測試,與降智和幻覺有什麼關係?事情要從去年12月說起。OpenAI隆重推出O3模型時,公佈了一個當時看來非常驚人的成績:在專門針對數學問題的挑戰性基準測試 FrontierMath 上,O3的得分超過了 25%!這個成績有多厲害?要知道,當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字,基本上是斷崖式領先真實成績只有10%...?然而,Epoch AI ( FrontierMath測試基準公司)這兩天發佈了他們對 滿血版O3 的獨立測試結果。這一測不要緊,結果卻讓人大跌眼鏡:Epoch發現,滿血O3在同一基準測試上的得分竟然只有約 10%! 這個分數,雖然相對其他模型依然有優勢,但和OpenAI最初那個25%+的“王牌”表現相比,差距可不是一點半點。Epoch直言,這個分數遠低於OpenAI最初公佈的最高成績,測試成績放在o3mini high和o4 mini當中看起來很奇怪,滿血的o3竟然不如早先發佈的o3 mini high為什麼會有這麼大的差距?原因找到了根據Epoch和相關方的說法,主要有幾點:測試環境與方法不同: Epoch 提到,OpenAI最初公佈的那個高分,可能是在更強大的內部計算環境、或使用了更複雜的測試時間計算資源(比如多輪思考、內部推理鏈等)下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材,和正式比賽時的表現可能不一樣測試資料集不同: FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版資料集進行測試,而Epoch測試的是包含290道問題的新版資料集。題目難度和數量變了,分數自然可能不一樣模型版本不同: 這是最關鍵的一點!據ARC Prize基金會等機構透露(他們也測試過O3的預發佈版本),OpenAI 公開發佈給使用者使用的 O3 模型,特別是針對聊天和產品應用進行過最佳化的版本,與OpenAI最初用於跑分的那個性能更強的預發佈版本是“不同的模型”。簡單來說,公開版的計算層級(可以理解為模型的“大小”或“算力”)更小。通常來說,計算層級更大的模型能獲得更好的跑分成績定位不同: OpenAI技術人員Wenda Zhou也在一次直播中解釋說,公開發佈的O3是針對成本效率和通用性進行了最佳化,以便更好地服務於實際應用。因此,它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。寫在最後看起來這個所謂的滿血版的o3也是一個最佳化的版本,一切都可以說通了,本來滿血o3是要被整合到GPT5里邊的,但是由於deepseek的衝擊,還有成本等原因,最終奧特曼還是改變了注意,最佳化版o3還是單獨推出了,有可能更好的模型被雪藏了,個人揣測這可能就是o3降智和幻覺增加的原因 (AI寒武紀)