騰訊研究院AI速遞 20250707

生成式AI

一、 Grok 4逆天跑分洩露,「人類最後考試」豪取45%全場第一?

1. Grok 4在「人類最後考試」(HLE)測試中得分高達45%,遠超Gemini 2.5 Pro和Claude 4 Opus,引發討論;

2. 馬斯克表示Grok 4以「第一性原理」建構推理機制,像物理學家那樣思考,從基本公理層面分析問題;

3. Grok 4將強化編碼能力,或分為Grok 4和Grok 4 Code兩個版本,預計在7月4日後隨時發佈。

https://mp.weixin.qq.com/s/kuk8MfUW_wbS5RAOdV24ZA

二、 Gemini CLI 重磅更新:將支援音視訊處理,與多項體驗升級

1. Gemini CLI發布更新支援音視訊輸入功能,顯著擴展多模態互動能力;實則目前僅能處理文字、圖片和PDF檔案;

2. 增強Markdown功能,新增表格渲染與檔案匯入功能,並整合VSCodium和Neovim編輯器,提升開發體驗;

3. 技術堆疊升級至Ink 6和React 19,加入新主題、隱私管理功能,並最佳化歷史記錄壓縮演算法,提高性能和穩定性。

https://mp.weixin.qq.com/s/CmWv-j32YDVlpZOZlIl5GQ

三、 崑崙萬維發佈了新一代獎勵模型 Skywork-Reward-V2 系列

1. 崑崙萬維發佈Skywork-Reward-V2系列獎勵模型,刷新七大主流獎勵模型評測榜單,參數規模從6億到80億不等;

2. 採用"人機協同、兩階段迭代"資料甄選流水線,從4000萬樣本中篩選出2600萬條高品質資料,突破了資料質量與規模的平衡;

3. 小參數模型展現出"小打大"能力,如1.7B參數模型性能接近70B模型,證明高品質資料可有效抵消參數規模限制。

https://mp.weixin.qq.com/s/I6fVTa5ltMUPDRt-Z7p14Q

四、 開源DeepSeek R1增強版:推理效率快200%,AoE架構

1. 德國TNG公司開源DeepSeek-TNG-R1T2-Chimera模型,基於DeepSeek三大模型混合開發,採用創新AoE架構;

2. Chimera版本推理效率比R1-0528版本提升200%,同時大幅降低推理成本,在多項主流測試中表現優於普通R1模型;

3. AoE架構利用MoE的細粒度結構,通過線性時間複雜度從父模型建構特定能力子模型,運用權重插值和選擇性合併技術最佳化性能。

https://mp.weixin.qq.com/s/BYMmPRDUQP451xlgqhxd7Q

五、 10分鐘搞定Excel世錦賽難題!首個超越人類Excel Agent?

1. Shortcut成為"首個超越人類的Excel Agent",能在10分鐘內解決Excel世界錦標賽難題,比人類快10倍,精準率超80%;

2. 工具具備與Excel近乎完美的功能相容性,可處理複雜金融建模、資料分析及可視化,甚至能建立像素藝術圖像;

3. 目前處於早期預覽階段,使用Google信箱登錄可獲3次免費體驗機會,但存在格式化能力弱、長對話表現不佳、處理複雜資料易"當機"等侷限性。

https://mp.weixin.qq.com/s/tnXBq99ApE6aPyGuDEGGLw

六、 上海AI Lab開源持續迭代的高品質視訊資料集項目:Sekai

1. 上海人工智慧實驗室聯合多機構推出Sekai高品質視訊資料集,涵蓋全球101國家750多城市的5000+小時第一人稱視訊;

2. 資料集分為真實世界Sekai-Real和虛擬場景Sekai-Game兩部分,配有文字描述、地點、天氣等多維標籤,並精選300小時高品質子集Sekai-Real-HQ;

3. 基於Sekai資料訓練了互動式視訊世界探索模型Yume,支援鍵鼠操作控制視訊生成,將助力世界生成、視訊理解與預測等領域研究。

https://mp.weixin.qq.com/s/gNcdw9cu7LDXowtrlrtx-g

前沿科技

七、 10年頑疾ChatGPT一眼識破!AlphaGo時刻震撼全球醫療界

1. ChatGPT一眼識破患者十餘年頑疾為MTHFR A1298C基因突變,引發Reddit熱議,被稱為醫療界的"AlphaGo時刻";

2. 此前微軟發布的醫療AI系統MAI-DxO在診斷NEJM複雜病例時精準率達85%,是經驗豐富醫生的四倍多,且成本更低;

3. 醫療AI正成為從搜尋到診斷的全流程解決方案,開啟AI+醫生的共治模式,有望徹底改變醫療模式並降低無效醫療支出。

https://mp.weixin.qq.com/s/4OjoVd7NWC-A8RmJSwjoTA

報告觀點

八、 「上下文工程」矽谷爆火,Karpathy親自站台!提示工程失寵

1. "上下文工程"(Context Engineering)在矽谷爆紅,獲Karpathy等大佬支援,被視為AI智能體成功的關鍵因素,取代了提示工程;

2. 與專注單一文字的提示工程不同,上下文工程關注為LLM提供完整系統,包括指令、歷史、長期記憶、檢索資訊和可用工具等;

3. 上下文工程既是科學也是藝術,重點在於為任務提供恰當的資訊和工具,智能體失敗多因上下文而非模型問題,強調"在恰當時機提供恰當資訊"。

https://mp.weixin.qq.com/s/u6iBwFkpQ4QkzscH_09E-g

九、 a16z最新洞察:滯後性市場調研時代正在終結,將由AI重塑

1. 生成式AI正重塑市場調研,將其從滯後性一次性輸入轉變為持續動態的競爭優勢,年支出1400億美元的傳統調研正向AI軟體轉移;

2. AI原生公司正利用"生成式Agent"技術建構"虛擬社會",可模擬真實使用者行為,無需招募真人樣本,從根本上降低成本並實現即時調研;

3. 成功的市場調研AI不需100%精準,CMO認為70%精準率+更快速度+即時更新比傳統方式更具商業價值,關鍵在於快速進入市場和深度整合而非完美精準。

https://mp.weixin.qq.com/s/mCnhWt1VY4ApDmVlwQgHxA

十、 《從Demos到Deals,企業AI創業指南》:打造真正好產品

1. 企業級AI產品創業的核心挑戰在於從華麗演示走向實用產品,需解決真實環境中使用者行為不可預測、資料混亂等"最後一公里"問題;

2. AI公司增長速度遠超傳統SaaS企業,頂尖AI公司年增長率達10倍以上,得益於企業採購行為變革和AI直接替代人力預算;

3. 建構持久競爭壁壘至關重要,可通過成為資料權威來源(SoR)、創造工作流鎖定、深度垂直整合和鞏固客戶關係等方式建立"護城河"。 (騰訊研究院)