#醫生
工資打五折,醫生紛紛降薪
“是的,深有體會。”面對“醫院真在普遍降薪?”的詢問時,外科醫師張輝答道。他在一座一線城市的三甲醫院普外科從業,是醫生群體中待遇尚好的一部分。他粗略算過,同等崗位同等水平的醫生薪酬,跟以往相比,至少打了6-7折。“我在外科,同時有高級職稱”,張輝說,長期以來,外科的績效比其他科室相對較好,“以往一個月的績效在1萬多(元),但近期降到7000—8000元之間”,且延遲一個月發放。《手術直播間》劇照這不是張輝一個人的感受。在海南某家中醫院工作了8年的護士劉景紅,也在2025年8月收到了醫院降薪30%的通知。“醫院所有部門都在降,包括我們護士、醫生和後勤等。”劉景紅告訴南風窗,相比他們收入本不太高的護理人員,降薪給醫生帶來的影響更大,“沒激情,沒動力”。張輝和劉景紅都跟南風窗強調,醫生降薪並非個例。2025年6月,市場研究機構華醫網發佈的《醫療人才2024年薪資及就業調研報告》顯示,參與調研的29469名醫務人員中,有57.9%的人表示薪酬下降。相較於2023年調研報告中“37%的醫務人員薪酬下降”增加了20個百分點,薪酬下降呈擴大趨勢。更早前,醫學界和醫米調研發佈的《2024年度中國醫院人力資源現狀調研報告》顯示,2009名參與調研的醫生中,降薪的醫生比例從2023年的50%增加到57%。超六成醫生對目前薪資情況不滿/圖源:醫學界長期以來,由於醫療服務的高價值和培養一名醫生的高成本,醫生的高薪酬是不同國家的普遍做法。此外,醫生職業的特殊性,也要求其薪酬應維持在穩定水平。張輝表示,相比社會其他行業,醫生群體的薪資待遇已屬不錯,重要的問題是,如何在保障醫生合理待遇和做好醫療服務之間做好平衡。降薪早已開始事實上,醫院降薪不是近期才發生的事。早在3年前,張輝就跟家裡人做了“預警”,“要縮減不必要的開支,來應對這種時期的到來”。張輝說,在2023年初,他就已經感受到醫院有降薪的徵兆。隨後不久,醫護人員的績效工資就開始打折,並遲發一個月。他記得,他們的降薪不是分次數降的,而是在這三年內緩慢減少,直到現在,績效工資整體降了30%左右。隨績效工資一起減少的還有各種福利,“像以前過年過節都會發現金,現在基本都沒了”,張輝說,年終獎也早已取消,收入減少明顯。在跟同市的其他醫生交流時,張輝也瞭解到,儘管幅度不一,但其他醫院同樣經歷了降薪。且有些醫院的績效工資,“延遲兩三個月是常規,有的甚至延遲半年發”。而績效工資是醫生的主要收入。張輝告訴南風窗,醫生的薪酬主要分為固定工資和績效工資,其中績效工資可以佔到整個收入的七八成。醫學界和醫米調研發佈的《2024年度中國醫院人力資源現狀調研報告》顯示,醫生薪資有一定浮動性/圖:醫學界相比張輝,李一鳴所在醫院的降薪則開始不久。他在一家三甲醫院的口腔科門診,從業2年。今年5月,科室發了通知,說績效工資下調5%,到6月又變成6%。李一鳴說,此次績效下調涉及全院所有部門所有崗位。自他入院起,他們的績效工資都是延遲2個月發放,前不久,李一鳴陸續領到下調後的績效工資。“我算了下,大概比以前少了1000塊左右”,李一鳴說,儘管他們的績效下調幅度不大,但因為他們的收入以績效工資為主,所以錢數減少仍頗為明顯。“我們每個月的績效工資大概在1.5萬元左右,基本工資只有2000元。”李一鳴告訴南風窗,績效工資佔了他收入85%左右。《關於唐醫生的一切》劇照千里之外,甘肅一地市醫院中醫科室的護士王青從2025年3月開始,領到好幾次打了5折的績效工資。“今年3月以來,我們醫院有些月份處於虧損狀態。”王青說,他們的收入跟著醫院的營收情況而波動。她記得2018年剛入院那年,績效工資不錯,但自2023年以後,績效工資整體上在減少,一些過節福利也在減少或消失。王青說,目前每月的基本工資都能保障,但醫院的營收狀況不是很樂觀。近兩年來,到他們醫院看病的患者在變少,而且不少人的治療也變得保守起來。連鎖反應“降薪的原因,最直接的是醫院整體醫療服務收入減少,加上最近兩年醫保的嚴查和集採藥物的價格下調,產生了一連串的反應。”張輝說,他們這類三級醫院的醫生薪資中基本沒有財政來源,所有的工資績效全靠自己掙回來。這跟醫院的營收狀況緊密相關。李一鳴解釋,他們的績效工資多寡要看醫生的業務量或產值多少。“就是你一個月裡看的病人在醫院花的錢,這個錢扣除成本後再按一個比例給我們發績效獎金。”李一鳴稱,簡而言之,一個醫生看的病人越多或病人在醫院花的錢越多,醫生的績效工資就越高,反之則少。《2024年度中國醫院人力資源現狀調研報告》中提到,醫院績效工資主要與接診量相關/圖源:醫學界張輝回憶,在2017年和2019年之前,醫生績效工資中的一部分是靠開藥、開檢查和使用耗材獲得的。但在2017年和2019年,國家先後取消所有公立醫院的藥品和耗材加成,藥品開始集采,醫護人員經歷了一次降薪潮。那一波降薪幅度雖也不小,但因為其中含有一些不合理乃至不合規的收入,所以醫生群體的接受度尚可。當時的政策也提到,對於公立醫院因取消藥品與耗材加成而減少的合理收入,主要通過增加財政投入、增設醫事服務費、調整醫療服務價格等方式解決。自那以後,公立醫院收入的三架馬車——醫療收入、財政補助和藥品收入,變成了以醫療服務收費和財政補助為主的兩架馬車。而按照張輝的說法,近幾年來,他所在醫院的醫療服務收費並沒有如期上漲。同時,因為檢查檢驗費用下調,而且患者的治療態度漸趨保守,醫院的總收入在減少。《問心》劇照財政補助方面,近幾年投入量有所上漲,但總的佔比不高。浙江大學國家制度研究院副院長金維剛曾在一次財經發展論壇上表示,財政資金在公立醫院的投入,平均佔醫院總投入的10%左右,最高約為15%,最低的約為7%。李一鳴獲知的降薪原因是,醫院為了支援新院區的發展而下調了他們的績效。不過,他自己也感受到,由於近兩年來患者的治療方式偏向保守,使得醫院收入進一步減少。“像我們科室,有一項叫根管治療的方案,費用挺高,一顆牙要三四千塊錢。”李一鳴說,近一兩年來他給患者介紹方案和大概費用後,很多人,尤其是不能刷醫保的人,就選擇不做,選擇開點藥回去吃。此外,張輝覺得,近幾年醫保監管的愈發嚴格和規範,也在某種程度上壓縮了醫護人員的薪資空間。李一鳴對此有同感。他解釋稱:醫保嚴查,尤其是實行DRG/DIP付費改革後,一些跟收治疾病不甚相關的收費項目不讓開了,所有治療項目必須要在病例中有體現且合理合規,否則被查出問題,醫保局的罰款,醫院就要從醫生的績效工資裡扣除。《關於唐醫生的一切》劇照而在醫保未嚴查的時,醫生的可操作空間相對大一點,能開出的收費項目較多,收入也相應較多。“但有一個問題是,醫保的有些規定是新出的,但它在查的時候會倒查過往記錄,那時因為沒有這些規定,就會出現不合現在規定的情況。”李一鳴說。不過,張輝認為,這像是一個天平的兩端,嚴查醫保儘管某種程度上“壓縮了醫護人員的薪資空間,但讓利於老百姓,對老百姓來說是一個好事,我非常理解”。“以治病為準則”醫保監管趨嚴,尤其是DRG/DIP付費改革,成為多位受訪醫護人員在提到降薪原因時,都無法繞開的爭議焦點。不過,現實可能更加複雜。2024年4月,國家醫保局官網曾發佈一篇題為《DRG導致醫療收入減少?導致醫院虧損?這個鍋DRG背不動!》的文章。該文提到,當下不少公立醫院的虧損和醫療收入減少,問題主要出在醫院的不合理擴張和發展上:“有的醫院求大求全,擴院區、蓋大樓、搞裝修、加病床、買裝置,這些都將讓醫院發展背上巨大的包袱。另外,有的醫療機構人力資源配置過多導致效率偏低、費用過高,有的醫療機構成本控制能力偏弱、藥耗佔比過高,這些都可能導致醫療機構入不敷出,艱難度日。”圖源:unsplash有觀點認為,當前問題的根源在於,公立醫院仍以“自負盈虧”的市場邏輯運行,而醫生的薪酬制度又與醫院收入緊密掛鉤,這使得醫生成了醫院經營壓力的直接承受者。前不久,復旦大學公衛學院衛生經濟學教研室主任應曉華等發表了一篇題為《國際醫生薪酬模式及對中國的啟示》的文章。該文章提到,從2006年以來,中國公立醫院開始實行崗位績效工資制,醫務人員薪資由崗位工資、薪級工資、績效工資、津貼補貼四部分組成。在薪酬結構方面,全國公立醫院固定薪酬佔比較低,而以績效工資為主。地區上,一線城市固定薪酬比例僅為29%左右;等級上,三級醫院固定薪酬比例約為36%,較二級醫院低8個百分點。文章稱,醫生的績效考核以醫療服務為中心,所以醫生主要關注服務類型、數量、費用,以及對所在醫院淨收益貢獻等,這會激勵醫生追求更多服務與更高費用。這些導致出現一些不合理的“大處方”、“大檢查”、分解住院等問題。可一旦政策方面對此類行為加強監管,醫生的績效工資就隨之受影響而減少,陷入一種怪圈。《親愛的生命》劇照而國際經驗顯示,公立醫院的醫生薪酬,以固定薪酬為主。澳大利亞學者對比國家公立醫院的工資制與私立醫院的按項目支付制發現,固定薪酬可以在一定程度上消除醫生選擇患者的經濟激勵,按服務付費制則導致醫生顯著偏向治療短期住院患者。文章認為,固定薪酬為主的模式更有利於保持公立醫院的醫療公益性。故此,文章建議中國逐步提高醫護人員固定薪酬佔比至60%-80%,建構“基礎工資+有限績效”或“基本工資+小比例績效獎金”的結構,降低績效獎金與業務收入的直接掛鉤強度。國家衛健委近日也強調,“逐步提高基礎薪酬等相對固定的穩定收入佔比並建立動態調整機制”,同時,“研究推進動態縮小機構之間薪酬差距”。張輝對此深有感觸。他呼籲,醫生和醫院要以治病為準則,而不是以營收為準則。“如果一切以賺錢為目的的話,醫患關係變差,我們也有一份罪責。”張輝說,醫院轉向公益性,需要醫生降低“慾望”,同時更需要財政方面的支援,讓他們可以安心治病,而非費心創收。至於已經發生的降薪,“在社會中還有很多人的生活比我們艱難,跟他們相比的話,我也挺知足的”。張輝說。(應採訪對像要求,文中人物為化名) (南風窗)
王小川押注下個十年:為人類造醫生,為生命建模型|新智元十周年峰會
在2016年AlphaGo戰勝李世石的震撼時刻,王小川便堅定下注人工智慧。彼時以「狗勝節」表達對AI的信念,如今更是將這份執念延伸到醫療與生命科學。王小川用科技理想與生命關懷,描繪出未來AI醫療的藍圖。2016年3月12日下午,首爾,四季酒店。春日午後,陽光灑進一間會議室,空氣中瀰漫著緊張。GoogleDeepMind AlphaGo圍棋與世界冠軍李世石的人機大戰第3局戰罷,AlphaGo執白中盤取勝,3比0李世石。「人工智慧」提前取得勝利!從社會心理學意義上來看,其實人工智慧正式闖入人類視野,不是ChatGPT,而是AlphaGo。2016年AlphaGo戰勝李世石才是AI第一次以「硬派實力」震撼大眾的時刻。主串流媒體以「歷史性勝利」、「人類與機器的新邊界」來報導,它把深度學習、強化學習這些先前相對小眾的術語,推到餐桌上、朋友圈裡。ChatGPT的問世是2022年11月30日,它讓AI第一次「觸手可及」,但把「AI=強大」的感性認知刻進集體記憶的,確實更接近2016年AlphaGo的那一周。那一年王小川在搜狗打了一個賭2016年3月11日,當年還是搜狗CEO的王小川在公司內部打了一個賭:如果AlphaGo再贏一場,就把第三場勝利當天定為「狗勝節」!王小川斷言Google人工智慧AlphaGo將完勝李世石,也在郵件中提到距離自己的預言實現又近了一天。各位搜狗同學,Google的阿法狗與圍棋冠軍李世石之戰已經2:0領先,與之前我的斷言「Google人工智慧將完勝李世石」又近了一步。搜狗公司作為一家國內深度研發與應用人工智慧的科技公司,我們每個人都最應該關注此次世紀大戰。阿法狗的勝利,代表著「程序狗」的勝利,同為「狗族」的搜狗更該被激發起信念與熱情,在這場人工智慧的啟蒙運動後,更理解自己的歷史機會與歷史使命,參與到「智慧+」的建設中,將搜狗打造成人類聰明的好助手。在此我宣佈,在五局比賽中,阿法狗獲得第三場勝利的當天定為搜狗“狗勝節”,狗勝節之後的第一個工作日放假一天。必要工作的同學,另行安排。搜狗CEO王小川2016/3/11王小川對於人工智慧的信念,除了讓他提前預測「AlphaGo」的勝利,甚至讓他比歷史更領先一步。ChatGPT的浪潮還沒到來但他已先想好方向當王小川從搜狗出來創業時,ChatGPT的浪潮還沒到來,但他已先想好方向:醫療,“為人類造醫生,為生命建模型”。2021年10月15日,王小川發佈內部郵件,宣佈卸任搜狗CEO。王小川在告別搜狗的內部信裡寫下了:「往後二十年,若能為生命科學和醫學的發展盡一份力,為大眾健康做出一點貢獻。生命就更有意義了。」彼時距離ChatGPT面世還有一年多(它在2022年11月30日發佈)。2021年內部外部資訊也顯示,他已開始在醫療健康與AI相關方向做企業佈局。等到2023年4月10日,他創立百川智能,隨後在多次公開訪談與演講中明確了使命表述:「為人類造醫生,為生命建模型」。換句話說,他離開搜狗的那天,人生的方向盤就已經朝向「生命」。在新智元十周年慶典上,百川智能創始人兼CEO王小川分享了他的《通用人工智慧與百川AI醫療之路》。百川的百是Bio的意思2025年9月7號,在新智元十周年峰會上,王小川作為重磅嘉賓登台演講。在成立百川智能之初,在一次訪談中,王小川闡述了「百川」的涵義:叫「百川智能」,寓意「海納百川,匯聚知識」。因為大模型其實就是以語言為核心,把天下知識匯聚並進行學習的一個過程。在峰會現場,王小川也透露了關於「百川智能」更多的深層意義。百川的「百」其實是Bio的發音,Biology,是英文單詞,生物學的意思。王小川是清華大學學霸、搜狗的靈魂人物。在IT之外,他還是狂熱的生物學愛好者,習慣用生物學的視角審視世界。他反對「拼盤式」創業,認為公司、團隊、科技是個「生命體」。與新智元的緣分2020年9月22日的創新之源大會上,搜狗CEO王小川親臨現場,登台演講《創業認知相對論》。他從哲學問題──主觀與客觀出發,探討了創業的本源問題。我們為什麼要創業?什麼樣的人適合創業?這或許是創業者最苦惱的問題。身為22日下午第一個登台演講的嘉賓,他用自己20多年的創業經驗,與哲學命題結合,訓娓道來了一堂別樣的開營課。提到創業的主客觀,王小川表示,創業可以理解為主客觀共同作用的結果。是在對客觀深入瞭解的基礎上,透過對未來的主觀暢想改變客觀世界的過程。如果人是客觀世界的一部分,我們無法改變世界,那麼創業就無從談起了,所以人一定有主觀。「創業要素裡面,主觀的東西是由心發現,由對未來的熱情驅動,創業者對未來的想法、幻想這些感性的東西,在創業過程中非常重要,你認為你自己是講道理,但是別人看起來你同時還會具有一種力量感。」「創業的客觀要素類似一個發動機,能夠把車輪推著走。而主觀要素,我們對世界的看法,就像一個方向盤。所以創業者主動意願更強烈,反而更適合創業。」王小川認為企業家選擇創業就是讓大家走出慣性的軌道,擔起帶著大家換軌道的責任。「如果沒有你自己的創業,這個世界就會按照原來的軌道在走。那麼創業就是走出客觀世界原有的規律,帶領一群人,把這個客觀世界已經既定的事情做一些變化。」「希望大家能夠記住一點,當你說這個人很主觀的時候不是在罵你,可能說你是一個創業的好料。」新智元在過去一年也見證了百川智能的發展。2024年5月,Baichuan4強勢升級登頂國內第一。2025年1月,百川全場景深度思考模型登場,推理強,醫療能力更強!2025年8月,Baichuan-M2一戰奪冠,醫療能力開源模式全球第一,實測比GPT更懂中國醫療,OpenAI開源霸權5天就被終結!楊靜的賭局楊靜在2016年也下過一個同樣的賭局。當時新智元也剛上線不到半年,只有幾萬名用戶,正在直播中的,AlphaGo和李世石的比賽充滿懸念,新智元社群裡80%的專家都預測李世石會贏。緊張的比賽還有20分鐘結束,新智元就發稿了,標題說AI大勝圍棋世界冠軍。當時有編輯問,要是輸了怎麼辦?楊靜就回答說——輸了大不了刪稿,這就是一個大賭注。十年前的賭局證明不論是王小川和楊靜都對人工智慧充滿偏執之信,也就是執念。王小川對ASI的執念王小川說,2018年,他提過一個理論,當機器掌握語言,強人工智慧就會到來!王小川早年參觀AlphaGo、做輸入法、做搜尋引擎,這些工作都是和語言打交道。但是那時候的「機器」並沒有掌握語言。王小川:輸入法寫文字,你寫幾個字很難一篇文章出去,搜尋引擎一個字進去,給你一段摘要,也沒法給你一個答案,所以在當時輸入法、搜尋引擎遇到的瓶頸就是語言沒被機器掌握,有這麼一個感嘆。在高峰會現場,王小川總結多年來對於「語言是智力的中軸」的感悟:語言是智慧的中軸當下大模型的發展讓語言逐漸轉化為數學模型。大語言模型(LLM)的核心不僅是語言本身,更是語言與數學的結合:底層是連結主義的神經網路與反向傳播;上層是符號主義的推理與表達。這使得語言能夠被「數學化」,即知識、思考與溝通都變成了數學問題。在哲學與認知科學層面,人們常提到維根斯坦的思想,而王小川本人更推崇侯世達。侯世達在2019年出版的《表象與本質》一書,對語言、符號與思維的關係進行了深入闡釋,幫助理解大模型背後的哲學基礎。王小川觀察到,在百川內部,凡是讀過這本書的人大多成為了堅定的AI信仰者。ASI將在2027年實現,是新智元預測超智慧發展的時間框架。新智元對此的選擇是-新天終啟,萬象智生,為ASI最終降臨做見證。這是我們要走的路。王小川其實也是認定了未來3年的時間線。他的選擇是──為人類造醫生,為生命建造模型。為人類造醫生,為生命建構模型2016年,王小川的執念化為了搜狗公司的一個固定假期。現在王小川又把對AI的執念化為對AI「醫療」無比篤定的追逐。2025,AI醫療元年為什麼是醫療,為什麼選擇生命領域?王小川在現場為我們展示了從2016年到2025年的「天大變化」。AlphaGo大勝9年後,AI能夠完成的任務從機械的下圍棋,開始變成對生命的理解。GoogleDeepMind當年只會下棋的AlphaGo,進化成了能破解生命密碼的AlphaGenome。而當年醫療資訊的匱乏,則被GPT-5發布會上那位依靠AI輔助獲得康復的癌症患者所帶來的希望之光所取代。這也是GPT-5(目前全球最新最先進的模型)發表會時唯一請上台的人。她是一位癌症患者,但GPT-5在癌症復原裡面給了她一些關鍵性的決策。2025年,正成為業界公認的「AI醫療元年」。王小川說,全球頂尖的科技領袖們在這一點上達成了驚人的共識。Anthropic CEO Dario認為,AI將把人類生物和醫學50到100年的進展,「壓縮」在未來5到10年內完成。諾獎得主、DeepMind 創辦人Hassabis更直言,AI將在未來十年治癒所有疾病。「AI教父」Hinton則是預言,高品質的醫療建議將無所不在,AI將成為每個人身邊的「私人醫生」。同時,許多跡像都在證明AI醫療的時代正在來臨!巨頭入局首先是OpenAI首次發布開源模型,第一個宣傳點就是醫療做的如何。5月也發布了醫療評測基準Healthbench,以前都是評測代碼、評測數學,獨立評測醫療被OpenAI放在了很重要的位置。OpenAI更在近期組成醫療部門,計劃打造自己的AI醫療產品。資本湧動美國今年新成立的AI獨角獸裡面55%是做醫療的。在這些醫療AI獨角獸中,以臨床輔助/醫師助理/決策支援類為代表的公司成長非常快。其中OpenEvidence成立於2021年,於2025年2月完成SeriesA融資$75M,估值約10億美元;7月完成SeriesB融資$210M,估值約35億美元。它提供一個醫生用的平台,讓經過驗證的醫師可以搜尋超過數千萬篇經同儕審查的醫學文獻,獲得具引用的醫學答案與快速決策支援。Abridge是另一家現象級公司,技術以「醫病對話自動轉寫+病歷記錄/帳單/編碼支援」為核心,顯著減輕醫師行政負擔。在2025年6月的一輪融資中募集到$300M,該輪融資將估值推至約53億美元。公司已在美國150多家健康系統落地,產品正從單純的語音轉寫擴展到決策支援與收入周期管理等模組。Hippocratic AI是專注於非診斷性、病患導向的互動性任務(如慢性病管理、出院後追蹤、照護/病患教育等)的AI agent公司。2025年1月完成SeriesB融資$141M,估價約16.4億美元,從而正式進入獨角獸行列。Hippocratic允許臨床醫生自訂低風險病人接觸任務的agent,同時非常強調安全性與臨床驗證。國內破冰在國內,醫師們開始被大模型的CoT(思維鏈)能力所折服。患者甚至開始帶著大模型的分析結果去看病,倒逼醫生學習和接納這項新技術,數百家醫院部署了DeepSeek。同時,國務院關於深入實施「人工智慧+」行動的意見明確指出,要推動AI在輔助診療、健康管理、醫療服務等場景的應用。通用人工智慧時代 不「造工具」,而是「造人腦」王小川認為,我們正在經歷的,遠不止「第四次工業革命」這麼簡單。工業革命的核心是掌握物理世界、提升生產工具的效率,其結果是更精細的社會分工和層級。而大模型帶來的,則是一場「逆工業革命」。它帶來的不是生產關係的調整,例如像滴滴、美團一樣做供需匹配,而是生產力的直接創造與升級。過去,我們缺少的不是連結醫生的平台,而是醫生本身的數量和品質。AI正在從根本解決供給不足的問題。它不再只是「造工具」,而是「造人腦」。一個能夠思考、溝通、提供陪伴與服務的智能體,將讓社會變得更扁平,讓每個人都有機會成為「超級個體」。百川的AI醫療理念:造醫生、改路徑、促進醫學面對這場歷史性的機遇,百川智能規劃了一條清晰而深刻的實踐路徑。第一步:造醫生-從「找醫生」到「造醫生」。「老百姓最大的需求是看病,最缺的就是優質的醫療服務」。網路醫療平台解決了「找醫生」的問題,但無法解決優質醫生稀缺的本質。百川的思路是,直接「造醫生」——提供無限供給的AI醫生,用於輔助診斷、慢病追蹤和健康管理。王小川堅信,AI醫生會比無人駕駛更早到來。首先,AI醫生是更迫切的剛需,你可以自己開車,但無法自己看病。其次,人機協作性更強。AI司機出錯,人類僅有2秒鐘接管,幾乎無法協作,但AI醫​​生給出的建議,人類醫生可以從容地審查、確認,二者可以完美協同。第二步:改路徑-從「醫院為中心」到「居家為中心」。傳統的「省-市-社區」三級診療體系,由於優質資源的固化,往往難以真正實現分級。百川的構想是,借助AI醫師的無限供給,增加第四級-居家。當每個家庭都有一個數位健康伴侶,整個醫療服務的路徑就被徹底改變了。病患成為中心:AI醫師在家中就能完成早篩早診,並聰明地將你分診至最適合的醫療機構。主動健康成為可能:AI能實現對使用者全生命周期的健康管理,將醫療的重心從「治療」前移至「預防」。強基層得以實現:大量醫療需求在居家和社區層面被滿足,真正為三甲醫院減負。第三步:促進醫學-創造真實世界研究的新典範。王小川認為,當AI醫師融入每個人的生活,資料的收集方式將會發生革命性變化。過去依賴醫院檢查、電話追蹤的傳統資料收集模式,將升級為基於AI的全病程、持續性的資料收集。這意味著,每一次診療、每一次健康管理,甚至從你出生開始,AI就能為你建立一份連貫的數位生命檔案。AI也將扮演臨床研究型助理(CRC)的角色,高效地進行大規模、長周期的真實世界研究,大大推動實證醫學的發展。而基於海量的個體化生命資料,百川的目標──為生命建模,將不再是空想。就像短影片能透過資料精準描繪你的喜好一樣,生命大模型將能精準預測你的健康軌跡,最終實現真正的個人化精準醫學。這就是王小川和百川智能描繪的生命健康的藍圖!它始於一個為大眾健康做出貢獻的初心,在一個技術爆發的時代找到了翅膀,最終將落腳於創造不知疲倦的AI醫生,為每個生命建立數字模型。這不僅是一家公司的商業遠征,更是王小川等一代AI從業者,對未來最美好的想像與承諾。 (新智元)
夏天心臟更易「缺血」,醫生提醒別做5件事
眼下正值三伏天,溫度高,濕度大,這種情況心臟其實比你更“難熬”。多位醫生提醒,高溫天心臟更容易出現「缺血」的情況,資料顯示,夏天發生心絞痛、心梗的患者會出現一個小高峰。高溫天是怎麼傷害心臟的?如何降低“傷心”風險?《生命時報》(微信內搜尋“LT0385”即可關注)邀請專家為你一一解答。醫生說夏天心臟更容易缺血北京大學第一醫院心血管內科主任張岩表示,高溫天心腦血管疾病,特別是急症發生率有升高趨勢。中國此前發佈的一項研究顯示,熱浪期間,氣溫每升高1攝氏度,心肌梗死住院率增加0.6%~12%。為什麼氣溫高,心臟出問題或病情反覆的人會增多呢?主要跟三個原因有關。更多血液流至體表中國醫科大學附屬第一醫院心臟外科主任醫師王春表示,高溫環境裡身體要散熱,體表血管會擴張,更多血液流到體表,心臟等重要器官的供血相對就減少了。這對心臟功能較差的人來說,可能引發一系列症狀,比如格外疲勞乏力、心悸憋悶、心絞痛等。出汗多,血液濃縮氣溫高,人體出汗增多,會導致血容量減少,使原本狹窄的冠狀動脈缺血加重,增加堵塞性疾病如心絞痛、心梗的發生風險。心率變快,心肌耗氧增多熱應激會讓心肌收縮力變強,心率變快,心肌的耗氧量耗能都大幅提高,這種過度耗氧,就容易引發致命的心臟問題。5件事讓心臟在崩潰邊緣試探一些日常小事在高溫高濕的天氣裡,容易增加心臟崩潰風險。醫生提醒,暑天要少做以下5件事,本身心臟就不好的人更要警惕。01過度運動,大量出汗你可能已經發現,很多心梗、猝死的案例都跟運動有關。運動時大量出汗,心肌耗氧增加,心率加快,運動過度超過心臟負荷就可能帶來致命危險。出大汗後若沒有及時補水,血液濃縮,對於心臟血管本身存在狹窄的人來說,甚至會誘發急性心梗。02洗涼水澡熱脹冷縮的道理大家都懂,我們的血管也會遇冷收縮。夏季不少人喜歡洗涼水澡,特別是運動後,但這個習慣同樣有很大隱患。運動後人體體溫比較高,血管正在擴張散熱,這時洗冷水澡會讓身體突然遭遇寒冷刺激,可導致血管痙攣,損傷心臟。03頻繁進出空調房跟沖冷水澡是一個意思,頻繁進出冷熱環境,會讓血管反覆收縮和擴張,就像橡皮筋頻繁拉伸容易斷裂一樣,心臟血管也容易因此受損。04喝冰鎮飲料冰淇淋、冰鎮飲料、生冷食物成了夏日標配,但這些過冷食物容易刺激腸胃,引起血管收縮,導致血壓波動,血壓波動大會帶來不可預測的結果。05心情煩躁每年七八月,持續的高溫讓心情更容易煩躁,嚴重者甚至會“情緒中暑”,進而導致行為失控。情緒激動會讓心跳加快,心肌耗氧量增加,心臟負荷變大。加上高溫讓全身血管擴張,血液循環加快,更加重了心臟負擔。高溫天學一套“護心法”氣溫高對心血管非常不利,尤其是65歲以上年長者和慢性病患者。建議大家生活中加強防範,採取六項“護心”措施。1多次少量補水補水是預防熱相關疾病的關鍵,即使不渴,身體也容易脫水。感到口渴時,很多人第一反應是拿起水杯大口喝個夠。但越是熱天,越是口渴,越要小口喝水、慢慢下嚥。如果水分太快進入人體被胃腸道大量吸收,會使血液變稀,血容量增加,加重心臟、腎臟等器官的工作負擔。2吃“心臟友好”食物適當增加蔬菜、水果、粗雜糧、瘦肉、魚類或低脂乳製品的攝入。全天食鹽總攝入量不超過5克,少吃香腸、熱狗、火腿等加工肉類。3中午時段減少外出每天最炎熱的時間段,一般為中午12點到下午3點,應儘量減少戶外活動,這個時段患上熱相關疾病的風險更高。如果需要在戶外活動,應隔一段時間在陰涼處休息幾分鐘,補充水分,然後再回到太陽下。4選對衣服做好防曬儘量穿輕便、棉質、透氣的衣物,外出時可以戴上遮陽帽和墨鏡,還可以使用遮陽傘,也可在出門前塗抹防曬霜。5遵醫囑規律服藥美國心臟學會提醒,常用的降壓藥可影響血壓反應或促進鈉排泄,影響人體的熱調節,導致患者在極端高溫下更容易出現不適。慢性病患者應按照醫生指導服用藥物,高血壓患者切忌自行停藥,應注意服藥後的安全監測,如果出現異常症狀及時就診。6不宜經常晚睡睡眠不足會提高血壓和心率的平均水平,增大心血管系統工作壓力。夏天白晝時間長,但也不宜連續熬夜,儘可能在晚上11點之前入睡,每晚睡夠7~8小時。▲ (生命時報)
川普確診,醫生解讀病情
美國白宮新聞秘書萊維特表示,近日川普小腿出現輕微腫脹。醫學檢查顯示,他患有靜脈疾病。萊維特解釋說,“這是一種常見病症,常見於70歲以上人群普遍。重要的是,檢查未發現深靜脈血栓或動脈疾病跡象。”萊維特還說,經檢查,“沒有發現心力衰竭、腎功能障礙等嚴重疾病的跡象”,並強調,“總統的健康狀況依然非常良好”。法國心臟科專家、健康專欄顧問杜卡多內(Alain Ducardonnet)解讀美國總統川普的靜脈疾病。他稱,簡單來說,人體就像一台充滿血液的“機器”,心臟是血液循環的動力裝置,讓血液通過動脈、靜脈、毛細血管流經身體每一處,其中動脈從心臟將血液帶至身體組織,靜脈將血液自身體組織間帶回心臟。而對於川普的身體來說,身體這台“機器”出現了故障。受靜脈疾病影響,血液在下半身滯緩,導致小腿、腳踝處形成水腫。與此同時,川普的上肢也出現了類似的狀況。近期照片顯示,川普的手上出現紫色印記,這可能與靜脈疾病有關。川普出現靜脈問題並不令人感到意外,這種疾病很常見,尤其在老年人、久坐不動的人或超重的群體中。通常情況下,人體下肢沉重、發癢、皮膚顏色變為粉紅色或紫色,都可能與靜脈血流滯緩、靜脈老化有關。 (歐時大參)
o3完爆人類醫生,OpenAI基準直擊AGI!
【新智元導讀】OpenAI發布新基準HealthBench,聯手60個國家262名執業醫生,樹立新的「AGI標誌性用例」。 OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到人類醫師最佳水準了!最強AI,已擊敗了人類醫生。就在剛剛,全球60個國家,262名執業醫師共同上陣,聯手OpenAI打造出「最具AGI標誌性」的AI健康系統評估標準-HealthBench。這個基準包含了5,000個基於現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的反應。論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf在所有參戰的頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。值得一提的是,在AI輔助下,醫師的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答品質超越了醫生的水平。人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處於一場改變醫學未來,拯救數百萬人生命的革命開端」。AGI關鍵要素,醫療AI“標尺”OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,並給予了極大的期待:希望這項工作的發布,能為AI朝向改善人類健康的方向發展提供有力引導。改善人類健康,將是通用人工智慧(AGI)最具決定性的影響之一。但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。儘管學術界和產業界已付出巨大努力,但現有評估體系仍有三大限制:未能還原真實醫療場景、缺乏基於專家意見的嚴格驗證、難以為前沿模型提供提升空間。OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的限制,精準捕捉病患與臨床工作者使用模型時的複雜現實場景與工作流程。值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與產業規範,並為AI系統優化提供嚴謹依據。未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改善空間,持續激勵開發者提升系統效能。在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下圖)擁有執業經驗的262名醫師合作,共同建構了HealthBench評估體系。HealthBench主要面向兩個群體:1. AI研究社群:旨在推動形成統一的評估標準,激勵發展出真正有益於人類的模型2. 醫療領域:提供高品質的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估。新研究有很多有趣的發現,包括醫生評分基線研究等。o3衝榜媲美人類醫生這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點在於檢視其在效能、成本和可靠性方面的表現。效能根據現實世界健康場景的不同子集,即“主題”,以及體現模型行為的不同維度,即“軸”,所有模型進行PK。整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。此外,在最近幾個月裡,OpenAI前沿模型在HealthBench上的表現提高了28%。這項提升,對於模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。成本接下來,研究團隊也在模型大小和測試時計算scaling軸上,研究了模型的成本與效能。可以看到,4月OpenAI發布的模型(o3,o4-mini,GPT‑4.1),刷新了效能成本SOTA。研究也觀察到,小模型在最近幾個月裡,得到了顯著的改進,儘管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優於後者。比較低、中、高推理水準下的o3、o4-mini和o1模型,結果顯示測驗時運算能力有所提升。其中,o3與GPT-4o之間的效能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。可靠性在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確答案。因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。也就是說,在給定範例的n個回應中,最差的得分是多少?結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。HealthBench系列此外,OpenAI也推出了HealthBench系列的兩位新成員:HealthBench Hard和HealthBench Consensus。· HealthBench Hard專為更高難度場景設計,問題更具挑戰性;· HealthBench Consensus由多位醫師共同驗證,確保評估標準的專業和一致性。o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。AI與醫生正面交鋒那麼,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?為此,OpenAI在研究也展開了一場人機對決測試。262名專業醫生被分為了兩組:· 一群醫師可以在不使用AI工具的情況下查閱網路資源,撰寫最佳答案。· 另一組醫師則可參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高品質的回覆。隨後,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。關鍵發現如下:2024年9月模型在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優於沒有參考任何AI醫師的回答。更令人振奮的是,當醫師參考AI回答並加以優化後,他們的回答品質顯著超越了AI模型本身。這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果。2025年4月模型這次實驗中,研究人員請醫師參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答品質。然而,結果令人意外:醫師的優化回答與AI原始回答相比,品質上沒有顯著提升。而目前,AI模型已足夠強大,其回答品質幾乎達到了人類醫生最佳水平。GPT-4.1參評遠超人類平均水平為檢驗以模型為基礎的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫師對HealthBench Consensus中的模型回答予以審閱,以確定這些答案是否符合相應評分標準。基於這些醫生的回饋,研究團隊建構了所謂的「元評估」(meta-evaluation),即評估模型評分與醫師判斷之間的一致性,重點衡量以下兩點:1. 模型評分器與醫師之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫師達成一致;2. 醫師之間的一致性:多位醫師對同一模型回應的評分是否一致。評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當。這說明HealthBench使用的模型評分方法在很大程度上能夠取代專家評分,具有可信度和專業性。基準模型OpenAI將34個共識評分標準的數據以七大主題分組,評估模型評分器與醫師評分之間的一致性,並透過三種方式建立對照基線:(1)典型醫生(Typical physician)為了估計人類專家之間的評分一致性,需要比較每位醫師的評分與其他醫師的評分,並計算MF1分數。也就是,以與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。MF1適用於類別不平衡的元評估(meta-evaluation)任務。註:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是每個類別的F1分數進行不加權平均的結果。表5按主題報告了加權平均的醫生MF1分數,權重基於每位醫生參與的元示例數量。(2)個體醫生(Individual physician)OpenAI也在每個主題下報告了每位醫生的MF1分數。圖12展示了這些醫師評分分數的分佈。(3)透過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分佈中的百分位數,以更直觀地理解模型評分錶現在“人類專家水平”中所處的位置。這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。結果:GPT-4.1遠超過普通醫生如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優於隨機基線。更具體地說:在7個主題中的5個中,GPT-4.1的評分錶現超過了醫生平均;在6個主題中,GPT-4.1的表現處於醫師評分分佈的上半區間;在所有主題中,GPT-4.1的評分能力都高於醫生群體的下三分之一(33百分位數)。這些結果說明,GPT-4.1作為基於模型的評分器,其表現已能與醫師專家的評估相提並論。從圖12可以看到,不同醫師之間的評分錶現差異顯著,顯示醫師間本身也存在著一定主觀性和評分風格的差異。總的來說,只要滿足以下條件,基於模型的評分系統可以與專家評分一樣可靠:基礎資料真實、多元且註解充分;元評估設計合理;評分提示(prompt)和評分模型經過精心挑選。由於GPT-4.1在無需複雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設定為HealthBench的預設評分模型。模擬真實場景,多維度評估結合模型合成生成與人工對抗測試方式,OpenAI創造了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。對話有以下特點:多輪交互,更符合自然對話流程多語言支持,涵蓋不同語言背景角色多樣,既包括一般用戶,也包括醫生涵蓋多個醫學專業領域與場景精心挑選,具有一定難度,避免模型輕鬆「答對」這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型答案都會根據該對話特定的、由醫生撰寫的評分標準進行評分。這些評分標準詳細說明了「完美回應」應包含那些訊息,或應避免那些內容,例如:應提及某個醫學事實,或避免使用不必要的術語。每項評分標準都有對應的分數權重,根據醫師判斷該標準在整體回答中的重要性而設定。整個HealthBench資料集中包含48,562個獨立評分標準。HealthBench中的對話被劃分為七大主題,例如急診、應對不確定性、全球健康等。每個主題下方包含多個相關範例,每個範例都配有對應的評分標準(rubric criteria)。以下是一些資料集的範例。左右滑動查看每個評分標準都對應一個評估維度(axis),用於界定該標準評估的是模型行為的那個方面,例如:準確性(accuracy)溝通品質(communication quality)資訊查找與澄清能力(context seeking)這種結構化的設計,讓HealthBench能夠細緻、多角度地評估AI模型在不同醫療情境中的表現,反映在實際應用上的可靠性與實用性。模型的答案由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,並根據符合標準的總得分與滿分比值,給出整體評分。HealthBench涵蓋了廣泛的醫學專科領域,包括:麻醉學、皮膚科、放射診斷、急診醫學、家庭醫學、一般外科、內科、介入性放射診斷、醫學遺傳與基因體學、神經外科、神經內科、核子醫學、婦產科學、眼科、骨科、耳鼻喉科、病理學、兒科、物理醫學與復健、整形外科、精神科、血管預防醫學、放射腫瘤科、血管外科。這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。整個HealthBench建置過程涵蓋了重點領域篩選、產生相關且具有挑戰性的案例樣本、案例標註以及各個環節的驗證工作。(新智元)