#視覺
中國國產世界模型登頂全球第一!斷層領先Google輝達,3D精準度逼近滿分
還得是咱中國國產世界模型牛!極佳視界最新力作GigaWorld-1,直接擊穿Google輝達,WorldArena登頂全球第一。而且還是唯一一個綜合得分突破60分大關的具身世界模型。什麼概念呢?就以三大核心維度為例,幾乎是斷層式領先:Physics Adherence(物理遵循):相比第二名提升了整整16%。3D Accuracy(3D精準度):近乎逼近滿分。Visual Quality(視覺質量):同樣遙遙領先。也就是說,GigaWorld-1是真正的全能型具身世界模型,不僅視覺真實,而且幾何精準、物理精準。這意味著,極佳視界這家由清華系領銜,匯聚了阿里、百度、地平線等一眾頂尖大廠核心骨幹的中國團隊,已經率先完成了一次教科書式的技術超車。從最嚴苛的“試金石”脫穎而出眾所周知,WorldArena是世界模型領域公認的“試金石”。它由清華大學聯合普林斯頓大學、新加坡國立大學、北京大學、香港大學、中國科學院、上海交通大學以及中國科學技術大學等8所中國外頂尖高校及科研機構共同打造。其摒棄了單一維度的片面測試,轉而建構包含16項細分核心指標和3大真實應用任務的立體評估體系,旨在對具身世界模型的感知精度、物理規律理解、三維空間認知以及動作預測與落地能力進行最嚴苛的壓力測試。也正因如此,WorldArena吸引了全球幾乎所有頭部世界模型團隊同台競技,首批參評名單包括Google、輝達等。最終的結果也出乎所有人意料,不是科技巨頭,而是這家低調耕耘的技術掃地僧——極佳視界。其旗下最新的GigaWorld-1憑藉硬核實力,成功摘得桂冠!顯式動作建模與可微分物理引擎的完美融合那麼為何GigaWorld-1能取得如此傲人的成績呢?首先從技術路線看,GigaWorld-1是一款專為具身場景打造的AC-WM(Action-Conditioned World Model,動作控制世界模型) 。相較於傳統的世界模型,GigaWorld-1深度繼承並行展了極佳視界在去年7月發佈的EmbodieDreamer核心架構。該方案不僅引入了顯式的動作建模機制,從根本上保證了視訊生成過程中的幾何一致性;更創新性地融入了可微分物理引擎,從而獲取精準的機械臂物理參數,以實現對複雜物理互動過程的真實模擬與嚴格遵循。在此前沿架構的基礎上,極佳視界進一步引入了團隊長期積累的上萬小時高品質真實機器人操作視訊資料進行訓練,極大地增強了模型在開放場景下的泛化能力與高精度的動作遵循表現。目前,GigaWorld-1的核心程式碼與部分資料集已開源。僅開源後的短短半個月內,GigaWorld-1在HuggingFace平台的下載量便火速突破16000次,足見學術界與工業界對其技術實力的高度認可,以及在開發者社區中的巨大影響力。同時GigaWorld-1還將作為官方Baseline,強力支援即將於3個月後在美國舉辦的GigaBrain Challenge@CVPR 2026國際挑戰賽,為全球開發者積極賦能,共同推動具身智能生態的繁榮發展。(比賽官網:https://gigaai-research.github.io/GigaBrain-Challenge-2026/)於是這就引出了一個關鍵問題——極佳視界是誰?中國首家專攻世界模型的公司在業內,極佳視界是少有的產投雙棲玩家,一邊悶頭做技術,一邊又能拿下巨額融資。在本月初,極佳視界剛剛宣佈完成近10億元Pre-B輪融資,投資方陣容堪稱豪華——中芯聚源、上海半導體產投基金、臨芯資本、星源資本、萬林國際等頂尖晶片和汽車產業資本領投,中金資本、蘇創投、華強資本等重磅國資平台和知名財務機構跟投。而這,也並非極佳視界首次獲得資本追捧。早在2025年11月,華為旗下的哈勃投資就已聯合華控基金,完成了對極佳視界的億元級A1輪戰略投資。其實華為對世界模型關注已久,此前就將世界模型列為未來智能世界2035年十大技術趨勢之首。但它沒有像Google、輝達、特斯拉這些全球科技巨頭那樣直接佈局世界模型,而是通過哈勃投資,先在中國市場找到了最具潛力的標的——極佳視界。極佳視界是中國第一家佈局世界模型的公司,在世界模型的模型架構和資料引擎兩方面都擁有行業領先的深入積累。公司定位相當清晰,就是聚焦物理AI,致力於世界模型驅動的物理世界通用智能。其技術護城河建立在“世界模型×具身大腦”的雙輪驅動戰略上,並在世界級權威測評榜單中,成功拿下具身大腦和世界模型的雙料冠軍。產品矩陣包括世界模型平台GigaWorld、具身基礎模型GigaBrain、通用具身本體Maker等物理AI全端軟硬體產品。GigaWorld:物理世界的“數字沙盒”GigaWorld是極佳視界自研的世界模型平台,能模擬物理世界運行規律,生成高保真合成資料。與傳統模擬器相比,GigaWorld能通過幾何一致、物理精準的世界模型建模,生成高保真、可控、多樣化的具身互動資料,實現資料放大。這使得所訓練的VLA模型在新紋理、新視角、新物體位置三大泛化維度上均實現近300%的性能提升。更關鍵的是,GigaWorld能帶來10-100倍的效率提升。在具身方向,GigaWorld-0是全球首次讓具身世界模型在高水平具身基模上發揮核心價值,其GitHub開放原始碼斬獲1.5k+ Star,奠定了技術驗證的基礎。本次登頂WorldArena的GigaWorld-1,也是當前全球最領先的AC-WM。在駕駛方向,DriveDreamer系列是全球範圍內最早將世界模型用在物理世界的系列開創工作。此外,GigaWorld-Policy也是全球首次實現世界-動作模型WA即時性、成功率、訓練效率全面突破,實現了對主流WAM推理效率和性能的全面碾壓,讓世界-動作模型真正開始進入大規模Scaling階段。實測資料顯示,GigaWorld-Policy實現了10倍推理速度與10倍訓練效率的跨越式提升,同時任務成功率大幅上漲30%,標誌著具身智能正式邁入由世界模型驅動的新紀元。GigaBrain:機器人的“通用大腦”GigaBrain是極佳視界開發的端到端視覺-語言-動作基礎模型,在全球目前規模最大的真機評測比賽中,極佳視界的開源模型GigaBrain-0.1超越Pi0.5等眾多模型,獲得全球第一。後續發佈的GigaBrain-0.5M*則是全球首個基於世界模型的強化學習實現高效學習和自我進化的具身基模。它提出基於世界模型的強化學習範式,並採用迭代式四階段閉環訓練流程。在高難度長時程任務中,面對摺紙盒、咖啡製備、衣物折疊等包含多階段操作、精細感知與持續決策的複雜場景,GigaBrain‑0.5M*均實現接近100%的任務成功率,並可穩定復現,充分彰顯出卓越的策略魯棒性。物理AI“夢之隊”集結除了技術和融資,極佳視界更亮眼的莫過於其核心團隊:創始人兼CEO黃冠,清華大學自動化系創新領軍工程博士。曾擔任地平線機器人視覺感知技術負責人、鑑智機器人合夥人&演算法副總裁,並擁有微軟亞洲研究院、三星中國研究院等頂尖研究機構工作經歷。他完整經歷了過去十年物理AI的技術和產業發展歷程,多次帶領團隊獲得全球權威AI比賽世界冠軍,並行布多個全球知名AI成果。聯合創始人兼首席科學家朱政,智源青年學者,發表頂級論文70余篇,引用近2萬次。多篇著作影響力巨大,連續4年入選全球前2%頂尖科學家榜單,多次獲得吳文俊自然科學一等獎、最佳學生論文獎、CCF 傑出論文獎等榮譽,也是多個頂會領域主席、多項競賽冠軍。聯合創始人孫韶言,曾擔任阿里雲總監,地平線資料閉環產品線總經理,在物理世界超大規模資料閉環產品和架構方面擁有行業領先的經驗。他主導了業內首個智能駕駛資料閉環系統的落地,有效提升了資料的處理效率,為智能駕駛技術的發展提供了重要的基礎設施支援。合夥人兼工程副總裁毛繼明,擁有超過16年的模擬/工程/資料/分佈式架構方向的經驗。曾擔任百度Apollo模擬和工程負責人,以及曾擔任百度、贏徹等T10等級架構師,主導多個自動駕駛與世界模型核心項目的技術開發與落地。在高品質資料生成、端到端自動駕駛架構設計以及分佈式系統最佳化領域有著深厚的積累。另外,極佳視界模型核心團隊還包括博士期間超10篇頂會一作的世界模型頂尖科學家、超過10年物理AI全端量產經驗的產業專家、華為天才少年獲得者、萬卡叢集線性加速的頂尖演算法和infra專家等,是行業少有的同時擁有頂尖的新一代物理AI全面技術前沿創新能力和傳統物理AI全端系統量產經驗的全端團隊。可以說,這支團隊完整經歷了CV、自動駕駛、具身基模、世界模型等物理AI過去十年的發展歷程,並在每個階段都做出了行業領先的世界級成果。當他們聚集在一起,就共同造就了這支始終引領具身世界模型技術演進的“夢之隊”。從資料引擎(Data Engine),到閉環模擬器(AC-WM),再到世界動作模型(WAM),極佳視界一直走在前列。無論是當前世界模型和具身智能基礎設施的迭代,還是未來的AGI,極佳視界都將持續打造最堅實的技術基石。 (量子位)
獨家丨90億港元,極視角港交所敲鐘!34歲澳門青年帶來“AI視覺大模型第一股”
「IPO全觀察」欄目聚焦首次公開募股公司,報導企業家創業經歷與成功故事,剖析公司商業模式和經營業績,並揭秘VC、CVC等各方資本力量對公司的投資加持。三位同窗共同締造的AI電腦視覺演算法平台,今日在港股IPO。今日(3月30日),山東極視角科技股份有限公司(簡稱“極視角”)在港交所上市,發行價為40港元/股,開盤大漲近50%,市值突破68億港元,截至發稿,市值突破90億港元。2026年3月30日,極視角創始人陳振傑在極視角港交所主機板上市現場34歲的創始人陳振傑來自澳門,研究生畢業於北大光華管理學院,本科畢業於中山大學嶺南學院。十年前,他與中大兩位本科校友共創業,瞄準AI電腦視覺演算法賽道,成立了公司“極視角”。作為一家AI電腦視覺解決方案提供商,極視角為各行各業的企業提供涵蓋開發、部署及管理的端到端企業級解決方案。目前,極視角已建立由數十萬個AI演算法開發者組成的全球社區,其AI電腦視覺演算法商城展示了1,517種演算法,並已向累積逾3,000名政企客戶提供服務。2024年,極視角開始為企業提供大模型解決方案,這成為公司的第二增長曲線。近幾年,極視角的營收實現快速增長。營業收入由2022年的1.02億元增加至2023年的1.28億元,並進一步增至2024年的2.57億元,截至2025年前三個季度收入為1.36億元。與此同時,公司的毛利率由2022年的30.6%遞增至截至2025年前三個季度的44.9%。在極視角上市後的股東架構中,陳振傑、羅韻、橫琴極力為一致行動人,合計持股約26.54%,為單一最大股東集團。其中,陳振傑持股比例為14.27%,羅韻持股比例為3.90%,橫琴極力持股比例為8.37%。中美創興基金為最大機構股東,持股9.53%。另外,青島經濟技術開發區金融投資集團有限公司持股為4.84%,高通(中國)控股有限公司持股為4.42%,青島天奇前沿科技投資基金合夥企業(有限合夥)持股為4.30%,汕頭市華潤創新股權投資基金合夥企業(有限合夥)持股為4.27%。在十年前錨定AI視覺賽道陳振傑對商業的興趣,在他本科階段便初顯。大一時,原本在中山大學生命科學學院就讀的陳振傑,發現自己始終對商科的內容更感興趣,於是入學不久後,便轉專業到了中大嶺南學院學習經濟學。本科畢業後,他選擇前往北京大學光華管理學院繼續深造。在北大光華讀企業管理研究生的這段時間,陳振傑也隨其他同學一樣選擇到大企業去實習。在Bain&Company以及KPMG Advisory等諮詢機構嘗試過諮詢相關工作,也在騰訊移動遊戲戰略部門實習。但是這種在企業裡面做固定內容的工作模式始終讓陳振傑感到拘束。“當時在諮詢實習的時候,感覺每天就是上班等著下班。” 陳振傑坦言,自己是一個更喜歡做頂層戰略規劃的人,並通過執行驗證讓自己的想法可以真正落地。於是,在讀研期間,他便拉來了同為中山大學生命科學學院的兩位本科同學——羅韻和陳碩,決定一起嘗試創業。陳振傑(中)和羅韻(左)、陳碩(右)創業初期留影他們最終在2015年左右選擇了電腦視覺賽道,成立了現在的公司“極視角”。在當時網際網路大熱的創業氛圍裡面,人工智慧領域受到的關注度並不高,陳振傑對此有著自己獨特的考量。“我們當時選擇 AI 的原因並不是基於複雜的技術判斷,而是一個簡單邏輯:人力越來越貴,機器代替人力是必然的。以前機器生產替代了部分體力勞動,未來智能應用肯定會逐漸替代腦力勞動。” 陳振傑對行業趨勢做出了基本的判斷,“因此團隊決定切入人工智慧這個長期賽道,並接受行業可能需要幾年甚至十幾年才會爆發的現實考驗。”確定好創業方向後,創始團隊三人各司其職:正在北大光華管理學院就讀的陳振傑負責商業化、投融資,同時正在香港科技大學讀人工智慧領域博士的羅韻負責負責技術開發,擅長設計的陳碩負責公司的產品設計。剛成立不久、處於起步期的極視角面臨著來自四面八方的考驗。極視角的項目主要是給企業提供服務,然而在沒有足夠市場資源的情況下,想要和企業建立合作關係十分困難。因此,在拿到天使投資之前,他們幾乎沒有商業化業務。與此同時,公司需要先進行基礎的技術探索和原型驗證,才能更好地為企業客戶提供服務。而在2015年,AI仍然屬於一個非常新的賽道,很多投資機構並沒有投資計畫。“我們那時候其實就一個demo,拿投資其實挺難的,只能靠數量取勝,多聊投資人。” 那年春節,陳振傑通過前輩引薦,最終獲得中美創投創始合夥人胡浪濤的200萬元天使投資。“讓演算法像應用程式商店一樣易用”極視角最核心的業務,是滿足企業的AI計算視覺識別的需求和提供大模型解決方案。其中包括AI電腦視覺解決方案的研發、部署及全流程管理服務,目前已經為工業、能源、零售、交通等超100個行業場景的政企客戶提供端到端服務。極視角的商業模式在2015年,整體人工智慧環境還是一個弱人工智慧的階段。初期的極視角團隊在這個時候選擇自研演算法進入。在落地場景應用嘗試過程中,極視角先是選擇了“客流分析”這個細分領域,主要服務於零售行業,幫助商場和品牌店分析線下人流量與轉化率——這也成為了極視角的第一個業務切入點和現金流來源。但是很快地,陳振傑觀察到,這種模式下開發出來的演算法往往只能解決單一問題(如人臉識別),而無法應對工業、零售等各行各業多樣化的視覺識別需求。於是,受到此前實習過的網際網路平台模式的啟發,陳振傑聯想到了可以借助平台模式帶來的規模效應,打造一個可以連接智能供需的演算法平台,連結有演算法需求的企業客戶與個人演算法開發者。這便是極視角最早為AI演算法開發者打造的開放式演算法開發平台的雛形,即是現在極視角的“極市”。極市專注在電腦視覺演算法領域,為演算法開發提供基礎設施支援。隨著開發者社群的發展逐漸成熟,陳振傑與團隊開始嘗試承接更多樣化的客戶需求。但是,扮演一個純粹的“中間商”角色並不容易,最初簡單的撮合模式常常會遇到交付和維運的難題。為此,極視角在2016年便開始投入自研AI底層基礎設施、打造演算法開發平台。為了確保演算法交付的穩定性和可維運性,極視角將開發流程標準化,從原本的“中間商”轉變為真正的AI電腦視覺方案和大模型方案提供商。陳振傑這樣形容極視角和開發者的搭配:“開發者可能以前要自己完成端到端的閉環,現在我們留下最後一公里定製的演算法模組讓開發者來做,而我們最重要的就是把基礎建設給做好。”極視角的業務重心由此轉化為提供標準AI電腦視覺解決方案、定製AI電腦視覺解決方案及軟體定義的一體化AI解決方案。截至2025年9月30日,極視角的AI電腦視覺解決方案演算法商城已展示超過1,500種演算法,涵蓋超過100個行業。與此同時,經過十年時間的沉澱,AI演算法開發者全球社人數超過十萬個,並已累計向3,000名客戶提供穩健的基礎設施平台及廣泛的AI解決方案。“保持方向正確,路徑要靈活迭代”極視角基於研發基礎設施(即AI視覺語言模型及極市),隨後通過極星和極棧兩個交付平台,為企業提供解決方案。2019年和2021年,極視角的極星和極棧兩個平台上線。極星作為一款AI演算法推理及部署平台,主要協助企業快速建構並部署AI解決方案;而極棧則是專為大型企業、政府機構及學術研究機構設計的私有AI平台。在陳振傑看來,作為一個以技術為業務核心的企業,需要具備隨著時代的技術變化去快速調整的能力,特別是在當下的AI浪潮之中,迭代調整的速度要足夠快才能一直保持在行業前沿。在更早之前的AI 1.0 時代,極視角想要去識別一個新的場景任務的時候,需要開發者重新寫一個新的演算法才可以實現。但是,當行業整體的大模型技術能力開始快速增長的時候,陳振傑敏銳地意識到垂直的行業模型將迎來新的機會。因此,自研AI視覺語言大模型,對於一家專注計算視覺領域的企業顯然有著重要的價值。借助過去十幾年在監控攝影機識別領域的演算法工程經驗與資料,極視角打造了自己的AI視覺語言大模型。“我們自己在客戶側的評測結果就印證了這一點。相較於目前更多關注通用語言能力的開源模型,我們所研發的、專注於監控攝影機/無人機等視角下各類識別任務的視覺語言模型,目前在特定場景中的識別性能要比一般的通用大模型表現更優。” 陳振傑談到。除了自研視覺大模型,借助現有的通用大模型,極視角開發了智能體應用開發平台“極智”。為政企客戶打造大模型智能體開發與管理平台,可以滿足智能體在知識問答、流程自動化、系統協同、人機互動等關鍵場景的落地需求。“我們在這個平台上的定位,是希望為未來的大型企業提供基於Agent原生的企業經營管理流變革的系統支撐。” 陳振傑談到,大企業擁抱AI是一個顯性的需求,所以過去那一套基於純數位化時代的企業 ERP 系統,逐漸會變得不太適用。而未來在企業內部,人需要跟很多智能體協同合作完成許多任務。因此,陳振傑認為,一套安全且適用於人與Agent協同工作的作業系統,一定是未來企業需求的趨勢所在。隨著技術發展不停地迭代,在這樣一個人工智慧發展迅猛的時代,極視角唯一的選擇便是“跟上”。招股書顯示,極視角近幾年營業能力逐步增強。2022年、2023年、2024年營收分別為1.02億元、1.28億元、2.57億元;毛利分別為3108萬元、3308萬元、1億元;期內利潤分別為-6072萬、-5625萬、871萬元。2025年前三個季度,極視角營收同比增長近72%。具體來看,隨著極視角業務的多元化,各個業務佔據的收入比例也在不斷變化。2022年與2023年,AI電腦視覺方案的業務收入是極視角所有營收的來源;2024年,極視角新推出的大模型解決方案開始創收,AI電腦視覺方案的業務收入佔比為75.9%,新增的大模型解決方案的業務收入佔據了總收入的24.1%。極視角營收情況在中美創投投資人胡浪濤看來,“極視角每一年都有明顯的成長,每一年都給我們驚喜。” 除了天使輪投資以外,中美創投又在後續極視角的多輪融資中加碼追投。為何押注極視角?距離2015年極視角拿到中美創投的第一筆融資,到現在已經過去十一年,幾乎每隔一到兩年,極視角便會進行新一輪的融資。回想起十年前為何便看好極視角,胡浪濤說,“我們第一次見面時振傑才23歲,但是已經具備‘領袖氣質’了,富有激情、主動性強。我們當時想要找的就是這種不安分的,有強烈的成就慾望的年輕人,這也是我們找人才的一個基礎模型。”而從團隊來看,當時極視角的初創團隊包括羅韻、陳碩在內,三人又恰好都是本科同學,胡浪濤認為他們彼此之間比較有默契、能力互補,因此看好這樣的一個朝氣蓬勃的創業團隊。除了“人”的因素以外,賽道無疑是資本做投資判斷的另一個要素。當時極視角所做的電腦視覺客流分析項目,正好與中美創投看好的AI賽道高度契合,因此,初步的融資便顯得水到渠成。華潤創新基金董事總經理陳勇回憶起當時對極視角的A+輪投資,則是一個基於技術的根本判斷邏輯:最終能成為行業領軍並行展壯大的是那些能推動生產關係變革和大幅提高生產效率的創新技術。“在我們與極視角相識超過10年的時間裡,看到他們憑藉對傳統行業的行業實踐和深刻洞察,能將AI技術的發展與解決傳統行業痛點、難點相結合,這是一種跨界、跨行業的復合能力,是我們認為最具有差異化競爭力的能力,這也是為什麼極視角經過多年打磨和蛻變,一躍成為國內AI視覺演算法商城佼佼者的原因。”陳勇談到。隨後2018年,高通創投中國區董事總經理毛嵩在創業邦組織的“走進高通”活動中認識了陳振傑,其獨特的商業模式同樣給高通團隊留下了深刻印象。同年10月,在由高通創投、紅杉中國和創業邦聯合舉辦的創業大賽中,極視角作為TOP 10企業入圍決賽,毛嵩在和陳振傑進一步交流後,最終在2019年下半年決定對極視角進行B輪投資,並在後續輪次持續加投。對於陳振傑的印象,毛嵩用“穩健”一詞來形容,“他是一位元深度思考、獨立判斷的創業者,比如體現在對公司現金流的管理上,使公司始終處於‘進可攻、退可守’的狀態。” 陳振傑能在十年來頂住行業熱潮,堅持探索出一條將開發者社區營運與商業化成功結合的獨特路徑,毛嵩認為這實屬不易。極視角所處的AI電腦視覺解決方案行業及大模型解決方案行業競爭激烈,一方面行業技術發展迅速、客戶需求及偏好快速變化、新解決方案及服務頻繁推出,與此同時,新行業標準及慣例不斷出現。根據弗若斯特沙利文,中國新興企業級電腦視覺解決方案的市場規模,由2020年的22億元增至2024年的111億元,復合年增長率為49.9%。預計到2029年,將達到970億元,復合年增長率為54.3%。目前,按2024年中國新興企業級電腦視覺解決方案市場的銷售收入計,極視角在所有市場參與者中排名第八,市場份額為1.6%。對於極視角商業模式的判斷,幾位投資人有著相似的見解。毛嵩認為,極視角從類別上可以被歸類為“平台型公司”,在這樣的商業框架下,通過平台模式可以低成本、高效地滿足各行各業分散的長尾AI需求——這是極視角獨有的優勢,與單純的項目制或產品公司有本質區別。具體來看,這種模式極大地降低了單一解決方案的開發成本,使其能夠經濟地服務海量、分散的小客戶。同時隨著時間推移,其積累的開發者資源、行業解決方案和演算法池構成了強大的飛輪效應和競爭壁壘。在胡浪濤看來,公司早在發展初期就定位於建構AI的“基礎設施”和“高速公路網路”,而非單純的技術堡壘。其打造的中國最大的AI開發者社區“演算法商城”連接了海量開發者、合作夥伴與客戶,形成了難以被快速複製的生態壁壘,這使得業內都將極視角視當作合作夥伴而非競爭對手。極視角原成立於深圳,2021年11月,極視角將總部搬遷至山東青島,並引入了多家山東地方國資,如青島經濟技術開發區金融投資集團有限公司、山東陸海聯動投資基金合夥企業、青島國投資本管理有限公司等。創業要“回歸本源”,成為該成為的人作為一家主要面向政企客戶的企業,談到極視角的業務定位,陳振傑認為這往往取決於創始團隊的風格。“我們這群人的屬性就不太適合做C端,因為C端更多是意見領袖,需要對大眾消費者的需求提前探索挖掘;而我們的強項則更多是用專業化的能力去提供專業服務。” 在陳振傑看來,對於創業者而言,無論是創業的內容亦或是企業的風格,最終都會回歸到創業者這個人的本源。因此,成功的創業者範本並非只有一種,而應認清自己的本源屬性,並在此基礎上建構企業文化,用團隊來彌補個人的短板。“創業的共性就是能折騰,然後要不斷學習、適應變化。這些解決了之後,我覺得下面的基石可以按自己的風格來去建構,最終可以用團隊的互補搭配來平衡你的這個短板。”對於上市後極視角的發展方向,陳振傑坦言,還是會繼續夯實當前的AI視覺語言大模型,讓它能解決更多通用場景的識別需求;另一個則是繼續幫助企業做好組織流程的AI化轉型。 (創業邦)
人類活到1000歲不是夢,人體視覺植入實驗,盲人可重見光明...
最近,腦機介面(BCI)領域又爆出重磅消息,馬斯克的Neuralink公司正準備在2026年啟動“Blindsight”視覺植入的人體試驗。也就是說,能讓完全失明的人(甚至先天失明)重新看見世界。Neuralink聯合創始人MaxHodak在最新油管視訊中直言:“第一個能活到1000歲的人,已經出生了!”①這個說法聽起來像科幻小說,但它背後是真實的技術浪潮。接入大腦,就能直接升級人類硬體,解決衰老、疾病、感官缺失等根本問題。訪談中,Hodak(現Science公司創始人)解釋得很清楚。大腦是一台電腦,神經是API大腦本身像一台電腦,但它被厚厚的顱骨(頭骨)完全包住,像關在保險箱裡一樣,沒法直接接觸外面的世界。所有跟外界的交流,比如看到東西、聽到聲音、摸到物體、發出指令控制身體,都必須通過有限的幾條“電纜”進出這個保險箱。這些“電纜”一共是:12對顱神經和31對脊神經(脊柱神經):全身跟大腦溝通的“出入口”加起來才43對“電纜”。大腦的所有輸入(現實世界的資訊)和輸出(你想做什麼、說什麼)都擠在這幾條線上,用電訊號的形式來傳遞。神經細胞(神經元)在“說話”或“傳消息”時,會突然“啪”地放出一個短暫的電脈衝,就像手機訊號燈閃一下。這個脈衝電壓從負變正再變回負,只持續1-2毫秒,像一道小閃電。記錄下來在圖上就是一個尖尖的峰,所以電訊號叫spikes(神經尖峰脈衝)。大腦靠這種一個個離散的“啪啪啪”脈衝串來編碼。比如:你看到一個紅蘋果→眼睛視網膜上的感光細胞興奮→產生一串電脈衝(spikes,比如每秒50個)→沿著視神經(第2對顱神經)一路傳到大腦視覺區→大腦解讀這串脈衝的頻率、時機、那條路徑,就知道“這是紅色、圓圓的、看起來好吃的蘋果”。在腦機介面裡,研究人員在這些“電纜”(顱神經或脊神經)上插細小的電極。讀(監聽):捕捉這些神經尖峰脈衝,就能知道大腦在想什麼、看到什麼、想動那裡;寫(刺激):人工產生神經尖峰脈衝,就能直接告訴大腦“看到一個光點”或“動一下手指”。腦機介面就是繞過壞掉的眼睛、耳朵、手腳,直接升級人類跟世界的連接方式。盲人重見光明已經部分實現Hodak的公司開發了Prima視網膜植入晶片(2mmx2mm小矽片,植入眼底視網膜下),它能繞過壞掉的感光細胞,直接刺激剩餘視網膜細胞。想像一下,眼睛中心(黃斑區)像一塊壞掉的相機感光元件,拍不到清晰的中心畫面,但周邊還能看到模糊的東西。PRIMA視網膜植入晶片像一個“人工視網膜補丁”,植入到視網膜下面,正好放在萎縮區的中心。患者戴一副特製眼鏡,眼鏡用攝影機捕捉外界景象,然後把圖像轉成近紅外光投射到眼睛裡。這個光像“無線充電+資料傳輸”,晶片收到光後把光訊號轉成電訊號,直接刺激視網膜上還活著的神經細胞(繞過已經死掉的感光細胞),大腦就收到看到東西的訊號。它不是把整個眼睛換掉,而是像給壞掉的螢幕貼一個微型投影儀補丁,讓患者用“假體視覺”看中心世界,同時周邊自然視力不受影響。手術是微創眼科手術,把晶片植入視網膜下,然後患者需要幾個月視覺康復訓練去學會用這個新眼睛看東西。對於因為乾性黃斑變性完全失掉中心視力的老人來說,植入米粒大小的太陽能晶片+戴特殊眼鏡,32名盲人患者中20人恢復視力!②84%的患者能用假體視覺讀字母、數字、單詞,甚至很多人多年後第一次看清文字,平均視力提升5行以上)。這是人類歷史上第一次真正恢復晚期失明患者的中心視力。Hodak說:“我們已經看到連貫、有形狀的圖像,這是全球首次。未來10年內,有望接近正常視力,甚至有顏色和更廣視野。活到1000歲的人已經出生→活體神經元種植在大腦上傳統腦機介面用電極刺激,但Hodak推出“生物混合”介面。也就是在植入物上種活的幹細胞神經元,讓它們和宿主大腦神經“長”在一起,形成新生物連接,像《阿凡達》裡的“神經辮子”。如果細胞死掉,就用低免疫原性幹細胞,避免排異。→活到1000歲的人已經出生訪談後半段,Hodak說:“我認為第一個活到一千歲的人很可能現在已經活著了,而且不止一兩個,而是很多人。”因為生物科技過去太慢,但現在腦機介面像當年的網際網路/AI一樣,進入非線性增長階段。AI+神經科學交叉正在爆發(AI視覺模型內部神經元啟動模式和大腦越來越像)。配合細胞重程式設計(Sinclair的ER-100已獲FDA人體試驗批准)、tau蛋白新靶點等,衰老干預正在從延緩轉向逆轉。這不是空談,國外最新研究也在佐證壽命上限被打破的可能性。國外最新研究→細胞重程式設計逆轉衰老研究哈佛David Sinclair(我們都認識)團隊的LifeBiosciences公司作為首個獲FDA批准,啟動全球首個細胞年齡逆轉人體試驗(ER-100)。③這個試驗2026年第一季度啟動,目前是一期臨床試驗,重點測試安全性和耐受性,不是大規模治病,而是先看人能不能安全用。試驗針對兩種年齡相關的眼疾:開角型青光眼和非動脈炎性前部缺血性視神經病變。這些病都會導致視神經細胞(視網膜神經節細胞)慢慢死掉,造成不可逆視力喪失,目前沒有根治辦法。這個研究是怎麼做的?正常細胞老化時,DNA上會積累很多甲基化標記(像灰塵蓋住基因開關),導致基因表達亂套,細胞功能下降。ER-100用基因療法把三個轉錄因子基因(Oct-4、Sox-2、Klf-4,簡稱OSK,這是四個Yamanaka因子去掉一個c-Myc的版本,避免癌變風險)送到目標細胞裡。ER-100就像給老化的視神經細胞“重啟系統”。用病毒把三個年輕基因短暫送進去,擦掉細胞上的“衰老灰塵”(表觀遺傳標記),把細胞表觀遺傳時鐘往回撥一點點,讓細胞恢復年輕時的基因表達模式,但不會變成幹細胞(避免腫瘤風險)。讓細胞像年輕時一樣,理論上能逆轉青光眼/NAION造成的視神經衰老和視力損失。這不是治療症狀(降眼壓之類),而是治衰老本身。但目前只是第一階段,先確認人身上安全不致癌、不排斥。成功的話,未來可能擴展到其他衰老病(阿爾茨海默、心臟等),但現在還早。→腦衰老“主開關”發現ScienceDaily上的研究發現一個叫OTULIN(去泛素化酶),以前只知道它管免疫系統,居然是腦子裡tau蛋白(阿爾茨海默病裡那些糾纏成團的“毒蛋白”)和腦炎症的“主開關”。④研究主要是體外細胞實驗(在實驗室裡用人類細胞做),用的是兩種人類來源的神經細胞模型。結果發現,OTULIN像個“總開關”,把OTULIN“關掉”,tau蛋白就沒了,腦細胞還能活得好好的。以前大家以為tau蛋白對神經元結構是必須的,阿爾茨海默裡tau纏成團是壞事,但基礎tau對神經元骨架(微管)很重要,少了會崩。結果實驗證明沒了tau,神經元照樣健康,沒損傷、沒壓力。說明病理tau(異常堆積的)才是真兇,正常tau可能沒那麼不可或缺。OTULIN還管RNA代謝和自噬,它失調會導致蛋白合成和降解失衡,慢慢積累毒蛋白,導致腦衰老。這項研究讓OTULIN成了新靶點。未來藥可以針對它“關開關”,停掉tau生產、清掉已有tau、降炎症、逆轉腦衰老。比直接打tau抗體(容易脫靶、副作用大)更上游、更徹底。關鍵的瘦龍說上面這些研究的突破和我常說的低碳水、生酮飲食、間歇性斷食其實異曲同工。都通過改善代謝、降低炎症、啟動自噬來對抗衰老。腦機介面是“硬體升級”,飲食是“軟體最佳化”。未來,活得更長、更健康,可能不再是夢,而是選擇。而且前段時間,由中國研發的,全球首款植入式腦機介面,已經被國家藥品監督管理局批准上市了。甚至已經有32例患者已經接受植入了。科幻真的,照入了現實。讓人驚訝,也讓人興奮。你準備好迎接這個時代了嗎? (瘦龍健康)
從《逐玉》看AI治理如何為演員演技護航
一、守護“真實感”:AI治理讓表演回歸本真在《逐玉》熱播之際,一份關於演員演技的真實評分引發熱議——田曦薇以9.2分奪得演技榜首,張凌赫也斬獲7.6分。這份高分背後,最打動觀眾的恰恰是演員們用“肉身”換來的真實感。據悉,張凌赫為演好落難侯爺謝征,特意減重15斤,在豬圈裡躲藏時那種脆弱又迷茫的眼神,讓觀眾真切感受到了角色的“破碎感”。而田曦薇更是徹底撕掉“甜妹”標籤,在劇中敢於素顏出鏡,把屠戶少女的潑辣直率演繹得入木三分。這種“演技上線”的背後,與當今AI治理理念的深化密不可分。過去一段時間,過度磨皮濾鏡曾讓不少演員的細膩表演被“一鍵抹平”——有評論尖銳指出:“演技再真,也扛不住濾鏡磨平細節”。正因如此,當前AI治理的一個重要方向就是防止技術對真實感的侵蝕。無論是國家廣電總局對AI“魔改”視訊的專項治理,還是行業對濾鏡過度的反思,本質上都是在守護影視作品應有的“人文溫度”。只有在這樣的治理框架下,演員們用身體和情感磨出來的“破碎感”、用素顏和汗水換來的“煙火氣”,才能真正被觀眾看見、被市場認可。二、賦能而非替代:AI治理重塑創作倫理《逐玉》中張凌赫和田曦薇的出色表現,還得益於當前AI治理所倡導的“技術賦能而非替代”的創作倫理。在北影節“BE SEEN光幕計畫”主題工坊上,業內專家達成共識:AI可以取代初級和中級的表演,但高級和頂級的表演是人與人之間的互動、在場的共振,這是演算法無法複製的變數。這種理念正在成為行業共識——AI應當成為輔助創作的“手術刀”,而非替代演員的“印鈔機”。在《逐玉》的創作中,我們看到的正是這樣的良性互動:AI技術被用於提升製作效率、完善視覺效果,但最核心的表演環節,始終留給演員的真實情感和身體表達。田曦薇原聲台詞的煙火氣、張凌赫在雪地背人戲中的喘氣和踉蹌感,這些細節恰恰是AI難以生成的“人味兒”。與此同時,隨著AI換臉、聲音合成等技術門檻的降低,演員的肖像權和表演權保護也成為AI治理的重點議題。從OpenAI聯手演員工會推出肖像權保護機制,到國內對AI“魔改”視訊的專項治理,都在為演員的創作權益構築“智能防線”。正是這種“賦能而不越界”的治理理念,讓《逐玉》的主演們能夠在技術輔助下盡情施展,而不必擔心自己的表演被技術篡改或濫用。三、淨化生態:AI治理為演技脫穎而出創造條件《逐玉》的爆火與主演演技被廣泛認可,同樣離不開AI治理為行業營造的公平競爭環境。曾幾何時,影視行業陷入“預製爆款”的怪圈——高顏值流量+大IP+過飽和式行銷,每一步都像是由演算法精確計算出來的“工業糖精”。更有甚者,利用AI技術製造“資料泡沫”,讓真正的好作品、好演員淹沒在虛假熱度之中。而當前AI治理的一個重要方向,正是打擊這種資料造假行為,讓市場回歸真實。在橫店影視文化產業發展大會上發佈的“暗影獵手”監測預警模型,已成功偵破侵權案件14起,封禁非法網站173個,為影視企業挽回經濟損失超700萬元。這種對侵權和造假行為的精準打擊,實際上是在為田曦薇這樣的實力派演員清路——當她憑藉9.2分的高分奪得演技榜首時,這份認可不再是流量泡沫堆砌的結果,而是觀眾真實投票的體現。更值得一提的是,演技評分榜單中,嚴屹寬拿到9.1分,老戲骨岳暘和劉琳更是整部劇的“定海神針”。這些實力派演員能夠脫穎而出,恰恰說明在AI治理日益規範的今天,行業正在回歸“好演員與好劇本互相成就”的健康生態。正如一位新生代演員所言:“電影中很多神性的瞬間,都來自於不確定”——而這種不確定的、屬於人的光彩,只有在去除了資料泡沫、淨化了行業生態之後,才能真正照亮觀眾的心。 (小橘搞研究)
三款Ultra新品齊發:蘋果的萬元時代來了!
在逐步完善Apple Watch SE、入門款iPad及MacBookNeo等中低端產品線佈局後,蘋果正醞釀一場深刻的品牌戰略轉型。據馬克・古爾曼在最新一期《Power On》時事通訊中披露,蘋果已不再滿足於現有的高端市場份額,正加速向“超高端”領域進軍。據悉,蘋果計畫於2026年推出至少三款旗艦級新品,正式建構“Ultra”超高端產品矩陣,試圖在消費電子領域重新定義“奢華”標準。01“Ultra”矩陣三箭齊發從折疊屏到視覺智能古爾曼透露,這三款定位各產品線頂端的重磅新品,將在配置與定價上實現雙重突破,旨在打造金字塔尖的專屬體驗。1.iPhone Ultra:折疊屏旗艦,價格約2000美元。作為此次爆料的核心,iPhone Ultra被確認為蘋果首款折疊屏手機。這款裝置將採用左右折疊設計方案,展開後內屏尺寸達7.76英吋,外屏為5.49英吋,旨在提供超越現有機型的視覺體驗。·極致工藝:機身將採用鈦合金材質,並配備不鏽鋼與鈦合金復合鉸鏈,螢幕則覆蓋透光率超90%的UTG玻璃,兼顧耐用與通透。·核心配置:該機型將搭載台積電2nm工藝的A20 Pro晶片,性能跑贏時代。值得注意的是,出於內部空間堆疊考量,該機或將取消Face ID,轉而回歸側邊Touch ID設計。·定位與售價:起售價預計約為2000美元(約合人民幣1.4萬元以上),古爾曼直言其配置將“讓現有iPhone機型黯然失色”。2. AirPods Ultra:從聽覺到視覺的跨越在耳機領域,蘋果正試圖打破常規。新款AirPods Ultra定價將高於現有的AirPods Pro,其最大亮點在於引入了電腦視覺攝影機。這並非為了拍照,而是為了採集環境視覺資料,結合Siri為使用者提供“視覺智能”服務——這意味著未來的AirPods將不僅能聽見世界,更能“看見”世界。3. MacBook Ultra:觸控屏與OLED的終極融合MacBook產品線也將迎來分層。新款MacBook Ultra將首次採用觸控式OLED螢幕,定位將高於搭載M5 Pro/M5 Max晶片的MacBook Pro。這款產品並非旨在替代現有的高端Pro機型,而是作為一個更昂貴的補充選項,整機價格預計較現有高端機型上漲20%,進一步拉高筆記型電腦的價格天花板。02戰略解析:命名雖未定,野心已昭然儘管蘋果已在Apple Watch、M系列晶片中使用了“Ultra”後綴,但古爾曼指出,這並不代表上述三款新品將直接沿用該命名(參考Studio Display XDR並未使用Ultra標識)。然而,命名的不確定性並不影響蘋果戰略方向的清晰度。這三款新品只是蘋果超高端佈局的冰山一角。古爾曼預測,未來蘋果還將把這一“金字塔尖”戰略拓展至iPad與Mac系列,折疊OLED屏iPad、大尺寸高性能iMac等產品已在研發管線中。隨著入門級產品線的逐漸飽和,蘋果正試圖通過“Ultra”矩陣,挖掘高淨值使用者的消費潛力,一場關於科技奢侈品的新競賽已然拉開序幕。 (TechWeb)
《揭密日亞化學三十倍成長傳奇!《技術者天國》重磅上市》由大是文化出版的重量級商業著作《技術者天國》即將於 2月25日 正式發行。本書由深耕日本製造業報導長達 28 年的《日經製造》前副總編輯近岡裕撰寫,首度深度揭密日本德島縣一家無名鄉下企業,如何躍升為全球 LED 市占率第一大廠的「日亞化學」背後不為人知的開發與經營心法。作為日亞化學在台灣最重要的戰略合作夥伴,日本日亞化學工業株式會社專務取締役 戴圳家與台亞半導體董事長李國光,皆親自為本書撰寫推薦序。台亞半導體集團長年深受日亞化學企業文化薰陶,面對全球半導體與光電產業的劇烈變革,台亞正如同書中的日亞化學一般,選擇了一條不迎合短期數字、專注於長期技術深耕的「技術者天國」之路。《技術者天國》書中詳細記載,日亞化學之所以能領先全球,率先於 1993 年成功開發出高亮度藍光 LED 並實現商品化,關鍵在於其小川英治會長「不追求短期利益」的絕對信念。書中揭露了一段震撼業界的歷史:為了建構 LED 量產體系,日亞化學曾進行遠超當時營收規模的巨額融資,一九九八年時借款金額高達近四百億日圓,幾乎與營收持平。這項被外界視為「超越企業經營常識」的大膽投資,讓日亞化學經歷了「長達七年間,必須忍受連續虧損的艱難時期」。然而,正是這份不畏懼短期赤字、堅持將資源投入研發與自製設備的底氣,最終換來了日亞化學連續三十年、營收擴大三十倍的驚人成就。台亞半導體作為與日亞化學具備深厚歷史淵源的盟友,在企業經營上產生高度共鳴。台亞集團近年來積極布局化合物半導體,因處於轉型期的低谷,加上端看前三季度財報表現情形,可預期台亞半導體近期公布的最新財報,將反映出公司目前正處於大規模技術升級與產能重塑的轉型陣痛期。台亞半導體董事長李國光深刻認同日亞化學的理念:「我們就像籠子裡不停踩著滾輪的老鼠,一旦停止投資,公司就會走向終結」。李國光董事長表示,台亞近期的財報數字波動與短期虧損,正是公司為了迎戰下一個十年,積極投入次世代光電半導體技術與化合物功率半導體等新興應用之技術、擴充先進製程設備的「必要戰略投資」。台亞經營團隊強調,誠如日亞化學小川裕義社長所言:「業績數字只是結果。真正重要的是在技術上能否不斷展開新挑戰」。台亞半導體拒絕為了美化短期的財報數字而犧牲長遠的競爭力。目前的資金投入與研發支出,都是為了構築未來難以被競爭對手跨越的技術護城河。在這場轉型戰役中,集團旗下的星亞視覺與和亞智慧,也同樣落實了《技術者天國》的精髓。星亞視覺堅持採用日亞化學的高品質 LED,致力於提供客戶「品質零缺陷」的安心承諾;而和亞智慧則深受日亞化學「生產設備自製率超過 50%」的啟發,自主研發最精密的檢測設備,作為守護品質的最後一道防線。《技術者天國》不僅是一部科技產業的發展史,更是一本寫給所有企業領導者與投資人的啟示錄。它證明了「忍受短期虧損的勇氣」與「深耕技術的耐心」,才是企業基業長青的真正密碼。台亞半導體集團期盼透過本書的出版,與市場溝通「長期主義」的價值;未來,台亞將持續攜手日亞化學,以高遠的志向度過轉型期,共同開創光電半導體產業的下一個黃金世代。
為什麼:特斯拉All-In純視覺?
在角逐自動駕駛的高風險競賽中,多年來逐漸形成了一道深刻的理念與工程分歧。一方是幾乎整個汽車與科技產業,他們推崇名為** 感測器融合(sensor fusion)** 的方案—— 一種「雙保險」 式的思路,將攝影機、雷達與雷射雷達(LiDAR)結合,建構出冗餘、多層級的環境感知系統。另一方則只有特斯拉孤身一人,它大膽且極具爭議地押注在單一感知模式上——純視覺、基於攝影機的感知方案。特斯拉主動拆除並停用雷達等硬體的決定,曾遭到廣泛質疑,但這項舉措源自於其對人工智慧與自然智慧本質的、基於第一原理的堅定信念。想要理解特斯拉為何下此重註,首先必須先弄清楚:特斯拉究竟否定了什麼。1.什麼是感測器融合?感測器融合的概念其實非常簡單。它的目標是利用不同類型感測器各自的獨特優勢,為車輛周圍環境建立一個單一、統一且高度穩健(穩定可靠)的模型。每種感測器都有其優缺點,理論上,將它們融合在一起可以彌補各自單獨使用時的短板。攝影機能提供最豐富、解析度最高的數據,像人類一樣以色彩和紋理感知世界。它們可以辨識路牌文字、區分交通燈顏色,並理解複雜的視覺場景。其主要缺點是:在惡劣天氣和低光照條件下表現會下降,且難以精確測量相對速度。雷達非常擅長測量物體的距離和速度,即使在極端天氣下也能正常運作。它能輕鬆「看穿」 雨、霧、雪,但缺點在於解析度較低。無論如何計算,想要在單一方向上達到單一攝影機的分辨率,需要一個12 英尺× 12 英尺、成本高達數百萬美元的雷達陣列。它能告訴你「有東西」 以及「它移動得多快」(前提是物體在移動),但很難判斷物體是什麼,也難以辨識靜止物體。光達(LiDAR) 工作原理類似雷達,但使用激光,能產生環境的精確3D 點雲地圖。它在測距和形狀感知上精度極高,可以建構極其精細的三維環境模型。主要缺點是:成本相對較高,且在惡劣天氣(尤其是霧、雪、雨)中表現會下降。光達還有一個短板:採集的資料量極大,光是第一步資料處理就需要龐大的算力。這是業界成熟的技術方案,Waymo、Cruise 等公司都在採用:將三類感測器的數據融合,打造一套具備內建冗餘的感知系統。2、特斯拉的起點:多感測器方案對許多人來說,這已是一段被遺忘的歷史,但特斯拉並非從一開始就採取純視覺路線。從推出到2021 年,早期的Autopilot 系統同時配備了攝影機和前向雷達,雷達由博世等專業汽車感測器廠商提供。這是一套常規的感測器融合方案:雷達作為主要感測器,用於測量前車距離與速度,從而實現交通感知巡航控制以及早期版本的FSD Beta 功能。多年來,這種多感測器方案一直是業界標準。即便特斯拉自研了專屬FSD 晶片,外界仍普遍認為雷達會繼續作為核心零件,成為不斷發展的視覺系統的安全兜底。然而在2021 年,特斯拉做出了一次極為激進的轉向。3.轉折點:特斯拉為何放棄雷達方案這項轉變始於2021 年夏天,特斯拉宣布將在新款Model 3 和Model Y 上移除雷達,全面轉向名為** 特斯拉視覺(Tesla Vision)** 的純相機系統。此舉源自於伊隆・馬斯克基於第一原理的核心理由:感測器資料衝突會帶來安全風險—— 這一觀點他至今仍在堅持。光達和雷達會因感測器衝突而降低安全性。如果光達/ 雷達與攝影機的資料不一致,該信誰?這種感測器資訊模糊帶來的是風險上升,而非下降。這就是Waymo 無法在高速公路上行駛的原因。我們在特斯拉上關閉雷達,就是為了提升安全性。伊隆・馬斯克的觀點是,感測器融合會催生一個全新且更危險的問題:感測器衝突。當兩種不同的感測器系統給出相互矛盾的訊息時,車輛該相信那一個?那一種感測器才算「更精準」 或「更安全」?是由車輛在當下即時判斷,還是由工程師事先設定好優先順序?感測器資訊的模糊性本身就存在風險,因為決策模組可能會因此陷入癱瘓,尤其是在安全優先的場景下。這並非單純的理論思辨,特斯拉的完全自動駕駛(FSD)工程師也給了具體實例。在同一討論中,特斯拉人工智慧工程師蔡允達指出,雷達存在根本缺陷:它無法正確區分無法產生頻率偏移的靜止物體、橫斷面細小的物體,或是雷達反射率低的物體。這正是過去困擾特斯拉的** 無故急煞車(幽靈煞車)** 問題的根源—— 車輛可能會把路邊靜止的天橋或丟棄的鋁罐誤判為停下的車輛,從而觸發不必要的煞車。在特斯拉看來,實現通用化自動駕駛的路徑,是攻克視覺感知。人類依靠雙眼這兩台「生物攝影機」 和強大的神經網路就能駕駛。他們的核心判斷是:如果能讓電腦視覺做到完美,那麼其他任何感測器往好了說是多餘幹擾,往壞了說就是危險歧義的來源。4.當下方向:純視覺路線的願景如今,每一輛全新特斯拉都完全依賴特斯拉視覺系統(Tesla Vision),由8 顆攝影機提供支援。該系統透過複雜的神經網路建構出三維向量空間的環境模型,車輛據此進行分析與行駛決策。關於純視覺路線,還有一段耐人尋味的插曲。當特斯拉推出第四代硬體(現稱為AI4)時,新款Model S 和Model X 都搭載了全新的高清雷達。但為堅定實踐純視覺路線,特斯拉從未在完全自動駕駛(FSD)功能中啟用這些雷達。事實上,FSD 表現最成熟的反而是特斯拉銷售最高的車型Model Y,而非配備額外感測器的車型。儘管特斯拉可能會從這些雷達收集部分資料、驗證系統性能,但雷達並未真正納入FSD 的感知體系。5、👉 二選一的結局:非成即敗特斯拉放棄感測器融合方案,是其自動駕駛路線與業界其他廠商最核心的差異。這是一場孤注一擲、高風險高報酬的豪賭,而目前來看,特斯拉明顯佔上風。特斯拉、伊隆・馬斯克、阿肖克及特斯拉AI 團隊一致認為:想要打造一套具備類人智慧、可規模化、通用型的自動駕駛系統,唯一路徑就是徹底攻克視覺感知難題。如果這項判決正確,他們將打造出比競品那些造價高昂、堆滿感測器的車型成本更低、擴充性極強的系統。如果判斷失誤,他們最終可能遭遇效能瓶頸,只能回頭加裝感測器—— 但到目前為止,這類瓶頸尚未出現任何端倪。如今,特斯拉已全力押注純視覺系統,技術進展與能力毋庸置疑。 (芯榜)
DeepSeek-OCR-2 正式上線
DeepSeek-OCR-2 正式上線文件解析性能顯著提升昨天,深度求索(DeepSeek)正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2,在文件解析能力上實現重要突破。技術架構升級視覺因果流 是核心創新,引入類似大語言模型的因果推理機制,使圖像理解更貼近人類閱讀邏輯。視覺編碼器 DeepEncoder:約3.8億參數,用於圖像轉視覺標記序列解碼器:30億參數 MoE 模型,推理時表現為5.7億參數模型性能表現優異OmniDocBench v1.5 測試得分:91.09%,較上代提升3.73%閱讀順序精準率大幅提升純文字提取精度達97%-98%多模態能力突出不僅限於文字提取,還支援:圖表、公式、化學結構識別表格圖像轉 HTML 或 Markdown豐富結構化輸出,滿足多種場景需求開源策略促進發展MIT 許可證開源,可在 Hugging Face 和 GitHub 獲取支援動態解析度與多裁剪策略提供 Transformers 和 vLLM 推理示例部署靈活性優勢本地運行,保障資料隱私支援自訂輸出格式,提示詞靈活引導適用於敏感文件處理場景技術發展前景未來有望擴展至多模態統一編碼器共享因果推理框架,融合圖像、文字、語音等輸入社區驅動開發,加速模型迭代行業影響初顯推動多模態模型走向開源生態打破傳統OCR服務商壟斷格局降低使用門檻,增強市場活力應用場景廣泛涵蓋 OCR、版面解析、圖像描述等任務適合企業級文件處理與科研機構定製化開發本地部署保障資料安全技術路線清晰雙階段訓練策略:先獨立訓練視覺編碼器,再聯合訓練提高OCR魯棒性與佈局適應性市場定位明確精準性高、靈活性強、成本可控超越部分傳統OCR服務通過社區反饋持續最佳化產品體驗小結DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能,也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局,值得長期關注。 (MaXTe)