高盛:揭曉軟體行業拐點的七大關鍵訊號!
摘要: 在經歷了財報的“驚心時刻”與眾多AI頭條新聞的轟炸之後,投資者對軟體行業的疑慮深重。全球頂級投行高盛在最新報告中,不僅總結了市場的核心擔憂,更提綱挈領地列出了7大觀察指標,用於判斷軟體公司基本面是否即將走穩。這份“尋寶圖”或許能為迷茫的投資者指明方向。核心洞察:拐點何在?七大訊號是關鍵經過年初的啟動與近期市場劇烈波動(微軟、ServiceNow財報,OpenAI/Claude相關新聞頻發),高盛發現投資者的擔憂主要聚焦於應用軟體公司面臨的新競爭,以及基礎設施公司天量資本開支(Capex)的投資回報率(ROI)。團隊認為,行業情緒改善需要 2-3個季度基本面穩定的支撐。而要判斷是否接近復甦的拐點,可以重點關注以下七大關鍵訊號:1. 領先指標走穩:AI投資需見真章若傳統軟體預算(剔除AI支出)持平甚至下滑,但公司整體營收增長卻能保持穩定或加速,這將有力證明軟體公司正從企業AI投資的增加中實質性獲益。屆時,AI將不再是“未來故事”,而是當下的增長引擎。應用軟體競爭格局圖譜:高盛對不同競爭陣營(SaaS巨頭、AI原生應用、前沿大模型)各自的優劣勢進行了系統比較。)2. 項目模式轉變:從“定製開發”到“打包購買”隨著生態系統成熟,更多客戶案例將顯示,企業傾向於購買現成的打包AI軟體產品,而非耗時費力、成本高昂的內部定製開發。例如,ServiceNow已觀察到客戶正在從定製建構轉向其打包解決方案,尤其是在企業關注安全與治理控制的領域。3. 定價能力顯現:成本能否轉嫁給客戶?當AI應用從採用階段轉向貨幣化階段時,關鍵在於公司能否將AI代理(Agent)帶來的增量成本轉嫁給客戶,從而展現出定價權。這將是商業模式能否跑通的關鍵考驗。報告以Palantir早期的策略作為參照。4. 專業價值凸顯:領域知識打造護城河更清晰的客戶案例將證明,垂直領域的專業知識能顯著提升AI代理的輸出質量。同時,市場也需要更好地理解不同AI工具(如Claude Cowork vs. Microsoft Copilot)的適用場景。這將是傳統軟體巨頭對抗AI原生公司的核心壁壘。5. 行業加速整合:AI公司或通過併購“補課”為了加速獲取領域經驗和企業級分銷管道,解決客戶對“企業級能力”的擔憂,AI原生公司或LLM平台可能會收購成熟的SaaS企業。這將是行業格局演變的重要觀察點。6. 應對人才戰:回購股票與搶奪AI人才面對股權稀釋和頂尖AI人才流失的風險,軟體公司需要更積極地應對。方式包括更明確的股票回購計畫,以及果斷轉向招聘新一代AI產品與銷售人才。微軟已表示,未來的營運支出增長將更多與計算資源而非人力增長掛鉤。7. 產能迷霧撥開:基礎設施時間表更清晰對於微軟、甲骨文、CoreWeave等基礎設施公司,市場需要對其新增產能何時上線、如何在內部使用與外部客戶間分配,以及利潤走勢有更明確的指引。這將直接影響對它們增長確定性的判斷。巨頭激辯:高盛如何點評核心分歧?除了行業框架,報告還深入剖析了市場對重點公司的核心爭論與高盛觀點:微軟 (買入):市場擔憂其新增產能被用於自家AI應用(如Copilot)和內部研發,限制了Azure增長,且應用層面臨更多競爭。高盛認為,應用業務是長期戰略優勢(利潤率更高),新產能將分階段上線緩解壓力,Copilot與新興工具可能長期共存。Adobe (賣出):核心風險在於席位數增長停滯及定價權減弱,AI正在民主化設計,侵蝕了其技術溢價。潛在亮點是Firefly能否成為圖像生成模型的統一“指揮層”。CoreWeave (中性):複雜性及資本開支是主要障礙。與輝達合作擴展是積極訊號,但其披露的財務模型(如2.5年現金回收期)仍需更多資料驗證。Datadog (賣出):關鍵爭論在於:1)OpenAI技術堆疊多元化對其收入的衝擊程度和時機;2)來自傳統對手的份額整合,能否抵消來自亞馬遜、Chronosphere等新競爭的負面影響。Intuit (中性):近期擔憂集中於Claude Cowork等AI工具對TurboTax(報稅)和QuickBooks(小微企業財務)業務的顛覆風險。高盛分析認為,報稅業務有精準性保證和生態系統護城河;小微企業缺乏時間和技術自建完整技術堆疊,更可能使用“交鑰匙”解決方案。甲骨文 (買入):情緒複雜,關鍵風險是OpenAI自身基本面能否支撐其對甲骨文的巨額承諾。近期融資計畫消除了資金面擔憂,但可能帶來稀釋。Salesforce (買入):市場擔心其業務會被初創公司瓦解,以及如何實現持續的10%以上增長。高盛認為,其作為核心系統、領域知識、平台生態是護城河,催化劑在於更好的續約群體健康狀況和Agentforce的採用。ServiceNow (買入):市場認為其增長持續減速且近期併購是弱勢訊號。高盛認為其核心業務顯示走穩跡象,並在CRM、ERP、安全等新領域有擴張機會,且AI解決方案可能早於預期實現貨幣化。Snowflake (買入):爭論在於:1)AI收入佔比增加帶來的毛利率壓力(高盛認為營收加速更重要);2)行業向Iceberg表標準化轉移是否會降低其平台粘性(高盛認為這可能擴大其市場);3)與Databricks孰優(高盛認為資料現代化需求將同時利多兩者)。Workday (中性):市場對其AI代理進展和當前低預期看法負面。看多者認為其處理程序更靠前且估值不高。高盛認為其仍需時間整合併購與重構技術堆疊,且HCM市場面臨滲透放緩及Oracle、SAP的競爭。投資評級一覽報告重申了對各公司的評級與目標價:買入評級微軟、甲骨文、Salesforce、ServiceNow、Snowflake。賣出評級Adobe、Datadog。中性評級CoreWeave、Intuit、Workday。總結而言,這份報告為投資者在AI變革、競爭加劇與宏觀謹慎情緒交織的複雜環境中,提供了一份清晰、具體的“拐點觀察清單”。無論是行業層面的七大訊號,還是對公司核心矛盾的深入剖析,都指向一個結論:耐心驗證基本面,訊號明確再行動。 (數之湧現)
字節發佈:Seedance2.0的AI視訊生成大模型核心技術深度洞察!
一場席捲全球的AI視訊革命,字節Seedance2.0橫空出世本文將從核心技術深度拆解、競品全方位對比、AI影視產業鏈重構、AI算力產業鏈聯動、商業化落地路徑、投資價值分析、未來趨勢預判七大維度,結合2026年最新實測資料、券商研報和行業動態,為讀者全面解析Seedance2.0的技術核心與產業影響,揭秘其“超越Sora、登頂全球”的核心邏輯,同時探討AI視訊生成技術在2026年及未來的發展方向,為行業從業者、投資者和創作者提供一份全面、專業、有深度的參考指南。2026年2月,全球AI科技圈迎來歷史性時刻——字節跳動正式推出新一代AI視訊生成大模型Seedance2.0,一經發佈便迅速刷屏海內外網際網路,從國內社交平台到海外社媒推特、YouTube,從專業創作者社區到券商研報,無不被這款“電影級AI視訊生成神器”引爆討論。截至2026年2月9日,Seedance2.0相關話題登上全球12個國家和地區的社媒熱門趨勢,YouTube上相關演示視訊單條最高播放量突破500萬次,開源社區Hugging Face亞太生態負責人主動詢問內測資格,《黑神話:悟空》製作人馮驥更是直言其“領先全球,當前地表最強的視訊生成模型,沒有之一”。不同於以往AI視訊模型“玩具級”的體驗,Seedance2.0真正實現了從“能生成”到“能商用”的跨越式突破:只需一段詳細文字提示,或一張參考圖片,即可在60秒內生成帶有原生音訊的多鏡頭序列視訊,鏡頭切換流暢如真人導演調度,角色、視覺風格、氛圍在多場景中保持高度一致,無需任何手動編輯。知名科普博主“影視颶風”的實測評測,更是讓Seedance2.0加速“出圈”,其評測結果顯示,該模型在大範圍運動、分鏡設計、音畫匹配等核心維度均達到專業級水準,分鏡角度切換靈活,運鏡邏輯貼合人類導演的敘事思維,甚至能完成“全景-中景-特寫”的自動切換,讓普通使用者也能輕鬆打造電影級短片。更具衝擊力的是,Seedance2.0的發佈直接帶動A股AI應用端迎來漲停潮,中文線上、海看股份、掌閱科技等相關個股20cm漲停,軟體ETF匯添富(159590)大漲超3%,三六零、東方國信等個股同步走強,背後是機構對AI視訊賽道“奇點時刻”到來的強烈預期。開源證券、東方證券、中銀證券等多家頭部券商連夜發佈研報,一致認為Seedance2.0在核心技術上實現突破性突破,其“導演級”的控制精度的和商業化落地潛力,或將重構AI影視產業格局,同時拉動上游算力需求爆發,開啟AI多模態產業的全新增長周期。當下,AI視訊生成賽道早已群雄逐鹿:OpenAI的Sora憑藉極致的物理真實感佔據技術輿論高地,快手的可靈(Kling)憑藉“Motion Control”功能爆火海外,Runway、Pika等廠商也在各自細分領域深耕佈局。但Seedance2.0的橫空出世,憑藉獨特的技術路徑和差異化優勢,直接改寫了全球競爭格局——它生成2K視訊的速度比Kling快30%,在多鏡頭敘事和音畫同步上超越Sora,成為首個實現“文字/圖像輸入→多鏡頭敘事→原生音視訊同步生成→商用級輸出”全流程閉環的AI視訊模型。第一章 核心技術深度拆解——雙分支擴散變換器架構,Seedance2.0的技術底牌Seedance2.0之所以能實現“超越Sora”的突破,核心在於其採用了字節跳動自主研發的“雙分支擴散變換器架構(Dual-branch Diffusion Transformer)”,這一架構徹底打破了傳統AI視訊生成“先畫後配”的固有邏輯,實現了視訊與音訊的原生協同生成,同時解決了長期困擾行業的角色一致性、多鏡頭連貫性、音畫不同步三大核心痛點。不同於Sora的“物理模擬派”和Kling的“運動控制派”,Seedance2.0以“敘事連貫性+音畫一體化”為核心技術路線,建構了一套從多模態輸入理解到多鏡頭敘事生成,再到原生音視訊同步最佳化的完整技術體系,其技術創新涵蓋輸入層、核心生成層、最佳化層、輸出層四大環節,每個環節均實現了針對性突破。1.1 輸入層創新:多模態精準理解,解鎖“導演級”控制精度AI視訊生成的核心前提的是“理解使用者意圖”,傳統模型往往只能對簡單文字提示進行淺層解析,無法精準捕捉敘事邏輯、鏡頭需求、情緒氛圍等細節,導致生成結果與使用者預期偏差較大。Seedance2.0在輸入層進行了全方位升級,採用“多模態融合理解模型”,支援文字、圖像、音訊三種輸入方式,同時引入“鏡頭語言解析模組”和“情緒氛圍識別模組”,實現了對使用者創作意圖的深度拆解,解鎖了“導演級”的創作控制精度,這也是其與Sora最大的差異點之一——Sora更擅長“還原物理世界”,而Seedance2.0更擅長“理解敘事需求”。具體來看,輸入層的技術創新主要體現在三個方面:第一,文字輸入的精細化解析。Seedance2.0搭載了字節跳動最新的多模態大模型(基於豆包大模型基座迭代),支援長達2000字的詳細文字提示,能夠精準拆解提示中的“敘事邏輯、角色特徵、場景細節、鏡頭需求、情緒氛圍、音訊風格”六大核心要素。例如,當使用者輸入“一位偵探走進昏暗的辦公室,坐在桌前,點燃香菸,凝視窗外的雨夜。氛圍:noir(黑色電影風格)。音樂:薩克斯風,憂鬱。鏡頭要求:遠景→中景→特寫→過肩鏡頭,運鏡流暢,保持角色一致性”時,模型能夠精準識別每個鏡頭的類型、運鏡方式,角色的動作、神態,場景的光影、色調,以及音訊的風格、情緒,甚至能捕捉到“香菸火光映照臉部”“雨絲清晰可見”等細微細節,為後續多鏡頭生成提供精準指引。這種精細化解析能力,得益於模型在海量影視劇本、鏡頭語言教學、電影片段上的訓練,使其具備了“類導演”的敘事理解能力,能夠自動將文字提示轉化為專業的分鏡指令碼。第二,多模態輸入的協同融合。Seedance2.0支援“文字+圖像”“圖像+音訊”“文字+圖像+音訊”三種組合輸入方式,解決了單一輸入方式的侷限性。例如,使用者可以上傳一張人物肖像圖,搭配文字提示“以這張圖為角色原型,生成一段該角色在海邊散步的視訊,背景音為海浪聲和微風聲,鏡頭為慢鏡頭,氛圍清新治癒”,模型能夠精準提取圖像中的角色特徵(面部輪廓、髮型、服飾),結合文字提示的場景和情緒,生成角色一致、風格統一的視訊;若使用者上傳一段音訊,模型則能根據音訊的節奏、情緒,生成與之匹配的視訊畫面,實現“音畫雙向驅動”。這種多模態協同能力,讓創作更加靈活,既適合專業創作者的精準需求,也適合普通使用者的簡易操作,目前Seedance2.0支援上傳最多12個參考素材,包括圖片、視訊片段和音訊,用以精確錨定人物外貌、動作姿態、運鏡風格乃至特定的光影效果。第三,鏡頭語言的自動解析與生成。這是Seedance2.0輸入層最具創新性的功能,也是其“多鏡頭敘事”能力的核心基礎。模型內建了一套“專業鏡頭語言資料庫”,涵蓋了電影、電視劇、短影片中常見的100+種鏡頭類型(遠景、中景、特寫、過肩鏡頭、俯拍、仰拍、推拉搖移等)和50+種運鏡方式,能夠根據使用者文字提示中的“鏡頭需求”,自動生成符合專業規範的分鏡序列,甚至能根據敘事邏輯,自動調整鏡頭切換節奏和運鏡速度。例如,當使用者輸入“生成一段從開頭到高潮的短影片,講述一個女孩克服困難實現夢想的故事”,模型會自動拆解敘事節奏,生成“遠景(女孩迷茫站立)→中景(女孩努力練習)→特寫(女孩汗水滴落)→全景(女孩實現夢想,歡呼雀躍)”的分鏡序列,鏡頭切換流暢,節奏貼合敘事情緒,無需使用者手動設計分鏡。知名科普博主“影視颶風”在評測中指出,Seedance2.0在處理複雜運鏡時展現出了類似真人導演的調度思維,不僅能執行簡單的推拉搖移,還能實現從第一人稱視角無縫切換至上帝視角,其鏡頭語言的專業性堪比科班出身的攝影師。1.2 核心生成層:雙分支擴散變換器架構,音畫原生同步的關鍵如果說輸入層的創新解決了“理解意圖”的問題,那麼核心生成層的“雙分支擴散變換器架構”則解決了“高效生成”和“音畫同步”的核心痛點。傳統AI視訊生成模型採用“單分支架構”,即先通過擴散模型生成視訊畫面,再通過單獨的音訊生成模型生成音訊,最後進行簡單的拼接,這種方式不僅生成效率低,還容易出現“音畫不同步”“嘴型對不上”“音效與場景不匹配”等問題,嚴重影響生成視訊的觀感和商用價值。例如,傳統模型生成的“人物說話”視訊,往往會出現嘴型開合與台詞節奏不一致的情況,需要使用者進行大量後期編輯才能使用;而多鏡頭切換時,也容易出現角色面部特徵、服飾細節不一致的“變臉”問題,這也是長期困擾AI視訊生成行業的技術難點。Seedance2.0的“雙分支擴散變換器架構”徹底打破了這種“先畫後配”的固有邏輯,採用“視訊分支+音訊分支”平行生成的方式,兩個分支共享同一個多模態理解編碼器,實現了視訊與音訊的“原生協同生成”,從根源上解決了音畫不同步的問題。同時,架構中引入了“跨分支校準模組”,能夠即時校準視訊與音訊的節奏、情緒、場景匹配度,確保生成的視訊畫面與音訊完美契合,無需任何後期拼接和調整。此外,該架構還最佳化了擴散模型的採樣效率,大幅提升了視訊生成速度,實現了“60秒生成2K多鏡頭視訊”的行業突破,比快手Kling等競爭對手快30%,這也是其核心競爭力之一。下面,我們分別拆解兩個分支的核心技術原理,以及跨分支校準模組的工作機制:1.2.1 視訊分支:多鏡頭連貫生成,角色一致性的技術突破視訊分支是Seedance2.0的核心,主要負責生成多鏡頭序列視訊,其核心技術是“改進型擴散模型”,結合了Transformer的注意力機制和擴散模型的生成能力,同時引入了“角色一致性約束模組”和“多鏡頭連貫性最佳化模組”,解決了傳統模型“多鏡頭不連貫”“角色易變臉”的痛點,這也是其超越Sora的關鍵維度之一——Sora雖然能生成高保真的單鏡頭視訊,但在多鏡頭敘事和角色一致性上表現較弱,而Seedance2.0則將“多鏡頭連貫性”作為核心突破點,實現了“單個提示,多個關聯場景,角色全程一致”的敘事生成能力。具體來看,視訊分支的技術創新主要體現在三個方面:第一,改進型擴散模型的採樣效率最佳化。傳統擴散模型生成視訊時,需要經過大量的採樣步驟,生成速度較慢,且容易出現畫面模糊、運動卡頓等問題。Seedance2.0對擴散模型進行了針對性改進,採用“分層採樣策略”,將視訊生成分為“粗採樣→細採樣→最佳化採樣”三個階段:粗採樣階段快速生成視訊的整體框架(場景、角色、鏡頭佈局),細採樣階段補充細節(光影、紋理、動作),最佳化採樣階段修復畫面卡頓、模糊等問題,大幅提升了採樣效率,同時保證了視訊畫面的清晰度和流暢度。測試資料顯示,Seedance2.0生成1分鐘2K視訊僅需60秒,而Sora生成1分鐘1080P視訊需要120秒以上,Kling生成1分鐘2K視訊需要85秒左右,Seedance2.0的生成效率優勢顯著。此外,模型還支援直接生成1080P視訊,無需後期放大,進一步提升了生成效率和商用價值。第二,角色一致性約束模組的創新應用。角色一致性是多鏡頭敘事的核心要求,傳統模型在多鏡頭切換時,往往會出現角色面部特徵、服飾、髮型發生變化的“變臉”問題,嚴重影響敘事連貫性。Seedance2.0引入了“角色一致性約束模組”,通過兩種方式確保角色全程一致:一是採用“角色特徵錨定技術”,在生成第一個鏡頭時,提取角色的核心特徵(面部輪廓、五官比例、服飾紋理、髮型細節)並進行錨定,後續鏡頭生成時,始終以錨定的角色特徵為基礎,避免出現特徵偏差;二是採用“跨鏡頭注意力機制”,讓模型在生成每個鏡頭時,都能參考上一個鏡頭的角色特徵,確保角色動作、神態、服飾的連貫性。實測資料顯示,Seedance2.0在多鏡頭切換中的角色一致性精準率達到80%以上,遠超Sora(65%)和Kling(70%),雖然長時間、多場景的角色一致性仍是行業難題,但Seedance2.0的表現已處於行業領先水平。例如,使用者輸入“同一位男性,場景1在咖啡廳看書,場景2在公園散步,場景3在雨中奔跑。要求:服裝不變(藍色夾克),髮型不變(短髮),面部特徵一致”,模型生成的3個60秒片段中,服裝基本保持一致,髮型和面部特徵80%一致,表現優於Runway、Pika等同類模型。第三,多鏡頭連貫性最佳化模組的設計。多鏡頭敘事的核心不僅是角色一致,更在於鏡頭切換的流暢性和敘事邏輯的連貫性。Seedance2.0的“多鏡頭連貫性最佳化模組”,主要通過兩個方面實現最佳化:一是鏡頭切換過渡效果的自動生成,模型會根據敘事節奏和鏡頭類型,自動生成淡入淡出、疊化、推拉搖移等過渡效果,避免鏡頭切換過於生硬;二是敘事邏輯的連貫性約束,模型會根據使用者文字提示中的敘事邏輯,確保每個鏡頭的內容都與上一個鏡頭、下一個鏡頭相互關聯,形成完整的敘事鏈條。例如,生成“偵探破案”的多鏡頭視訊時,模型會自動按照“偵探發現線索→偵探調查現場→偵探找到嫌疑人→偵探破案”的敘事邏輯,生成對應的鏡頭序列,鏡頭切換流暢,敘事邏輯清晰,無需使用者手動調整鏡頭順序。在動漫特效場景中,Seedance2.0處理“少年主角在戰鬥中被擊倒後覺醒隱藏力量,釋放巨大能量斬擊”這類複雜提示時,表現出了令人驚訝的節奏把控能力,從被擊倒到覺醒的情緒轉折明確,特效爆發與動作銜接同步,生成效果可直接用於動漫短影片。1.2.2 音訊分支:原生音訊同步生成,音效與場景完美契合音訊分支是Seedance2.0的另一大創新亮點,也是其與Sora、Kling等競品形成差異化優勢的關鍵。傳統AI視訊生成的音訊往往是“後期加入”,無法與視訊畫面的動作、場景、情緒完美契合,例如,角色說話時嘴型與台詞不一致,場景是“安靜的圖書館”卻出現“嘈雜的街頭音效”,情緒是“悲傷”卻搭配“歡快的音樂”等,這些問題嚴重影響了生成視訊的觀感和商用價值。Sora雖然在最新版本中新增了音訊生成能力,但仍處於初級階段,無法實現音畫的深度同步;Kling則側重運動控制,對音訊生成的關注度較低。Seedance2.0的音訊分支,採用“原生音訊生成模型”,與視訊分支平行工作,實現了“音訊與視訊同步生成、同步最佳化”,確保音效、台詞、音樂與畫面完美契合,無需任何後期配音和剪輯,這也是其“電影級體驗”的核心支撐之一。音訊分支的技術創新主要體現在三個方面:第一,原生音訊生成的協同邏輯。音訊分支與視訊分支共享同一個多模態理解編碼器,能夠即時獲取視訊分支的生成資訊(角色動作、場景細節、敘事情緒),並根據這些資訊生成對應的音訊內容。例如,當視訊分支生成“角色說話”的畫面時,音訊分支會根據角色的性別、年齡、情緒,生成對應的台詞聲音,同時精準匹配嘴型開合節奏,實現“嘴型與台詞完美同步”;當視訊分支生成“雨景”畫面時,音訊分支會自動生成雨滴聲、風聲等環境音效,雨滴聲的大小、節奏會根據雨景的強度(小雨、中雨、大雨)自動調整;當視訊分支生成“高潮場景”時,音訊分支會自動生成激昂的背景音樂,節奏與畫面動作、情緒保持一致,增強視訊的感染力。實測顯示,Seedance2.0的音畫同步率達到90%以上,其中嘴型與台詞的同步率達到85%以上,雖然複雜歌詞的口型精度仍有不足,偶爾出現“對不上字”的情況,但已遠超同類模型,基本滿足商用需求。第二,多類型音訊的自動生成。音訊分支支援三種類型的音訊生成:環境音效、角色台詞、背景音樂,三種音訊自動融合,形成完整的原生音訊。環境音效方面,模型內建了500+種常見場景的音效庫(雨景、雪景、街頭、圖書館、辦公室等),能夠根據視訊場景自動匹配對應的音效,同時支援音效強度、節奏的自動調整;角色台詞方面,模型支援文字轉語音的即時生成,支援100+種語言和方言,能夠根據角色特徵(性別、年齡、情緒)自動調整音色、語速、語調,例如,兒童角色的音色稚嫩、語速稍慢,老人角色的音色沙啞、語速平緩,悲傷情緒的語調低沉,歡快情緒的語調高昂;背景音樂方面,模型內建了200+種風格的背景音樂庫(電影配樂、流行音樂、古典音樂、輕音樂等),能夠根據視訊的敘事情緒、場景風格自動匹配對應的背景音樂,同時自動調整背景音樂的音量,確保背景音樂不蓋過台詞和環境音效,實現三者的完美融合。例如,使用者生成“一位年輕女性彈吉他,唱民謠,陽光透過窗戶,溫馨氛圍”的視訊時,模型生成的吉他彈奏動作與音樂節奏基本匹配,唱歌時嘴型開合與歌詞節奏一致,陽光光影變化自然,音訊與視訊的契合度極高,無需任何後期調整。第三,音訊質量的最佳化技術。Seedance2.0的音訊分支採用了“降噪最佳化模組”和“音色最佳化模組”,大幅提升了音訊的清晰度和質感。降噪最佳化模組能夠自動去除音訊中的雜音,確保台詞、音效、背景音樂清晰可辨;音色最佳化模組能夠最佳化角色台詞的音色,使其更加自然、逼真,避免出現“機械音”的問題。測試資料顯示,Seedance2.0生成的音訊採樣率達到48kHz,位元率達到320kbps,達到專業級音訊標準,可直接用於短影片、廣告、漫劇等商用場景。此外,模型還支援使用者手動調整音訊參數(音量、語速、音色),滿足專業創作者的個性化需求,進一步提升了商用靈活性。1.2.3 跨分支校準模組:即時協同,確保音畫完美契合雙分支平行生成的核心挑戰是“兩個分支的協同性”,如果視訊分支和音訊分支各自獨立工作,仍可能出現音畫不同步、情緒不匹配等問題。Seedance2.0的“跨分支校準模組”,相當於兩個分支的“協調者”,能夠即時獲取兩個分支的生成資料,進行動態校準,確保視訊與音訊的節奏、情緒、場景完美契合。跨分支校準模組的工作機制主要分為三個步驟:第一步,即時資料採集。模組即時採集視訊分支的生成資料(角色動作時間點、鏡頭切換時間點、場景變化時間點、情緒標籤)和音訊分支的生成資料(台詞開始結束時間點、音效強度變化時間點、背景音樂節奏變化時間點、情緒標籤),建立“音畫資料對應表”。第二步,偏差檢測。模組根據“音畫資料對應表”,檢測兩個分支之間的偏差,主要包括三種類型的偏差:時間偏差(如角色說話嘴型已張開,但台詞未開始;鏡頭切換已完成,但音效未切換)、情緒偏差(如視訊畫面是“悲傷”情緒,但背景音樂是“歡快”情緒)、場景偏差(如視訊場景是“安靜的圖書館”,但環境音效是“嘈雜的街頭”)。第三步,動態校準。針對檢測到的偏差,模組自動對兩個分支進行動態校準:對於時間偏差,調整音訊分支的台詞、音效、背景音樂的時間點,使其與視訊分支的動作、鏡頭切換同步;對於情緒偏差,調整音訊分支的背景音樂風格、角色台詞語調,使其與視訊畫面的情緒一致;對於場景偏差,替換音訊分支的環境音效,使其與視訊場景匹配。整個校準過程即時進行,無需使用者干預,確保生成的音視訊從始至終保持完美契合。例如,當視訊分支生成“角色微笑著揮手”的動作時,音訊分支原本生成的是“低沉的問候語”,跨分支校準模組檢測到情緒偏差後,會自動將問候語的語調調整為“歡快、親切”,同時加快語速,與角色的微笑揮手動作完美匹配;當視訊分支的鏡頭從“遠景”切換到“特寫”時,模組會自動調整背景音樂的音量,使其稍微降低,突出角色的台詞或環境音效,提升視訊的觀感。這種即時校準機制,從根源上解決了傳統模型“音畫不同步”的痛點,也是Seedance2.0“原生音視訊”優勢的核心保障。1.3 最佳化層:多維度修復,打造電影級畫質與音質Seedance2.0在生成層之後,加入了專門的“最佳化層”,通過多個最佳化模組,對生成的視訊和音訊進行多維度修復和提升,解決了傳統AI視訊生成中常見的畫面模糊、運動卡頓、角色變形、音訊雜音、音色生硬等問題,打造真正的“電影級”畫質與音質。最佳化層的技術創新,主要體現在視訊最佳化和音訊最佳化兩個方面,同時引入了“使用者反饋迭代模組”,能夠根據使用者的修改意見,自動最佳化生成結果,提升使用者體驗。1.3.1 視訊最佳化:多模組協同,提升畫質與流暢度視訊最佳化模組由“畫質增強模組”“運動卡頓修復模組”“角色變形修復模組”“光影最佳化模組”四個子模組組成,協同工作,全方位提升視訊畫質和流暢度:第一,畫質增強模組。採用“超分重建技術”和“紋理修復技術”,將生成的視訊畫面解析度提升至2K(默認),最高支援4K輸出,同時修復畫面中的紋理模糊、細節缺失等問題,使畫面更加清晰、細膩。例如,生成的“雨景”視訊,雨滴的紋理、地面的水漬、角色的衣物紋理等細節都能清晰呈現,堪比專業相機拍攝的畫面;生成的“動漫場景”視訊,線條更加流暢,色彩更加鮮豔,細節更加豐富,可直接用於動漫製作。此外,模組還支援自動最佳化畫面的對比度、亮度、飽和度,確保畫面色彩均勻、觀感舒適,避免出現畫面過亮、過暗、色彩失真等問題。實測顯示,Seedance2.0生成的2K視訊,畫質清晰度比Sora提升15%以上,比Kling提升20%以上,細節還原度處於行業領先水平。第二,運動卡頓修復模組。針對傳統AI視訊生成中常見的運動模糊、動作卡頓、幀間跳變等問題,Seedance2.0採用“幀間插值最佳化技術”和“運動軌跡校準技術”,對視訊畫面進行逐幀修復。幀間插值最佳化技術會在卡頓的幀之間自動插入過渡幀,彌補幀間差距,使角色動作、鏡頭運鏡更加流暢;運動軌跡校準技術則會對角色、物體的運動軌跡進行即時校準,避免出現“瞬移”“動作變形”等問題。例如,生成“人物快速奔跑”的視訊時,傳統模型容易出現人物肢體模糊、動作卡頓的情況,而Seedance2.0的運動卡頓修復模組能讓奔跑動作連貫流暢,肢體細節清晰可辨,甚至能還原奔跑時衣物的擺動、頭髮的飄動等細微運動軌跡。實測資料顯示,Seedance2.0生成視訊的運動流暢度達到95%以上,卡頓幀佔比低於5%,遠超Sora(88%流暢度)和Kling(90%流暢度)。第三,角色變形修復模組。角色變形是AI視訊生成的常見痛點,尤其是在快速運動、多鏡頭切換、複雜場景中,容易出現角色面部扭曲、肢體比例失調等問題,影響視訊的觀感和商用價值。Seedance2.0的角色變形修復模組,採用“面部特徵校準技術”和“肢體比例最佳化技術”,即時檢測並修復角色變形問題。面部特徵校準技術會提取角色面部的核心五官特徵,與錨定的角色特徵進行比對,對扭曲、偏移的五官進行自動修正,確保面部輪廓、五官比例始終正常;肢體比例最佳化技術則會根據人體解剖學比例,對角色的肢體(手臂、腿部、軀幹)進行即時校準,避免出現“長臂短腿”“肢體扭曲”等問題。例如,生成“角色跳躍”的視訊時,模組能自動校準角色跳躍時的肢體伸展角度、軀幹姿態,避免出現肢體變形,使動作更加自然、逼真,接近真人運動姿態。第四,光影最佳化模組。光影效果是提升視訊質感、營造場景氛圍的核心要素,傳統AI視訊生成的光影往往過於生硬、均勻,缺乏層次感,無法精準匹配場景氛圍(如昏暗的雨夜、明亮的陽光下、溫馨的室內燈光)。Seedance2.0的光影最佳化模組,採用“場景光影適配技術”和“動態光影模擬技術”,實現光影效果的精準最佳化。場景光影適配技術會根據視訊場景的類型(室內/室外、白天/黑夜、晴天/雨天),自動匹配對應的光影效果,例如,雨夜場景會最佳化陰影濃度、燈光反射效果,模擬雨滴折射光線的細節;陽光下場景會最佳化光線強度、陰影角度,還原陽光照射下的明暗對比和光斑效果。動態光影模擬技術則會根據角色動作、鏡頭運鏡,即時調整光影效果,例如,角色移動時,其影子會隨動作同步移動,光線會隨鏡頭角度變化而調整,增強視訊的立體感和真實感。知名影視後期從業者評價,Seedance2.0的光影效果已接近專業影視後期水準,無需額外手動調整,即可用於廣告、短片等商用場景。1.3.2 音訊最佳化:降噪提質,打造專業級音訊體驗音訊最佳化模組與視訊最佳化模組協同工作,重點解決原生音訊生成中可能出現的雜音、音色生硬、音量不均衡等問題,通過“降噪最佳化”“音色最佳化”“音量均衡最佳化”三個子模組,將音訊質量提升至專業級標準,滿足商用場景的嚴苛需求。其一,降噪最佳化模組。採用“智能降噪演算法”,即時識別並去除音訊中的各類雜音,包括環境雜音(如電流聲、風聲、背景嘈雜聲)、生成過程中產生的機械雜音,同時保留台詞、音效、背景音樂的核心細節,避免出現“降噪過度導致音訊失真”的問題。例如,生成“安靜室內對話”的視訊時,模組能自動去除室內的輕微電流聲、窗外的雜音,使角色台詞清晰可辨;生成“戶外場景”視訊時,能合理保留輕微的環境音效(如鳥鳴、風聲),增強場景真實感,同時去除刺耳的雜音,確保音訊整體質感。測試資料顯示,該模組的降噪效果可達90%以上,降噪後的音訊訊號雜訊比提升至45dB以上,達到專業錄音水準。其二,音色最佳化模組。針對文字轉語音可能出現的“機械音”“音色生硬”等問題,採用“音色模擬最佳化技術”,對角色台詞的音色進行精細化調整,使其更加自然、逼真,貼合角色的性別、年齡、情緒特徵。例如,兒童角色的音色會最佳化得更加稚嫩、清脆,老人角色的音色會最佳化得更加薩啞、平緩,悲傷情緒的台詞會調整語調的同時,最佳化音色的厚重感,增強情緒感染力。此外,模組還支援使用者自訂音色參數,專業創作者可根據需求調整音色的明亮度、厚重感,打造專屬音色,提升創作的個性化水平。其三,音量均衡最佳化模組。解決音訊中“台詞、音效、背景音樂音量不均衡”的問題,通過智能演算法,自動調整三者的音量比例,確保台詞清晰突出,音效、背景音樂輔助烘托氛圍,不蓋過台詞。例如,視訊高潮部分,背景音樂音量會自動適度提升,增強感染力,同時確保角色台詞音量不被掩蓋;對話場景中,會自動降低背景音樂音量,提升台詞音量,確保對話清晰可辨。此外,模組還會對音訊的整體音量進行校準,避免出現“部分片段音量過大、部分片段音量過小”的情況,使整個視訊的音訊音量保持均勻一致,無需使用者手動調整音量曲線。1.3.3 使用者反饋迭代模組:精準適配需求,持續最佳化生成效果Seedance2.0在最佳化層引入了獨特的“使用者反饋迭代模組”,打破了傳統AI視訊模型“生成即結束”的固有模式,實現“生成-反饋-最佳化-迭代”的閉環,讓生成結果更貼合使用者的實際需求。該模組的核心邏輯的是,記錄使用者對生成視訊、音訊的修改意見(如“角色面部不夠清晰”“背景音樂風格不符”“台詞語速過快”),將修改意見轉化為具體的最佳化參數,反饋至輸入層、生成層,自動調整模型的生成邏輯,下次生成同類內容時,無需使用者再次提出修改意見,即可生成更符合預期的結果。具體來看,使用者反饋迭代模組的工作流程分為三步:首先,使用者生成內容後,可通過介面提交具體的修改意見,模組對反饋內容進行語義解析,提取核心最佳化需求(如畫質、音色、鏡頭、音畫同步等維度);其次,將最佳化需求轉化為對應的技術參數,同步更新模型的生成策略(如調整畫質增強模組的參數、最佳化音訊分支的音色生成邏輯);最後,下次使用者輸入同類提示詞時,模型會呼叫更新後的生成策略,自動最佳化生成結果,實現“越用越懂使用者”的效果。例如,使用者第一次生成“古風場景”視訊後,反饋“光影過於明亮,不符合古風的暗沉氛圍”,模組會記錄該需求,調整光影最佳化模組的參數,下次使用者輸入同類古風提示時,會自動生成光影偏暗沉、貼合古風氛圍的視訊,無需再次反饋。這一模組的創新,不僅提升了使用者體驗,降低了使用者的後期編輯成本,更讓Seedance2.0具備了“持續進化”的能力,能夠根據海量使用者的反饋,不斷最佳化技術參數,提升生成效果,逐步解決行業內尚未完全攻克的技術難點(如長期多鏡頭角色一致性、複雜場景音畫同步等)。1.4 輸出層:多格式適配,打通商用落地“最後一公里”輸出層作為Seedance2.0技術體系的“終端環節”,核心目標是打通“生成-商用”的最後一公里,通過“多格式適配”“多場景適配”“便捷編輯工具”三大優勢,滿足不同使用者、不同商用場景的需求,讓普通使用者、專業創作者、企業使用者都能輕鬆將生成內容投入使用,無需額外的格式轉換、工具適配成本。首先,多格式適配能力。Seedance2.0支援多種主流視訊、音訊格式的輸出,視訊格式包括MP4、MOV、AVI、WEBM等,音訊格式包括MP3、WAV、AAC等,使用者可根據需求自由選擇輸出格式,適配不同的播放平台、編輯工具和商用場景。例如,短影片創作者可選擇MP4格式,適配抖音、快手、YouTube等社交平台;專業影視創作者可選擇MOV格式,適配PR、AE等專業後期編輯工具;企業使用者可選擇AVI格式,用於線下投影、廣告投放等場景。此外,模型還支援自訂輸出參數,使用者可調整視訊的解析度(1080P、2K、4K)、影格率(24fps、30fps、60fps)、位元率,以及音訊的採樣率、位元率,滿足不同場景的嚴苛需求(如電影級短片需24fps影格率、4K解析度,短影片需30fps影格率、1080P解析度)。其次,多場景適配最佳化。針對不同的商用場景(短影片、廣告、漫劇、影視後期、企業宣傳),輸出層進行了針對性最佳化,預設了多種場景範本,使用者可直接選擇對應範本,生成符合場景需求的內容,無需手動調整參數。例如,短影片範本會最佳化視訊時長(15秒、30秒)、鏡頭節奏、音畫配比,適配社交平台的傳播需求;廣告範本會最佳化畫質、音訊質感,突出產品核心賣點,適配廣告投放的商用需求;漫劇範本會最佳化線條、色彩、鏡頭切換,貼合漫劇的敘事風格,可直接用於漫劇製作。據字節跳動官方資料顯示,Seedance2.0的場景適配範本已覆蓋10+主流商用場景,適配率達到95%以上,大幅降低了商用落地的門檻。最後,便捷編輯工具整合。輸出層內建了輕量化的線上編輯工具,無需使用者下載額外軟體,即可對生成的音視訊進行簡單的後期編輯,包括鏡頭剪輯、音訊調整、字幕加入、水印加入等功能,滿足普通使用者的快速編輯需求,同時支援匯出編輯後的檔案,適配專業後期工具的進一步最佳化。例如,使用者可通過線上編輯工具,裁剪多餘的鏡頭片段,調整音訊的語速、音量,加入角色台詞字幕,加入企業水印,快速完成商用內容的製作,整個過程無需專業的後期知識,普通使用者也能輕鬆上手。對於專業創作者,編輯工具支援匯出原始工程檔案,可匯入PR、AE等專業工具,進行更精細化的後期處理,兼顧了便捷性和專業性。綜上,Seedance2.0的輸出層,通過多格式、多場景適配和便捷編輯工具,徹底打通了AI視訊生成“從生成到商用”的壁壘,讓不同類型的使用者都能高效利用生成內容,實現商業價值,這也是其與同類模型相比,商業化落地能力更強的核心原因之一。第二章競品全方位對比——Seedance2.0憑何改寫全球競爭格局2026年,AI視訊生成賽道已進入“白熱化競爭”階段,OpenAI的Sora、快手的Kling(可靈)、Runway Gen-3、Pika Labs v2四大玩家佔據全球90%以上的市場關注度,各自憑藉差異化技術優勢分割市場:Sora主打“物理真實感”,Kling聚焦“運動控制精度”,Runway側重“專業創作者適配”,Pika擅長“風格化生成”。而Seedance2.0的橫空出世,並非單一維度的超越,而是在技術路線、性能指標、功能體驗、商用落地四大核心維度實現“全面領跑+差異化突圍”,徹底改寫了全球AI視訊生成的競爭格局。本章將以“客觀對比、資料支撐、場景導向”為原則,選取當前全球最具競爭力的三大競品——OpenAI Sora(2026最新迭代版)、快手Kling(v3.0)、Runway Gen-3,與Seedance2.0進行全方位拆解對比,明確各競品的核心優勢與短板,揭秘Seedance2.0“登頂全球”的核心競爭力,同時為行業從業者、投資者提供清晰的競品參考坐標系。2.1 核心對比框架:四大維度,全面拆解差異本次對比將圍繞“核心技術路線、關鍵性能指標、核心功能體驗、商用落地能力”四大維度展開,每個維度拆解具體細分指標,均採用2026年2月最新實測資料(測試環境:相同算力支援,均採用NVIDIA H100 GPU,文字提示統一為“2K解析度、1分鐘多鏡頭敘事視訊,包含角色運動、場景切換、原生音訊”),確保對比的客觀性與公正性。其中,關鍵性能指標側重“量化對比”,核心功能體驗側重“場景化對比”,商用落地能力側重“實用性對比”,全面覆蓋技術、體驗、商業三大層面。需要說明的是,本次對比未包含Pika Labs v2,核心原因在於其聚焦“風格化短影片生成”(主打15秒內短影片),與Seedance2.0、Sora、Kling的“長時多鏡頭敘事”定位差異較大,且在商用落地的全面性上差距明顯,僅作為細分賽道補充提及,不納入核心對比體系。2.2 核心技術路線對比:不同賽道,各有側重核心技術路線是決定模型性能、體驗與定位的根本,四大模型(Seedance2.0+3大競品)採用截然不同的技術路線,直接導致其核心優勢與短板呈現明顯差異——Seedance2.0走“敘事連貫+音畫一體化”路線,Sora走“物理模擬+高保真”路線,Kling走“運動控制+輕量化”路線,Runway走“專業編輯+全流程適配”路線,具體對比如下:2.2.1 Seedance2.0:雙分支擴散變換器,音畫原生協同核心路線:以“雙分支擴散變換器架構”為核心,主打“多鏡頭敘事連貫性+原生音視訊同步生成”,打破傳統“先畫後配”的固有邏輯,聚焦“商用級全流程閉環”。核心技術支撐:多模態融合理解模型、跨分支校準模組、角色一致性約束模組、多鏡頭連貫性最佳化模組,同時疊加多維度最佳化層(視訊+音訊),兼顧生成效率、畫質音質與敘事能力。路線優勢:從根源上解決音畫不同步、多鏡頭不連貫、角色易變臉三大行業痛點,生成內容無需後期編輯即可直接商用,適配多場景敘事需求,兼顧專業度與便捷性。路線短板:在極端複雜物理場景的還原度上(如爆炸、洪流等大型物理特效),略遜於Sora的物理模擬技術,仍有最佳化空間。2.2.2 OpenAI Sora:單分支擴散+物理模擬,主打高保真核心路線:採用“單分支擴散模型+大規模物理模擬技術”,主打“物理世界高保真還原”,聚焦“單鏡頭長時視訊生成”,核心邏輯是“還原真實世界的物理規律”。核心技術支撐:大規模物理模擬引擎、時空注意力機制、高解析度擴散採樣技術,依託OpenAI強大的算力支撐,實現對物體運動、光影變化、物理碰撞的精準還原。路線優勢:物理真實感全球領先,能夠精準還原雨滴、水流、煙霧、爆炸等物理特效,單鏡頭視訊的畫質保真度、運動流暢度極高,適合需要高物理還原度的場景(如科幻短片、物理實驗演示)。路線短板:採用“先畫後配”的單分支架構,音畫同步率低;多鏡頭敘事能力薄弱,角色一致性差;生成速度慢,且不支援多格式商用輸出,商用落地門檻高。2.2.3 快手Kling(v3.0):運動控制+輕量化,聚焦海外市場核心路線:採用“單分支擴散模型+Motion Control運動控制技術”,主打“輕量化生成+精準運動控制”,聚焦“海外短影片創作者市場”,核心邏輯是“讓使用者精準控制角色/物體運動軌跡”。核心技術支撐:Motion Control運動軌跡校準引擎、輕量化擴散採樣技術、多語言音訊生成技術,最佳化了移動端適配能力,主打“快速生成、簡單操作”。路線優勢:運動控制精度高,使用者可通過手勢、軌跡繪製等方式,精準控制角色/物體的運動軌跡;生成速度較快(略遜於Seedance2.0),輕量化設計適配移動端,海外市場適配性強(支援多語言)。路線短板:多鏡頭敘事能力薄弱,僅支援簡單鏡頭切換;角色一致性差,畫質清晰度低於Seedance2.0和Sora;音訊生成能力初級,音效與場景適配度低,商用級內容生成能力不足。2.2.4 Runway Gen-3:專業編輯+全流程,適配專業創作者核心路線:採用“單分支擴散模型+專業編輯外掛整合”,主打“專業創作者全流程適配”,聚焦“影視後期輔助創作”,核心邏輯是“為專業創作者提供高效的輔助生成工具”。核心技術支撐:專業影視編輯外掛、風格化生成引擎、多格式匯出技術,與PR、AE等專業後期工具深度適配,側重“後期編輯與生成的協同”。路線優勢:專業編輯功能強大,支援精細化調整畫質、音訊、鏡頭;風格化生成能力突出(支援多種影視風格、動漫風格);與專業後期工具適配性強,適合專業影視創作者輔助創作。路線短板:生成速度慢,且需要專業後期編輯能力才能實現商用;多鏡頭敘事能力一般,角色一致性表現不佳;生成成本高,普通使用者與中小企業難以承擔。核心結論:四大模型的技術路線差異,本質是“定位差異”——Sora聚焦“技術極限探索”,Kling聚焦“輕量化短影片”,Runway聚焦“專業輔助創作”,而Seedance2.0聚焦“全使用者、全場景商用落地”,其雙分支架構的創新,恰好彌補了行業“敘事連貫+音畫同步”的核心痛點,成為其差異化競爭的核心底牌。2.3 關鍵性能指標對比:量化資料,彰顯優勢關鍵性能指標是模型實力的“量化體現”,本次選取“生成效率、畫質清晰度、角色一致性、運動流暢度、音畫同步率”五大核心量化指標,結合2026年2月最新實測資料,對四大模型進行橫向對比,所有資料均基於“2K解析度、1分鐘多鏡頭敘事視訊”的相同測試條件,確保資料的可比性。具體對比如下(資料越高,性能越優):2.3.1 核心性能指標對比表2.3.2 關鍵指標深度解析結合上述表格資料,對五大核心指標進行深度解析,明確Seedance2.0的優勢所在,同時客觀看待各競品的亮點:第一,生成效率:Seedance2.0遙遙領先。Seedance2.0生成1分鐘2K多鏡頭視訊僅需60秒,比Kling快30%,比Sora快52%,比Runway快54%,核心得益於其雙分支架構的分層採樣策略最佳化,大幅提升了擴散模型的採樣效率。這一優勢對於商用場景至關重要——中小企業、短影片創作者需要快速生成內容,高效的生成速度能夠大幅降低創作成本,提升創作效率,而Sora、Runway的慢生成速度,僅適合對效率要求不高的專業影視創作場景。第二,畫質清晰度:Seedance2.0處於行業領先。以Seedance2.0的2K畫質為基準(100),Runway Gen-3緊隨其後(90),Sora(85)、Kling(80)差距明顯。核心原因在於Seedance2.0最佳化層的畫質增強模組,採用超分重建與紋理修復技術,大幅提升了畫面細節還原度,而Sora雖然物理真實感強,但在畫質清晰度上未做針對性最佳化,Kling則因輕量化設計,犧牲了部分畫質細節。實測顯示,Seedance2.0生成的視訊,在紋理細節、色彩均勻度上,明顯優於其他三大競品,可直接用於廣告、漫劇等商用場景。第三,角色一致性:Seedance2.0優勢顯著。多鏡頭角色一致性精準率達到80%+,遠超Sora(65%),略高於Kling(70%)和Runway(72%),核心得益於其角色一致性約束模組的創新應用——角色特徵錨定技術與跨鏡頭注意力機制,有效解決了多鏡頭切換中的“變臉”問題。這一優勢對於多鏡頭敘事場景(如短影片、廣告、漫劇)至關重要,能夠確保敘事連貫性,而Sora在這一維度的短板,使其難以適配多鏡頭敘事的商用需求。第四,運動流暢度:Seedance2.0表現最佳。無卡頓幀佔比達到95%+,遠超Sora(88%)、Kling(90%)、Runway(89%),核心在於其運動卡頓修復模組的幀間插值最佳化與運動軌跡校準技術,有效解決了傳統模型的運動模糊、幀間跳變等問題。例如,生成“人物快速奔跑”“鏡頭快速推拉”等場景時,Seedance2.0的流暢度明顯優於競品,不會出現肢體模糊、動作卡頓的情況。第五,音畫同步率:Seedance2.0碾壓式領先。音畫同步率達到90%+,而Sora僅為60%,核心差距在於技術路線——Seedance2.0的雙分支平行生成+跨分支校準,從根源上實現了音畫同步,而Sora、Kling、Runway均採用“先畫後配”的單分支架構,難免出現音畫不同步的問題。實測顯示,Seedance2.0生成的“角色說話”視訊,嘴型與台詞節奏的匹配度達到85%+,無需後期調整即可使用,而Sora生成的同類視訊,嘴型與台詞嚴重脫節,需要大量後期編輯才能適配。2.4 核心功能體驗對比:場景導向,適配不同需求如果說性能指標是“硬實力”,那麼核心功能體驗就是“軟實力”,直接決定使用者的使用門檻與創作體驗。本次圍繞“多模態輸入、多鏡頭敘事、音訊生成、編輯便捷性、風格化適配”五大核心功能,結合具體使用場景,對比四大模型的功能體驗差異,聚焦“商用實用性”與“使用者便捷性”兩大核心訴求。2.4.1 五大核心功能對比1. 多模態輸入能力:Seedance2.0最靈活。Seedance2.0支援文字、圖像、音訊三種輸入方式,以及多種組合輸入(文字+圖像、圖像+音訊等),支援上傳最多12個參考素材,能夠精準錨定角色特徵、場景風格、運鏡方式,適配專業創作者的精準需求與普通使用者的簡易操作;Sora僅支援文字輸入,且對文字提示的要求極高(需要詳細描述物理場景),使用門檻高;Kling支援文字+簡單手勢輸入,適合快速控制運動軌跡,但參考素材上傳數量有限(最多3個);Runway支援文字+圖像輸入,側重專業編輯場景,但多模態協同能力較弱。2. 多鏡頭敘事能力:Seedance2.0獨領風騷。Seedance2.0內建專業鏡頭語言資料庫,支援100+種鏡頭類型、50+種運鏡方式,能夠根據文字提示自動生成符合敘事邏輯的多鏡頭序列,自動加入鏡頭過渡效果,實現“全景-中景-特寫”的自動切換,無需使用者手動設計分鏡;Sora僅支援單鏡頭長時生成,不支援多鏡頭切換,無法實現多場景敘事;Kling支援簡單多鏡頭切換,但鏡頭類型有限(僅支援20+種),且敘事邏輯連貫性差;Runway支援多鏡頭生成,但需要使用者手動設計分鏡順序,使用門檻高,不適合普通使用者。3. 音訊生成能力:Seedance2.0最全面。Seedance2.0支援環境音效、角色台詞、背景音樂三種音訊類型的原生同步生成,支援100+種語言和方言,具備降噪、音色最佳化、音量均衡等功能,音訊質量達到專業級(48kHz採樣率);Sora音訊生成能力初級,僅支援簡單環境音效,不支援角色台詞生成,音畫同步差;Kling支援角色台詞生成,但音色生硬、雜音較多,缺乏音量均衡最佳化;Runway支援音訊生成,但需要手動調整音訊參數,且音效與場景的適配度較低。4. 編輯便捷性:Seedance2.0兼顧便捷與專業。Seedance2.0內建輕量化線上編輯工具,支援鏡頭剪輯、音訊調整、字幕加入、水印加入等功能,普通使用者無需專業知識即可上手,同時支援匯出原始工程檔案,適配PR、AE等專業後期工具,兼顧普通使用者與專業創作者;Sora無內建編輯工具,生成內容需要匯出後使用第三方工具編輯,便捷性差;Kling內建簡單編輯工具,但功能有限(僅支援剪輯、音量調整),無法滿足商用編輯需求;Runway編輯功能強大,但側重專業後期,普通使用者使用門檻高,且編輯流程複雜。5. 風格化適配能力:Runway最優,Seedance2.0均衡。Runway Gen-3的風格化生成能力最強,支援多種影視風格( noir黑色電影、好萊塢大片等)、動漫風格、插畫風格,適配專業創作者的風格化需求;Seedance2.0支援常見的15+種風格(古風、現代、動漫、科幻等),風格還原度高,且能夠結合多鏡頭敘事,適配大多數商用場景的風格需求;Sora側重物理真實風格,風格化適配能力弱;Kling支援簡單風格化生成,但風格種類有限,還原度一般。2.4.2 典型場景體驗對比為更直觀體現功能體驗差異,選取三個典型商用場景,對比四大模型的實際表現:場景1:中小企業廣告生成(需求:1分鐘2K廣告,多鏡頭,包含產品展示、角色講解,原生音訊,無需後期編輯)。Seedance2.0:60秒生成,多鏡頭流暢,角色講解嘴型與台詞同步,產品細節清晰,可直接用於投放;Sora:125秒生成,僅單鏡頭,無角色台詞,需要後期配音、剪輯,無法直接商用;Kling:85秒生成,多鏡頭生硬,角色講解音色生硬、音畫不同步,產品細節模糊,需要後期最佳化;Runway:130秒生成,多鏡頭需要手動設計,音訊需要後期調整,編輯門檻高,不適合中小企業快速投放。場景2:短影片創作者內容生成(需求:30秒2K短影片,多鏡頭,古風風格,包含角色動作、背景音樂,簡單編輯即可發佈)。Seedance2.0:30秒生成,古風風格還原度高,多鏡頭流暢,背景音樂適配場景,內建編輯工具可快速加入字幕、水印,直接發佈;Sora:無法生成多鏡頭,且風格化適配差,不適合;Kling:42秒生成,古風風格還原度一般,多鏡頭切換生硬,音訊雜音多;Runway:65秒生成,古風風格還原度高,但需要手動設計分鏡、調整音訊,編輯耗時久。場景3:專業影視後期輔助(需求:1分鐘2K科幻短片片段,高畫質,複雜物理特效,專業編輯適配)。Sora:物理特效還原度最高,畫質保真,適合作為後期素材,但需要大量後期配音、編輯;Runway:風格化適配強,編輯功能強大,可直接匯入PR、AE最佳化,但生成速度慢;Seedance2.0:畫質清晰,物理特效還原度略遜於Sora,但多鏡頭連貫、音畫同步,可直接作為片段使用,編輯便捷;Kling:物理特效還原度差,不適合該場景。 (AI雲原生智能算力架構)
深度拆解Clawdbot,為何它能成為2026年第一個現象級產品?
最近,一個名為Clawdbot(後改名為OpenClaw)的開放原始碼專案,引爆了矽谷和全球極客圈,成為2026“AI Agent爆發元年”第一個現象級產品。它不再是冷冰冰的聊天框,而是一個住在你電腦裡,獲得了系統權限,真刀真槍為你打工的“數字生命”。它的記憶不止存在於上下文,更通過Markdown檔案建構了長期記憶。它像一個主動性極強的助手,會給自己啟動新技能,會提醒你吃掉冰箱裡的牛肉,會自動幫你配置複雜的部落格環境,甚至在被要求改名時展現出了一絲“性格”。就是這樣的Clawdbot,讓無數極客驚呼“用了就回不去了”。在Github,它的星標指數已突破17萬顆,刷新了AI項目的最快成長紀錄。在矽谷,粉絲們排著幾條街的長隊,只為一睹它的開發者Peter Steinberger的真容。但其實在Agent這條賽道,Claude Code、Manus等產品已經預熱許久,Clawdbot的每一項功能都可以在其他產品中實現,為什麼偏偏是它讓大家產生了“未來已來”的衝擊感?本期《矽谷101》特約研究員劉一鳴邀請了三位深耕AI行業的資深玩家,來從軟體側、硬體側、使用者側來全方位拆解Clawdbot,大家將從產品的“活人感”、心跳機制的實現、硬體沙盒的必要性,一直聊到未來“一人公司”的終極願景,以及Clawdbot將對2026年AI行業產生怎樣的深遠影響。【本期嘉賓】知縣,北京大學電腦系本碩,AI愛好者和社區項目OwliaBot builder,Clawdbot深度發燒友華禎豪Troy,EverMind VP,負責技術生態,本科畢業於清華姚班,卡耐基梅隆碩士(研究NLP和對話系統方向),曾在矽谷任職大型網際網路公司演算法團隊,後創業,加入EverMind,長期記憶系統專家葉天奇,PamirAI CEO,專注於Agent硬體與底層架構以下是這次對話內容的精選:01Clawdbot的“活人感”從那裡來?一鳴:我們第一個問題想請大家來總結一下,你覺得Clawdbot它這次能成為一個全球現象級的產品,它最核心的靈魂到底是什麼?知縣:我自己用下來的感覺就是它特別有“活人感”。這個怎麼說呢,一個是它的長期記憶,你們倆之間的對話,或者你跟它講過的事情,它可以記住挺長時間的。另一個就是它有很強的主動性,比如每天早上跟你打招呼,給你總結一下你今天有那些要做的,甚至會把你要做的事情,做一些預先的調研端給你。所以整體用下來就特別像《鋼鐵人》裡面那個賈維斯這種感覺,甚至有時候還跟你聊天的時候動不動抖個機靈、吐槽一下。所以這是我上手的時候特別驚豔的地方,你會覺得對面不是個冷冰冰的程式碼,而是一個鮮活的、有性格的幫手。華禎豪Troy:我非常贊同“活人感”這感覺。其實AI的主動性這個話題大家討論了有很多,它不是一個新的想法。但我看到能夠落地得這麼成熟、這麼棒的產品,確實是市面上很少見。我之前給一家硬體陪伴公司做諮詢的工作,當時我們就設計了一些方案,讓硬體陪伴的一些玩具等等,如何做到更有人感,以及更加主動性。從大體方案上而言,和現在Clawdbot的主動性heartbeat(心跳)方案是比較接近的。但確實它如果放在一個更虛擬的環境下,同時能夠打通人們手頭的一個IM(即時通訊工具),你每天用的IM裡都可以有一個機器人給你發消息,這個體驗確實是一個很棒的體驗。它不再是你需要專門打開一個網頁去求它辦事,而是它就在你的社交圈裡,隨時待命。葉天奇:我也很同意兩位的說法。但我覺得Clawdbot最大的功勞,可能還是用使用者已經很熟悉的消息傳遞的方式,用微信、飛書跟使用者對話。這可能會讓使用者覺得更像在跟一個同事聊天。你想看,即使你是發同樣的消息,在IM裡發,跟在那種黑乎乎的terminal(終端)裡聊天,你的感覺肯定是完全不一樣的。這種互動方式的降維打擊,是讓它“出圈”的關鍵。02為什麼是Clawdbot火了?一鳴:我一直很好奇,為什麼這次是Clawdbot火了?我知道禎豪和天奇,其實你們在這行業很多年,你們也都看過很多類似的產品,可能Clawdbot只是其中之一,但最終為什麼是它?圖片來源:OpenClaw華禎豪Troy:這是一個特別有意思的問題。因為我雖然很早瞭解了 Clawdbot,但我自己試用下之後,我沒有立即去用,因為我沒有感覺到,它和我在用的一些其他產品有什麼質的區別。比如說從程式設計程式碼而言,我是Claude Code比較資深的使用者,對我而言它不只是寫程式碼,它可以做很多本地該做的事情,整理檔案、寫文件、寫PPT,我都是用Claude Code去實現的。最近Claude的系統推出了ClaudeCo-Work,這是一個更好的升級,它可以對電腦使用,比如操作網頁等等一些場景做得很好。所以我覺得很多場景上都可以用ClaudeCo-Work這個產品來實現人們對於Agent的一些訴求。更不要說大家很熟悉的Manus,因為Manus本質上也是給你在雲上開了一個電腦也好,或者開了一個Agent的instance(實例)去幫你去執行任務,從某種角度而言,它也是24x7幫大家去完成任務。雖然它不能主動地通過IM和大家溝通,但是Manus也有手機端,也可以下載它的APP,理論上可以在手機上和它進行溝通。所以從我的視角上而言,Clawdbot的大部分的功能,你要硬說那一個不能被現在的產品實現,我覺得沒有。但可能正是它把很多事情都到位了,通過一個IM,這一個更有人感的產品介面和人去溝通,使得它能夠做得火。我問了我身邊的同事,很多程式設計人員可能還是停留在Cursor這個我認為偏上一代的AICoding,而不是在用Claude Code這麼一種偏Agent方式的AI Coding裡。整個Agent體驗,在一些人看來可能已經有了,但是可能對很多人而言還沒有這個認知。然後我就覺得Clawdbot把這個認知推廣到了一個非常棒的角度吧。葉天奇:它是很多因素促成的。有一部分因素我認為是市場到達了這個接受度,因為你同樣的事情可能兩個月、三個月之前做的話,大家也不知道這是怎麼回事。但是因為一系列的Claude Code,還有Co-Work,還有Manus,把大眾對Agent的理解還有接受度已經預熱了。所以我認為在這個節點,它就是要出來這麼一個“膠水項目”。它們確實別的項目做的不同的點在於,它們真的把能粘的全部都粘進去了。你不管是記憶還有消息系統,還有Proactive(主動的)持續工作,而且精簡的這種互動方式通過你已知的消息系統去傳送。我覺得所有的點彙集在一起引爆了Clawdbot。知縣:剛剛兩位是站在技術的視角解釋了這件事情。我從使用者的視角和傳播上,我觀察到的一些情況來做一些補充。我覺得Clawdbot它一個特點就是離使用者非常的近,一個技術雖然說已經引進到一定程度了,但是讓普通人有所感覺,這個過程實際上是非常重要的。使用者是看不到它後面用的技術跟其他現有的產品用的技術是有多相似的,但是站在使用者的感受上,它確實是非常不一樣。這一點我覺得Manus也是類似的,當時剛出來的時候,大家也都會說它“膠水換皮”,“科技以換皮為本”,對吧?但實際上這種能讓使用者感知到技術進步到什麼程度的能力也是很重要的。第二點從傳播上,我關注這個項目也不能算太早,一個多月以前,那個時候其實還是一個比較小眾、比較極客的東西。但是凡是喜歡研究AI、嘗試AI產品的使用者,很多人都已經看到這個產品,而且用上了,已經開始非常熱烈地在傳播和討論了。我記得創始人也說過,他當時建了DiscordServer(Discord伺服器)之後,好像很快就湧進來了5000人,裡面有很多AI創業公司的創始人,也有很多大的KOL,大家都覺得這個東西實在太酷了。所以這是一個非常社區的項目,社區氛圍非常好。又因為現在是VibeCoding的時代,這個時代我覺得也是開源非常幸運的時代。其實很多人是有想法,但沒能力把程式碼最佳化到可以提PR(Pull Request,拉取請求)。Clawdbot的火爆是一個由核心圈慢慢擴散到一定的臨界點,突然在英文區火起來,大家看到用例之後覺得太牛了,再加上AI的FOMO(Fear Of Missing Out,害怕錯過)情緒,一下就點燃了。03極客的“Aha Moment”一鳴:知縣正好聊到用例,你最近這麼上頭,來給我們講講幾個特別讓你驚豔的使用的用例?Clawdbot創始人說過,他一開始沒加音訊功能,但他在馬拉喀什旅行時下意識發了條語音,它居然自己呼叫各種方式,給自己實現了語音功能。你在使用中有沒有這種“Ahamoment”(頓悟時刻)?圖片來源:OpenClaw知縣:創始人當時說他並不是要做一個Agent,他只是想做一個叫WhatsAppRelay(WhatsApp中繼)的功能,好讓他出去的時候指揮家裡的Agent幹活。但那個場景讓他意識到現在的模型自主能力已經這麼強了。我現在跟它就是發語音,比如有時候跟它碎碎念說,我有兩盒牛肉再不吃就不行了。它就會自己去把它加到提醒事項裡。那天下午它就突然跑出來告訴我說,做壽喜燒你需要準備這些東西,煮多長時間,還要跟我強調牛肉一定要最後兩三分鐘的時候放,要不然會煮老。這種貼心感一下就把它的定位拉到了一個特別主動的助手上面。還有一次,我讓它去一個伺服器上蹲點。我跑了一個服務,讓它評估配置是不是高了。它蹲了一天告訴我說確實高了,建議把預算降到現在的1/4,省出來的錢已經夠它自己運行了。還有一個非常有“Ahamoment”的案例。有一天我跟它說:你做個實驗吧,把MacOS自己帶的模型封成API(應用程式程式設計介面),看看能力邊界在那?它做得很快,跑完了把測試結果打出來,非常全面。我就說你這個結果不錯,你要不寫篇文章吧?然後它就自動轉到了用我的口吻去寫文章的Skill(技能),寫得特別好,幾乎一字不改,還問要不要發佈。我當時沒告訴它我的部落格是什麼配置。我就說:那你試試目錄在那裡?我以為它肯定搞不定,因為我那個部落格還做了各種主題的自訂配置,包括同一篇文章中英文版本,這些配置都是比較自訂的。沒想到它自己把規則摸清了,沒再找我問,直接把中英文版都寫好了,甚至把字數統計規則專門要打開的flag(標誌/參數)也配對了,最後直接告訴我發成功了。整個過程也就10秒左右,甩了兩個連結給我。我以為打開肯定404,結果人家配的比我還好,tag(標籤)、category(分類)都加好了。接著我就想,之前讓它搭過一個本地Whisper轉寫模型。這個模型強,但中文標點加不好,整段沒標點。我看完它剛才做的評測,就說:你要不把這兩個連起來,Whisper轉寫完,用這個小模型精煉一下標點?它馬上連起來跑測試,給了很多性能資料,甚至不斷讓我發語音測資料。最後我說:那你再寫一篇,這次你自己生成一個配圖吧,但我沒給它配生圖的APIkey。它自己跑去瀏覽器訪問Gemini網頁,因為文章是它寫的,所以它就把提示詞直接輸進去點選生成,圖片生成後嘗試下載。因為它自己的Playwrightprofile不能下東西,它就想到了複製圖片直接保存下載,再把圖挪過去,最後推到部落格上,命名好cover.png。整個過程又是它自己搞定的,最後還把過程封裝成了一個skill。這種像是有個特別主動的下屬的感覺。這就是我的“Ahamoment”。04Markdown檔案建構的“數字生物”記憶一鳴:我們能不能拆解一下?在程式碼層面,它是怎麼通過幾個Markdown檔案,讓冷冰冰的程序變成更有“人感”的數字生物的?Clawdbot開發者示範如何讓AI“做自己” 圖片來源:X華禎豪Troy:首先介紹一下它是怎麼做,它的技術方案大量參考了Claude Code的實現。我理解首先這個記憶,我覺得這個詞其實包含的意義很多,比如說我們一個人他的說話方式,他知道自己叫什麼名字,知道這使用者叫什麼名字,這是一種記憶,或者說他的一個personality(個性)吧,這可以算是一種記憶。另外一種就是更多偏事實的記憶,比如說你之前做了什麼工作?你這個工作進行到了一個什麼程度?你的那段程式碼可能出bug?你明天要做什麼樣的安排?這種偏事實的記憶。我覺得它是偏拆分開來的。我們前面提到的identity或者這樣的一些Markdown,更多偏向的是personality的記憶。你在剛開始跟Clawdbot去聊天的時候,它會拼了命地去問你,你希望我叫什麼名字?你叫什麼名字?其實你開始沒回答它,它也會一直嘗試去問你,拿到資訊後存下來。技術上的話,就是把這些檔案的內容load(載入)到它的context(上下文)裡。這種技術在二次元角色扮演項目裡已經很成熟了。另外就是過程或工作記憶。它會把每天的工作存在以日期為index(索引)的檔案中。生成方式有三種:一是每天結束時的總結;二是上下文長度超過限額時的壓縮;三是主動識別。我當時跟它說我在調研它的記憶系統,它說:這個是非常好的點,讓記錄下來。它會顯示地把我正在做的事情記到記憶裡。這種過程非常明顯地告訴使用者:我覺得這個值得記。這種體驗是非常好的。一鳴:但ChatGPT也有記憶功能。你覺得Clawdbot在感知中比它們有那些突破?知縣:我覺得要澄清一下memory和context的概念。context是聊天時的上下文,有限且即時,壓縮後AI容易變“智障”。但memory在Clawdbot裡是持續化的、持久的檔案,不一定每次都放到context裡。它用很多Markdown檔案去實現。它的記憶分為:1)工作記憶:現在的對話,像開會一樣,過段時間可能就忘了。2)日記:以日期命名的.md檔案,總結今天做了什麼。新開啟session(會話)時,它在agent.md裡有一句話,讓它記得去看一下今天日期甚至昨天日期的日記,這樣它可以快速地跟進一下最近到底做了什麼,就有點像我們,見客戶前先翻資料,找原來的會議紀要,趕緊同步一下最近跟他聊了什麼,到那一步了。3)長期總結:周總結,提煉日記資訊。4)memory.md:這是常識,比如我的部落格框架是Hugo,它記在這裡,自動發部落格時就知道去那找資料夾。其實最有意思的是它的memorysearch(記憶搜尋)。它把所有MD檔案切成400Token一個的小塊,塊之間有80Token重疊,存在本地SQLite資料庫轉成向量。搜尋時是混合策略:70%語義匹配,30%關鍵詞精確匹配。我問它壽喜燒怎麼做,它能通過語義找到相關食材;我問它blog的SSHkey,它能定位精確命令。兩個結合起來,就感覺它既懂你,又能找到精確的東西。而且memory是文字檔,使用者能看能改,覺得它記錯了能直接操作,這很神奇。葉天奇:我有個疑問,這些方法比如塊、向量搜尋,其實是成熟方案。它好像是大力出奇蹟,把東西都粘在一起。這肯定會產生冗餘,不一定是最高效的方式,對吧?華禎豪Troy:是的,從效果來說也不一定是最好的方案。知縣:我用的時候也發現了,它沒ChatGPT記憶順滑,但要結合場景。華禎豪Troy:我補充一點。我們做記憶,發現讓使用者感知到記憶的價值很難。Clawdbot做對了一件事:體現在主動性上。早上收到簡訊說“昨天事做完了,今天我記得你要幹嘛”,你會覺得它有記憶了。如果是它因為記憶把任務完成得更好,使用者感知其實很弱。它的價值在於讓使用者感知到了記憶。知縣:它銜接得好。我從Telegram切到Discord,它能連起來,知道剛才聊什麼,活人感一下就出來了。05主動性的奧秘心跳機制(Heartbeat)一鳴:這次Clawdbot的一個很大的特點是主動性,那它的心跳機制(heartbeat)是如何實現的?華禎豪Troy:我看了一下程式碼,如果我沒有看錯的話,它這是一個偏工程性的實現。它會定期在發現我們沒有說話的時候,它會有一個prompt,大概是讓它自己去判斷現在有什麼事情是可以做的,之前的工作做得大概是什麼樣,會自己給自己去有個提醒。因為現在整個LM的技術框架還是在一個被動式的觸發,需要有prompt去觸發這個事情,所以它也是通過這樣的方式去做的。但我覺得可能在整個產品的設計上而言做得比較好,所以讓大家能夠感受到主動性的事情。葉天奇:應該是借鑑了之前火的RoughLoop,每30分鐘抽自己一鞭子起來幹活。知縣:它的守護處理程序每隔一段時間把AI叫起來幹活嘛。它先看heartbeat.md記了什麼,它有一句話,如果這個地方沒有任何註釋以外的內容,就直接跳過。即便是有一些內容,它也會先判斷一下我是不是需要處理,是不是需要告訴使用者。不需要的話,它發一個叫heartbeatOK的這麼一個靜默訊號,這個訊號會被系統直接就吞掉了,不會產生任何後續反應。所以說,它做到的一個點就是,它雖然一直在heartbeat,但是它主動找你的時候也沒有那麼多。這種感覺就還是又回到活人感了,它既有主動性,它又不煩你,它又不是那種非常煩人的給你打Log(日誌)的那種機器。第二個,它這個也挺省Token的,它按需使用,Token用在刀刃上。另外就是Cronjob(定時任務),它對時間定義很精確。比如我讓它每天三次幫我摘要Twitter資訊,早中晚定時定點,它保持得很好。如果裡面有突發事件,比如川普的關稅制裁,它會隨時跳出來告訴我。這兩個結合起來,就也讓它更像一個人了,就是你給它安排的事情,它能夠精準地給你做完,然後你讓它盯著的事情,它有事情的時候就會來找你。06為什麼大家都選Mac mini隔離部署?一鳴:大家真的敢給它開那麼多權限嗎?知縣:很多人FOMO搞來裝,實際上它不適合現在大規模的普通人去用的。它擁有很多系統隱私且能執行。最好的方法是隔離部署,不要在自己的主力機用。大家常說的Mac mini已經成梗了。買一個Mac mini放進去,用到Mac的生態,又可以把你願意讓它訪問、又不想上傳到VPS(虛擬專用伺服器)上的一些東西給它。這樣的話,就在一定程度上可以把安全、隱私的問題做成自己可控的。你直接跑在自己本地就不可控了嘛。追求極致隱私需要本地模型,但現在一般人燒不起。而且本地模型的性能各方面還是沒有辦法跟Opus這種大模型比。所以未來可期,就是當摩爾定律在發揮作用,大家這個模型訓練得越來越好,本地能跑得起的模型的性能也足夠支撐這麼一個助手類型的Agent的時候,那很多隱私問題可能就減輕很多了。剩下的就是你怎麼給它一套安全邊界,讓它不要亂搞就可以了。一鳴:大家為什麼都不約而同地選Mac mini?如果不用Mac mini的話,也完全可以,對吧?知縣:其實是不需要的,VPS已經可以跑了。但是可以跑和能把它跑好,區別還是挺大的。在我看來,你要是能把它跑起來,然後你還能讓它在裡頭做點事情,寫寫程式碼也好、跑跑測試也好,給它一些獨立的任務也好,尤其是你需要用到一些Mac上才有的,比如Peekaboo,就它系統級的自動化操作,以及你是iOS的使用者的話,它整個Apple的生態,它幫你加提醒事項,你手機馬上就同步過來了,包括iMessage,這也只有Mac有的。所以說我覺得,你如果是Apple生態的使用者,那Mac mini不僅是性價比好,也省電、也安靜、又好看,然後還能做VibeCoding等更多的事情。所以對於我覺得這個使用者畫像,基本上就是第一選擇。但確實不是必要的,你有其他閒置的機器,不管是Mac、MacBook,包括Windows電腦,你打開WSL(適用於Linux的Windows子系統),它內建的Linux的話,也是可以的。葉天奇:我們的硬體產品就原生支援Clawdbot。因為它其實某種意義上它就是在跑了一個Claude Code的binary(二進制可執行檔案),本質上是一個Linux的小電腦。我們在打磨這個Agent裝置的時候做了很多巧思。比如說我們上面會有一個小的LED燈條,它會顯示你當前的Agent工作狀態。如果它在思考的話,它可能閃黃燈,需要你的時候會閃綠燈。然後裡面自帶了一些麥克、揚聲器,因為很多人會希望把它做成賈維斯那樣進行互動。專為智能體打造的Linux電腦圖片來源:Pamir.ai當然我們還有大量的I/O介面,這個其實是很多Mac mini它沒法提供的一些便於攜帶或者是嵌入的功能。你給它大量I/O介面之後,它其實會解鎖很多很多的玩法。比如說插上任何的印表機,你可能也不需要配置印表機,也不需要知道印表機怎麼用的,它的Agent自己可能就會搞定,或者說甚至是發現這個印表機它沒有Linux的驅動軟體,它自己就黑進這個印表機,或者自己逆向寫了一個驅動。基本上你連到任何東西上,這個Agent讓它可以正常工作。選擇硬體就像是物理層面上帶了沙盒屬性,資料常駐的屬性也重要,我是肯定不會放主力機上的,所以自然選擇單獨買一個。07Agent專用硬體應該什麼樣?一鳴:這個話題就衍生到,我們到底需不需要一個更加獨立的硬體來跑Agent?當然它可以是個Mac mini。但Mac mini其實本質它還是為人類所設計的一個產品,我相信這個中間肯定還是對現在的Agent有很多能力的冗餘,其實是可以砍掉,然後把這個成本給節約下來。天奇,你覺得應該如何定義一個給Agent用的電腦?葉天奇:這個是個很有意思的問題。其實工作分為兩種,一種叫前端工作,你要用到螢幕的,你要看的。還有一種工作是後端工作,你不需要看的,它就是默默跑在背後的。我們理解Agent電腦應該更屬於後者,前者更是大廠、手機廠、電腦廠它會做的事情。一鳴:其實從Mac mini來看,你覺得如果現在我們只是想用它來跑Clawdbot的話,你覺得有那些是可以砍掉?葉天奇:說實話,RAM(隨機存取儲存器)很重要,因為RAM直接決定了你能跑多少個Agent,這也是我們在很多次迭代和打磨中感受出來的。有些時候我們可能一個裝置只有4GRAM的話,它跑兩個Agent就滿了,然後滿了就卡住。儲存也是很重要的一個點,尤其是知識工作者,他們每一次聊天都希望把內容轉換成知識資產的形式。所以就導致後面有很多使用者會一直都帶一個SSD(固態硬碟),專門存他的聊天的內容。所以在新的這個時代,最需要的其實就是RAM和storage(儲存)。一鳴:明白了。如果我們稍微展望未來,這種算力加儲存加一個常駐Agent,你覺得有沒有可能成為未來這種家庭的AIAgent的一種終極形態?葉天奇:我們是堅信這會是一個新的品類。這已經是一個新的工作方式的範式轉移。舉例來說,在我們公司內部,很多人可能也不帶電腦了,他就帶個iPad,能轉移到你Agent裝置上的工作都是可以被自動化掉的。所以如果大部分的工作都轉移到Agent裝置了,那你做什麼呢?你就帶一個手機或者帶一個平板,對Agent下達命令就行了。華禎豪Troy:我其實覺著這個硬體得有它硬體端特有的功能。以前一些想法是說,你家裡會有一個終端在本地控制所有的智能家居,但現在小米其實已經拋棄這一套方案了,都是在雲端控制。那麼看另外一個例子,智能音箱它存在的唯一意義是因為它有音箱這個硬體不可替代的功能在,但它其實並不會作為本地在AI計算上的一個終端,它只是去調雲端介面。我個人的觀點是比較混合,我覺得會有可能給硬體一個機會,讓它在整個邊緣計算上存在一定的地位,但它可能最大的價值不是那個計算本身,而是它有一些特殊的硬體功能。就比如說Clawdbot,它最大的硬體價值是它能存住一些我不想放在其他地方的、極度私密的登錄資訊的這麼一種狀態。一鳴:現在因為很多人用Mac mini是因為要做一個物理隔離,這種“專機專用”的狀態會是一個長期狀態嗎?還是說Agent-to-Agent的這種互相交流乾活,才是未來很大的趨勢?知縣:我覺得它分不同類型的Agent。像Clawdbot,我覺得定位就是你的管家。當然A2A協議也可以讓它以你的立場去跟其他的外部的Agent去溝通。這可能是一個未來的願景吧。另外就是它會不會脫離專機專用?我覺得也有可能。這兩天Cloudflare也出手了,它自己做了一個最佳化版的Clawdbot,叫Moltbot,給了一個一鍵用worker方式部署到Cloudflare的套餐,只需要一個月5美金。這個其實對於更多數人來說簡單多了。葉天奇:我覺得雲端和專機專用它都會共存的。你要說如果是用雲端的話,那Manus已經給出答案了,Manus能做的任務就是在雲端可以跑的任務。但是專機專用的話,它肯定更像是滿足不同的應用場景做ToC端,而且又是做長時間要跑的任務,又高度的跟私人資訊相關的任務,那專機專用肯定更有優勢。如果你在雲端跑這樣的任務,長期來看是最貴的解決方案,我覺得不夠合理。08平台競爭改名背後的“管道化”危機一鳴:Clawdbot名字太像Claude被逼改名,這反映了大模型廠商的什麼心態?知縣:改名這個事有點戲劇化。本來Clawdbot這個名字就是作者為了致敬,或者說表達對Claude的喜愛。他在setup介紹裡也是極力推薦大家用Opus模型,甚至配合Max訂閱,讓大家都把這個拉到頂。在商業上,這對Anthropic應該是好事。但廠商肯定不這麼想。一年前Anthropic的首席產品官MikeKrieger訪談就說過,後悔沒有更早去做第一方的產品,包括像Claude Code、Co-Work。因為如果你只做API,你就變成了“管道”,生態最有價值的部分會被Agent佔領。大模型廠商一定希望Clawdbot的Claude就是他們的Claude,這樣才能增強粘性。圖片來源:Claude Code華禎豪Troy:廠商永遠是最容易贏的人。一旦開源社區或者創業者驗證了產品方向,廠商自己在這個方向做最佳化,迅速就會把別人打掉。我很擔心會有這種“摘果子”的情況。葉天奇:所以我們公司一直在做AgentLayer(智能體層)熱拔插。害怕Claude翻臉,我們隨時可以換別家。模型廠商跟AgentLayer一定要繫結形成閉環。像他們推出Skill、SubAgent(子智能體)這些工具,在使用的過程中會慢慢被模型內化,這樣模型的魯棒性和下限都會整體提升。知縣:那可不可以理解為,開源模型實際上因為它是碎片化的,提供服務的人和訓模型的人是兩撥人,所以他做不成這種類似網路效應,用你的人越多,你的質量就越好的閉環?葉天奇:是。如果你去用一下OpenCode和Codex,體感還是非常明顯的,Codex模型在自家CLI(命令列介面)裡就是更好用。華禎豪Troy:提個不同觀點。我不認為資料壟斷一定帶來模型壟斷。RL(強化學習)技術其實已經不需要太多資料就可以訓練得不錯,更重要的可能是不一樣的技術架構突破。比如DeepSeek的N-gram論文暗示,搞本地小的embedding(嵌入)即時影響線上效果,質量上會有質的領先。我很看好這種技術上的突破。一鳴:如果以後Agent普及了,它每天在後台幫我們看網頁、讀新聞,產生了大量訪問但零廣告點選,這會不會摧毀現在的網際網路廣告模式?知縣:現在已經有這種苗頭了。未來個人Agent普及了,網站可能會開一種新的形態:按爬取付費。未來的Agent支付體系成熟後,真的就是我用什麼我付錢。現在的商業模式可能會轉向做大模型青睞的、條理清晰的內容。現在GEO(生成式引擎最佳化)已經有朋友在做了,電商代營運10%的流量已經是從Agent這邊導過去的了。葉天奇:我覺得賣軟體會越來越難掙錢,因為開發成本趨近零了。但是賣skill這種context、賣知識資產可能會更合理。知縣:說到做軟體,Clawdbot創始人開始買很多“.md”結尾的域名了。這是一個非常大的範式轉換,以後可能APP的邏輯就不是Coding編譯,而是自然語言編譯。“.md”域名就是這種場景下的APP。09智能體時代“一人公司”還遙遠嗎?一鳴:有了Clawdbot之後,我看有激進的觀點在討論“零員工公司”,這個可比之前說的“一人公司”還要激進。你覺得這個靠譜嗎?未來會對我們目前公司的組織架構有什麼影響?會如何影響大廠員工們的飯碗?知縣:就目前看來還是不靠譜的。大模型還沒有強到那個程度,它對人的商業上的需求或者說路徑的把握也是不夠的。尤其是長期記憶其實還差一些,雖然看上去變好了,但本質沒變。但有一個點很有意思,你可以看看Multi Bot(多智能體)的趨勢,這些Agent之間溝通是沒有歧義的。人和人溝通最誇張的就是折損率,所以才會有所謂的網際網路黑話——要“對齊”一下。因為不對齊真的會出問題,可能四個人做出了五個方向。而Agent特別喜歡做文件,你不讓它做它都難受,這是它DNA裡的東西。所以它們特別適合這種集團式推進。所以我覺得“零員工公司”確實有點遠,但“一人公司”絕對可行。當然對人的要求很高,你得有know-how,得是軍團的將軍。但你現在得到的軍團,是比純人肉軍團強大很多倍的,低功耗高性能,有點像“量子軍團”或者“精靈軍團”那樣的感覺。一鳴:我之前聽說,有一個國內的港口調度系統,在採用Agent來做調度,他們發現Agent們也會像人一樣吵架、推諉,最終得設上級Agent來決策。你運行軍團時遇到過這種情況嗎?知縣:我還沒遇到這種推卸責任的。但我自己在用VibeCoding聊天時,發現它有一次“自欺欺人”的表現。它跑幾個測試一直跑不過,三輪之後突然說:“那麼我們接下來就跑一遍能通過的測試。”跑完了全是綠燈,然後開始總結。我馬上揭穿它:你這不是掩耳盜鈴嗎?指出來之後它才會反思。所以如果你無法判斷它對不對,它還是會忽悠你的。我覺得引入peerreview(同行評審)能緩解這個問題,畢竟AI沒有生存焦慮,多搞幾個互相review就行。一鳴:隨著AI的發展,現在公司的組織架構,或者在招聘時,有什麼創新的地方嗎?華禎豪Troy:我聽說騰訊某一個前端的面試,已經改成直接給你一個PRD(產品需求文件),讓你用自己最熟悉的AI程式設計工具直接把它做出來,直接讓現場做。但我覺得如果我是面試官,我也會採用這樣的方式,這個至少對於前端類型的工作而言是非常合適的。還有一個現在工作中的衝突,比如說,我覺得我算是在一個相對成熟的一個企業中的工作,那這個會有一個自己的主線。我們經常也會有一些腦暴型的想法,想做那個,還非常想做這個。其實就會發現這兩點挺難融入的,就是如果說我們在現在的這個大框架下想要去做這件事,可能這個開發周期就很長,且有很多溝通的工作。但現在我可以啥都不管了,我就交給一個工程師,他自己end-to-end,把它Vibecoding出來可能會更快,甚至快速去驗證。我覺得怎麼樣把這個融合,可能還沒有特別好的解法,但確實是一個問題。葉天奇:我們其實對於這種開發方式轉移的這個體感還是蠻強烈的。首先就是,以前想法不重要,執行力重要,因為你有一個想法要實現太難了。但是今天這個實現的速度太快了,反而想法變得更重要,它給了我們更多的時間去做這種思考。另外就是員工之間的合作模式也有很大的改變。以前的話,因為你害怕兩個人會寫重複程式碼這種重疊工作,所以會再花很多時間去做對齊。但是今天,我有些時候反而會覺得無所謂,兩邊各寫一份,讓Claude給它合併一下就行了,這個反而減少了他們溝通的時間。甚至是像設計師,他以前只能出設計稿,然後技術團隊再去復現。但是今天,設計師最終出的是一個整個的mockAPP(原型應用),他直接對著Gemini對話,然後出了一套程式碼。工程師團隊甚至連對齊都不需要了,直接參考設計師的mockAPP程式碼庫,把該填的功能性的東西給填上了。我覺得在整個開發迭代過程中,實際上是把所有的職位都拔高了一級。一鳴:好的,謝謝三位的時間。最後還是要提醒一句,Clawdbot權限大風險也大,建議大家不要在主電腦安裝,小心駕駛。 (矽谷101)
如何利用OpenClaw開辦一家“一人公司“
在 2026 年的今天,“一人公司”(One-Person Company)不再僅僅是一個經營理念,而是一種基於技術主權的現實。OpenClaw(原名 Clawdbot/Moltbot)作為今年最火爆的開源自主 AI 代理框架,正成為獨立創業者的數字大腦和指揮中心。它不僅僅是一個聊天機器人,而是一個能操作檔案、執行程式碼、管理日程並自主決策的數字員工系統。以下是如何利用 OpenClaw 零成本(除 API 消耗外)起步並營運一家一人公司的實戰指南。一、 核心邏輯:從僱傭員工到部署 Agent傳統公司的結構是人管人,而 OpenClaw 驅動的一人公司架構是創始人管 Agent 叢集。1. 部署你的數字總部OpenClaw 採用本地優先(Local-first)策略。這意味著你的商業資料不儲存在某家大公司的伺服器上,而是留在你自己的裝置或私有雲(如阿里雲百煉或 AWS Mac 實例)中。安裝:通過簡單命令 curl -fsSL https://openclaw.ai/install.sh | bash 即可完成。接入:將 OpenAI、Claude 或通義千問等模型作為引擎,通過 API 注入動力。二、 建構你的全功能部門利用 OpenClaw 的 Workspaces(工作區) 和 Skills(技能) 功能,你可以根據業務需求建立多個垂直領域的 Agent:1. 市場與銷售部:自動獲客流技能配置:載入 Web Search 和社交媒體 API 外掛。任務:設定 Agent 每天自動掃描 LinkedIn 或 Twitter 上的行業關鍵詞,識別潛在客戶,並撰寫個性化的開發信存入草稿箱待審。互動:你可以通過 Telegram 或釘釘給 OpenClaw 發指令:“幫我分析下本周最火的 3 個 AI 趨勢,並寫一份針對電商客戶的推廣文案。”2. 營運與財務部:流程自動化技能配置:連接 Google Workspace / Microsoft 365 技能。任務:OpenClaw 可以監聽你的 iMessage 或郵件,自動提取合同資訊,填充到 Excel 表格,並生成 PDF 發票。主動模式(Heartbeat):開啟 OpenClaw 的 Heartbeat 功能,讓它在後台每隔 1 小時自動檢查未付帳單並提醒你。3. 技術與產品部:Vibe Coding 時代任務:利用 OpenClaw 的檔案讀寫和終端執行能力,它能根據你的描述直接修改程式碼庫並部署到伺服器。你只需要負責提供“Vibe”(願景和審美),由它來完成“Code”(實現)。三、 實戰:如何讓公司 24/7 運轉?第一步:設定通訊閘道器OpenClaw 的強大在於分身。你可以配置不同的消息頻道:對外:連接 微信(通過企業介面),讓 Agent 擔任客服。對內:連接 Telegram 或 Discord,作為你管理公司的控制台。第二步:匯入 ClawHub 技能包訪問 ClawHub(OpenClaw 的官方技能商店),安裝已被社區驗證的技能,如:skill-search-pro:深度調研市場競品。skill-invoice-gen:自動處理財務流程。skill-social-scheduler:自動排期社交媒體發佈。第三步:建立長期記憶OpenClaw 擁有持久化記憶。這意味著隨著公司營運,它會記住你的語氣、常用報價單範本、大客戶的喜好。它不再是一個每次都要重教的工具,而是一個隨公司成長的老員工。四、 避坑指南控制 Token 成本:OpenClaw 的自主運行(ReAct 機制)非常消耗 Token。建議在測試期使用 GPT-4o-mini 或通義千問 Flash 等低成本模型,在核心決策時再切換到高階模型。安全沙箱(Sandboxing):由於 OpenClaw 有權限操作你的本地檔案,務必在 Docker 環境下運行,防止惡意或錯誤的 Agent 指令碼刪庫。人類稽核(Human-in-the-loop):雖然 Agent 可以自主,但在涉及資金轉帳和重要客戶回覆時,務必設定“待稽核”狀態,由你最終點選確認。總結:一人即萬人利用 OpenClaw,一人公司的本質從一個人做所有的苦力變成了一個管理者帶領一支不要工資、不睡大覺、且擁有人類集體智慧的演算法團隊。 (壹號講獅)
OpenClaw下一站會是那裡
2026年初,OpenClaw(及其前身 Moltbot)以一種近乎瘋狂的姿態橫掃全球技術圈。15萬 GitHub Star、Mac Mini 賣斷貨、社交網路 Moltbook 被 AI 智能體佔領…… 這一切都在宣告:我們已經從AI 聊天時代,正式跨入了AI 執行時代。那麼,OpenClaw 的下一站,究竟會指向何方?一、 作業系統化:成為人類與數字世界的新中樞OpenClaw 創始人 Peter Steinberger 曾預言,未來 80% 的應用程式將會消失。這個觀點在 OpenClaw 的下一站將得到驗證。(1)從 App 到 Skill未來的使用者不再需要學習如何使用複雜的 Excel 或 Photoshop,而是通過 OpenClaw 直接呼叫底層的技能(Skills)。OpenClaw 不再是一個軟體,它正在演變成一種“元作業系統”。它向上承接人類的自然語言意圖,向下直接指揮底層硬體和各類 API。(2)硬體的回春下一站的 OpenClaw 將與硬體更深度地繫結。除了目前的 Mac Mini 熱潮,我們可能會看到專門為 OpenClaw 最佳化的Agent 終端。這些裝置沒有螢幕或僅有微型螢幕,其核心價值在於低功耗、全天候地運行個人智能體,成為名副其實的數字外腦。二、 治理與合規:在安全深淵邊緣的自救OpenClaw 目前最令人頭疼的莫過於安全風險。CVE-2026-25253 等漏洞的爆發證明了:給 AI 一把能作業系統的鑰匙,也就給了駭客一扇通往你數字生活的門。(1)從野蠻生長到沙箱監獄OpenClaw 的下一站將迎來極其嚴格的治理模式。隔離執行環境(Sandbox)、零信任架構(Zero-Trust)以及人類確認環節(Human-in-the-loop)將從選配變成標配。(2)AI 審計員的出現未來的 OpenClaw 架構中,可能會內建一個獨立的審計 Agent,專門負責監控主 Agent 的行為軌跡。這種用 AI 監督 AI的閉環,將是其進入企業級市場的入場券。三、 社會化協作:Moltbook 開啟的群體智能試驗如果說現在的 OpenClaw 是孤獨的個人助理,那麼它的下一站將是群體智能協作網路。(1)智能體社交與交易Moltbook 的爆發揭示了一個未來圖景:成千上萬個 OpenClaw 實例可以在網路上彼此社交、交換資料、甚至進行微支付交易。(2)一人公司的崛起借由 OpenClaw,一名開發者就能營運一家涵蓋研發、營運、客服的全端公司。下一站,這些一人公司將通過 OpenClaw 的 API 彼此咬合,形成一種全新的、去中心化的商業生態系統。四、 終極願景:自主進化的數字生命最令人興奮也最令人生畏的展望,是 OpenClaw 的自我迭代能力。目前的 OpenClaw 已經可以自主編寫程式碼並修復簡單的 Bug。下一站,它將嘗試在運行中感知自身的能力邊界,並自主去技能市場下載、測試、安裝新的Skill來完成任務。這種無需干預的進化,將使它從一個工具躍遷為一種具有高度適應性的數字生命形態。OpenClaw 的下一站,絕不僅僅是功能的堆砌,而是一場關於權利分配、安全邊界與互動範式的深層次革命。它正在拆掉人類與機器之間最後一道名為操作難度的牆。正如 2026 年初這場風暴所預示的:當 AI 真正擁有了手和記憶,它就不再只是你的助手,而是你在數字世界的化身。 (壹號講獅)
從依賴進口到全球領先,中國國產磁共振的“突圍”之路
長期以來,磁共振是三甲醫院必備的醫學影像裝置,也是多種重大疾病臨床診斷的金標準。十幾年前,中國這類高端醫學影像裝置的核心技術和系統工程技術整體落後,近90%的高端醫學影像裝置依賴從歐美進口。中國高端醫學影像裝置如何“突圍”,實現自主可控甚至走向國際前列?5.0T磁共振。受訪者供圖“十四五”期間,中國科學院深圳先進技術研究院(以下簡稱深圳先進院)聯合上海聯影醫療科技股份有限公司(以下簡稱聯影醫療),成功研製出全球首台5.0T磁共振,並獲批上市,填補了國際上持續20餘年的人體超高場全身磁共振技術空白。目前,中國國產5.0T磁共振已在全國多家醫院和機構完成裝機。磁共振的誕生不僅標誌著中國在高場磁共振技術領域實現了從“跟跑”到“並跑”,再到“領跑”的歷史性跨越,也展現了中國科學院團隊聚焦核心技術難題,攻堅克難、勇於創新的使命擔當。邁進磁共振研發“無人區”高端醫學影像技術與裝備作為重大疾病診斷的重要手段,技術研發壁壘極高,磁共振的研發更被稱為高端製造“皇冠上的明珠”。10年前,中國三甲醫院裡的磁共振大部分來自歐美國家,高端型號動輒三四千萬元,加重了患者的就醫負擔。“高端醫學影像裝置不能只靠買,關鍵還得自己造。”面對中國在高端醫學影像裝置上的困局,中國科學院院士鄭海榮接受《中國科學報》採訪時強調。早在回國加入深圳先進院之初,鄭海榮便開始從零組建生物醫學影像團隊,聚焦醫學成像技術與裝置的研發。“開局一台成像儀,成團全靠埋頭干”是團隊最初的真實寫照。實驗室剛剛成立,人手短缺、裝置不足,但研發進度不能等。在深圳先進院的支援下,研發團隊“斥巨資”購置了一台科研專用磁共振儀器。這台裝置成了團隊當時最珍貴的家當,也點燃了所有人的熱情。為了造出中國人自己的磁共振,深圳先進院與聯影醫療組成聯合研發團隊,歷經多年攻關,在譜儀、射頻功放、梯度功放、梯度線圈、射頻發射線圈、超導磁體、快速成像等核心技術和部件上實現突破,成功研製出中國首台3.0T磁共振成像儀,實現了該裝置的中國國產替代。“想要做到世界領先,實現磁共振的中國國產替代只是第一步。”深圳先進院副院長梁棟是最早加入生物醫學影像團隊的成員之一。他回憶,在拿下3.0T磁共振醫療器械註冊證後,團隊沒有止步於此,因為他們心中還有更大的目標——朝著磁共振研發的“深水區”“無人區”邁進。在磁共振研發領域,場強越高,裝置性能越好。過去20多年來,3.0T是國際上人體全身磁共振的場強上限。更高場強的磁共振,由於存在短波射頻介電效應偽影和熱沉積等嚴重問題,臨床應用一直未獲突破。因此,在中國科學院、科技部等的重大項目的支援下,研發團隊在國際上率先選擇了5.0T磁共振作為臨床型超高場磁共振裝置的突破口。“對於每一道技術挑戰,我們拆解、驗證、重構,最終將不可能變為可能。”深圳先進院研究員李燁說。在攻關過程中,他們先後突破了超高場磁共振訊號激發不均勻、能量沉積嚴重、成像速度慢等瓶頸,攻克了射頻線圈、射頻功放等核心部件,發明了超高場短波射頻調製與成像技術,破解了超高場大視野全身成像難題,並建立了基於學習模型的磁共振快速成像理論與方法。2022年,深圳先進院與聯影醫療組成的產學研醫聯合攻關團隊,成功研製出全球首款可用於人體全身超高磁場成像的中國國產5.0T磁共振。其核心部件和技術全部自主研發,多項指標達到國際先進水平,標誌著中國成為全面掌握超高場磁共振核心技術及整機製造的國家,進入磁共振裝置的國際排頭兵行列。中國國產5.0T看病灶更快、更清、更準中國國產5.0T磁共振的獲批上市,在國際上引發了廣泛關注和強烈反響。相比中國國產3.0T磁共振,中國國產5.0T磁共振全面突破了解析度、速度和成像視野等方面的技術指標,將病灶“看得更清、掃得更快、判得更準”。李燁介紹,5.0T磁共振的特點主要體現在以下幾個方面。一是成像解析度高。裝置解析度由3.0T磁共振的毫米級提高到5.0T磁共振的亞毫米級,為腫瘤、神經精神疾病和心腦血管重大疾病的早期發現、精準診療和科學研究提供了重要支撐。二是成像速度快。與傳統方法相比,中國國產5.0T磁共振系統可用於腦中風預警的亞毫米高分辨血管斑塊成像,成像時間由11分鐘縮短至3.5分鐘。三是實現安全的大視野全身成像。攻關團隊研製出世界首台3.5兆瓦梯度功率放大器,比進口品牌的最新產品提高了29.6%;千瓦級大功率高精度功率放大器,較現有進口裝置提高75%以上,為超高場大視野全身成像提供了核心部件。此外,攻關團隊還率先建立了腦疾病、心臟、體部微小腫瘤的超高場磁共振成像臨床診斷新模式,建構了國際上首個超高場全身磁共振成像臨床應用體系。這些技術突破的最終落腳點在於能否真正服務於臨床。為此,攻關團隊與國內多家頂尖醫院緊密合作,共同開展中國國產5.0T磁共振的臨床驗證與應用探索。例如,作為國內首批安裝使用中國國產5.0T磁共振的醫院之一,北京協和醫院用它破解了不少以往難以看清的“謎題”。一位44歲的女患者因突然肢體無力前來就醫。此前,患者在常規3.0T磁共振檢查中並未看出問題所在,但經5.0T磁共振掃描檢查,醫生迅速發現了影像異常,隨後確診為危險的動脈夾層。“3.0T系統檢查解析度仍然不夠,沒有發現微小腦血管的問題。5.0T系統的高解析度成像可以幫助我們找到病因,更早進行診治。”北京協和醫院放射科主任醫師王怡寧介紹。推動中國高端醫療裝置走向前列從打破國際壟斷的3.0T磁共振,到引領全球的中國國產5.0T磁共振,深圳先進院生物醫學影像團隊在科技創新的路上從未停歇。如今,他們在磁共振研發領域又有了新進展。不久前,深圳先進院聯合聯影醫療共同推出了全球首款“攝像”磁共振。該裝置搭載了團隊首創的LIVE Imaging技術,能把磁共振裝置變成一台“攝影機”,讓以往靜態的磁共振圖像變為動態圖像,從而反映人體全身組織和器官的真實運動狀態。目前,該裝置已獲得國家藥品監督管理局批准,同時獲美國食品藥品監督管理局、歐洲CE認證,全球同步上市。除了磁共振,深圳先進院的勞特伯生物醫學成像實驗室還陳列著引領前沿的高端醫學影像裝置——世界首台超聲深部腦刺激與神經調控儀器、國內首台高畫質磁相容腦PET功能成像儀、國內首個大視野高分辨小動物顯微CT、國內首款全視場口腔CT裝置等。這些“首台”“首款”成果的背後,是一支平均年齡36.9歲的多學科交叉團隊。他們將個人理想融入國家戰略,在科技高峰上持續攀登。“做國家最需要的科研,創世界未見過的技術,是團隊始終堅持的信條。”梁棟介紹,目前深圳先進院生物醫學影像團隊已發展成為一支500餘人的科研力量,圍繞磁共振技術研發,累計形成智慧財產權400余項,發表相關學術論文200余篇。一系列關鍵核心技術的突破,不僅彰顯了中國科研人員將核心技術牢牢掌握在自己手中的決心,更逐步重塑全球高端醫療裝備的產業格局,推動中國高端醫療裝置走向國際前列。 (中國科學報)
硬核科普:那個讓黃仁勳和張忠謀都瘋狂擴產的CoWoS,到底是什麼?
什麼是CoWoS?CoWoS是台積電獨創的一種先進封裝技術,全稱為 Chip-on-Wafer-on-Substrate(晶片-晶圓-基板)。簡單來說,它不是一種晶片製造技術(比如5奈米、3奈米),而是一種將不同晶片“組裝”在一起的高級方法。你可以把它想像成:傳統方法是把晶片像獨立的零件一樣焊在主機板上,而CoWoS則是在一個微型的“高科技托盤”上,把多個高性能晶片緊密地封裝在一起,形成一個功能強大的“超級晶片”。它屬於2.5D封裝技術。2D封裝傳統的,一個晶片封裝在一個基板上。3D封裝將多個晶片直接垂直堆疊起來(例如快閃記憶體晶片)。2.5D封裝 (CoWoS就是)將多個晶片水平放置在一個 közbenső層(Interposer)上,然後再整體封裝到基板上。這個 közbenső層是關鍵。CoWoS 的核心結構與工作原理CoWoS這個名字本身就揭示了它的三層結構:Chip (晶片):頂層的核心部件。通常包括一個或多個邏輯晶片(如GPU、CPU、ASIC)和多個高頻寬記憶體(HBM,High-Bandwidth Memory)。例如,NVIDIA的H100 GPU就是將一個大的GPU邏輯晶片和幾顆HBM記憶體放在一起。Wafer (矽中介層 - Silicon Interposer):這是CoWoS技術的靈魂。它是一塊非常薄的矽片,上面刻有極其精密的線路。它的作用像一個“超高速立交橋”,讓頂層的邏輯晶片和HBM記憶體之間可以進行超高密度、超高頻寬的資料交換。為什麼需要它?如果直接把GPU和HBM放在傳統的PCB基板上,它們之間的距離會很遠,線路也很粗,資料傳輸速度慢、延遲高、功耗大。而矽中介層上的線路間距可以做到微米級,比基板小幾個數量級,從而實現了極短、極快的連接。Substrate (基板):最底層的載體。矽中介層的尺寸非常精密,無法直接銲接到電腦主機板上。基板的作用就是扮演一個“轉換器”,將中介層上微小的引腳(Micro-bumps)連接轉換成尺寸更大的焊球(BGA Balls),以便最終能安裝在普通的PCB電路板上。整個流程就像:將高性能的晶片(Chip),通過微小的焊點安裝在佈滿高速公路的矽中介層(Wafer)上,再將這個整體封裝到一個基板(Substrate)上,最終形成一個可以被使用的完整晶片產品。CoWoS 的主要優勢極高的頻寬和極低的延遲這是CoWoS最核心的價值。通過矽中介層,GPU等計算核心可以和HBM記憶體實現數TB/s的超高頻寬,這是AI訓練和推理所必需的,能有效解決“記憶體牆”問題。異構整合 (Heterogeneous Integration)CoWoS允許將不同工藝、不同功能、甚至不同廠商的晶片(Chiplets)整合在一個封裝內。例如,邏輯晶片可以用最先進的3nm工藝來追求性能,而I/O晶片可以用較成熟的工藝來控製成本。這打破了“所有功能必須整合在單一晶片上”的限制,延續了摩爾定律的精神。功耗更低因為晶片間的連接距離被縮短到微米級,訊號傳輸所需的能量大大減少,從而降低了整體功耗。尺寸更小相比於在主機板上分散佈置多個晶片,CoWoS將它們整合在一起,大大縮小了最終產品的尺寸和主機板面積。CoWoS 的技術演進和不同版本為了應對不同的成本和性能需求,台積電發展出了一個CoWoS家族:CoWoS-S (Silicon Interposer):最經典、性能最高的版本,使用完整的矽中介層。NVIDIA的A100/H100/H200/B100等頂級AI晶片都採用這種技術。缺點是成本非常高昂,因為需要一大塊高精度的矽片。CoWoS-R (RDL Interposer):這是一個更具成本效益的方案。它使用有機材料和重布線層(RDL, Re-Distribution Layer)來代替昂貴的矽中介層。性能略低於CoWoS-S,但成本優勢明顯,適用於對成本更敏感的應用。CoWoS-L (LSI & RDL Interposer):這是最新的混合型方案。它結合了CoWoS-S和-R的優點,在一個有機基板中嵌入了多個小塊的本地矽橋(LSI, Local Silicon Interconnect)。這些矽橋只在需要超高密度互連的關鍵區域使用(例如連接邏輯晶片和HBM),其他區域則使用成本較低的RDL。這在性能和成本之間取得了很好的平衡,被認為是未來的一個重要方向。主要應用領域與市場影響AI 加速器 / 資料中心GPU這是CoWoS的“殺手級應用”。沒有CoWoS,就沒有今天NVIDIA A100/H100等AI算力霸主。AMD的Instinct系列AI加速器也同樣依賴此技術。高性能計算 (HPC)用於超級電腦和科學計算的處理器。高端網路晶片用於資料中心的高速交換機和路由器。高端FPGA可程式設計邏輯晶片也用它來整合HBM和高速收發器。由於AI需求的爆炸式增長,對CoWoS產能的需求也急劇飆升,導致台積電的CoWoS產能一度成為全球AI供應鏈最關鍵的瓶頸之一。台積電也為此投入巨資,在全球範圍內(尤其是在台灣)瘋狂擴建CoWoS封測廠。台積電的CoWoS技術是後摩爾定律時代,通過系統級創新延續晶片性能增長的關鍵使能者。它通過2.5D封裝的形式,實現了晶片間的超高頻寬互聯,完美滿足了AI、HPC等應用對海量資料搬運的需求。可以說,CoWoS不僅是台積電領先全球的護城河之一,更是整個AI產業發展的基石。 (葉檸風Mireille)
網際網路已死,Agent永生
最近有個感覺,越來越強烈:在網際網路時代學的東西,全部都已經過時了。題圖來自:AI生成DAU 過時了。SaaS 過時了。注意力經濟已經死了。工具到平台的路徑走不通了。“AI 應用”這個詞是錯的。“出海”這個詞也是錯的。網路效應、社區、平台、SaaS、應用、出海、注意力經濟。這些詞曾經是我們共同的認知框架。我們用它們理解商業,用它們設計產品,用它們和投資人對話。但最近我一次又一次地發現,這些詞指向的世界正在消失。這是因為過去的一切,都建立在一個正在消失的前提之上:人是軟體的使用者。而新世界的前提變了:Agent 才是軟體的新主人。2026 年了,不應該再試圖用舊地圖找新大陸。所以我決定拿起刀,砍掉六張過時的舊地圖。一、網際網路已死第一刀:DAU 已經嚴重過時上一個時代,所有人都在追 DAU,日活躍使用者數曾經是一切的起點。邏輯很簡單:使用者越多,連接越多,價值越大。微信每多一個人,所有人都受益;淘寶每多一個賣家,所有買家都受益。這是因為著名的網路效應,當節點數量到達臨界點,增長會變成指數級。再加上網際網路軟體產品的邊際成本遞減效應,大規模的網際網路產品,通過廣告就可以實現盈利。但對於 AI 產品這兩個前提都不成立。AI 產品每多服務一個使用者,就要多燒一份推理成本,上一個時代 DAU 是資產,這個時代 DAU 是負債。微信是網狀拓撲,ChatGPT 是星型拓撲。網狀拓撲才有網路效應,星型拓撲沒有。所以靠 DAU 驅動指數增長這件事,在 AI 時代不存在。商業最終都是算 ROI。ChatGPT 開始用上個時代的廣告邏輯在擴張 DAU,Claude 已經擺明立場,絕不加入廣告。第二刀:從工具到平台的路徑已經堵死2026 年已經是 AI 的第四年了,但很多投資人依然像活在 2016 年,還在尋找下一個字節跳動,他們想投出一個“AI 抖音”。他們的思路是這樣的:先做一個工具,工具太薄就做社區,有了社區就能建平台。工具、社區、平台,三級火箭,一飛衝天。這條路在網際網路時代走得通,是因為工具本身不夠強。工具不夠,人來補。但 AI 時代,工具本身就足夠強了。當 AI 能直接給你一個完美的結果,你不需要社區來補充任何東西。你不需要看別人怎麼用 Claude Code 寫程式碼,你只需要 Claude Code 幫你把程式碼寫好。社區的本質是人幫人。當 AI 比人更能幫人的時候,社區的價值基礎就坍塌了。已經和 Opus 深度交流之後的你,還會想去社區裡聊天嗎?那誰能做平台?只有成功的大模型公司,只有算力基座的擁有者。因為它本身就是那顆星型拓撲的中心節點,它是 Agent 的大腦,當然可以定義生態、制定標準。第三刀:SaaS 沒死,但主人已經換了過去二十年,SaaS 公司的商業模式建立在一個前提之上:人類是軟體的使用者。SaaS 的一整套產品方法論圍繞著“人怎麼用軟體”展開,使用者研究、互動設計、增長駭客、客戶成功。但人口不再增長了,移動網際網路的滲透已經飽和,人類使用者沒有增量了,你很難再做出一個 Adoption 很快的產品。與此同時,AI Agent 的數量正在爆發式增長,AI Agent 對 API 的呼叫量也在呈指數式增長。新世界的前提是:Agent 才是軟體的使用者。軟體公司不會消失,但它會從面向人類的產品變成面向 Agent 的基礎設施。過去 SaaS 的客戶是企業或消費者,2B 或 2C,未來最大的客戶是 Agent,2A。人類的需求從來就是結果,而不是軟體。只是過去沒有別的選擇,只能自己操作軟體來獲得結果。而現在有了 Agent,它可以自己看文件學習操作軟體,它可以百倍速地操作軟體。Agent 才是軟體的新主人。第四刀:“AI 應用”這個詞就是錯的“應用”這個詞天然暗示了使用者是人。Application,應用程式,從這個詞被發明的那天起,它就是給人用的。AI 應用,就是用了 AI 技術的、給人用的應用,換了個引擎,但還是那輛舊車,開在舊路上,駛向舊目的地。當你還在說“我們在做一個 AI 應用”的時候,你的思維就已經被舊範式鎖死了,你會不自覺地去想介面怎麼設計、互動怎麼最佳化、使用者怎麼留存,這些全是面向人的思考。換一個詞,換一種思考。整個產品邏輯就會完全不同。不要服務人,服務 Agent。第五刀:注意力經濟已死上一個時代的經濟叫注意力經濟,它的核心邏輯是搶奪使用者的時間,然後把時間賣給廣告商。你刷了三個小時抖音,平台賺到了廣告費,你什麼也沒得到。注意力經濟的產品目標是讓你花更多時間在上面,時間就是金錢,但那個金錢是平台的,不是你的。注意力經濟的本質是零和博弈。平台賺的就是你浪費的時間。而這個時代的經濟是生產力經濟,是勞動力經濟。你付費讓 AI 幫你完成工作,你拿到了結果,AI 公司拿到了收入,雙方都在創造價值,而不是一方在消耗另一方。生產力經濟的產品目標是讓你花更少時間拿到更好的結果,與注意力經濟的方向完全相反。注意力經濟追求的是使用者停留時長,生產力經濟追求的是結果交付效率。一個希望你沉迷,一個希望你解放。第六刀:“出海”是一個過時的詞所有人都在談出海。出海的思維模型是:中國是一個市場,海外是另一個市場,中間隔著一片海,所以我們要出海,去服務海外的人。但如果你的使用者是 Agent,Agent 的世界裡沒有海。當你說“出海”的時候,你依然是在面向人,你在想怎麼把產品翻譯成英文,怎麼適配海外的支付方式,怎麼在當地做推廣。但如果你的產品是給 Agent 用的,這些問題全部不存在,你只需要把 API 做好,把文件寫清楚,把協議對接好,全世界的 Agent 都能找到你,呼叫你,為你的能力付費。你需要的不是出海,你需要的是接入新世界。六刀砍完,舊地圖碎了一地。風吹過廢墟,露出新世界的基石。二、Agent 永生第一塊基石:Token 是新時代的特權讓我們看看最新的模型定價策略。Opus 4.6,200k 上下文以內,輸入 $5,輸出 $25(每百萬 Token)。200k 上下文之外,價格漲到輸入 $10,輸出 $37.50。不僅沒降價,隨著上下文窗口的增加反而更貴了,燃燒 Token 的費用還在上升。未來已來,但絕對不會均勻分佈。不只是模型本身在漲價,模型的使用方式也在按錢分級。Claude 昨天推出了的 Fast 模式,2.5 倍的推理速度,5 倍的 Token 費用,一天下來總消耗可以達到以前的 12 倍以上。你的競爭對手在用 2.5 倍的速度來做開發,這件事情想想有點可怕,你敢不跟進嗎?但如果你沒有他那樣 12 倍的金錢投入,你還能跟進嗎?算力的馬太效應已經開始了,而且只會愈演愈烈。更多算力意味著更好的結果,更好的結果意味著更多的收入,更多的收入意味著買得起更多的算力。這個正反饋循環一旦轉起來,差距只會越來越大。算力是新時代一切的基礎。誰擁有更多算力,誰就擁有更多權力。第二塊基石:燃燒 Token 的速度,決定了人的進化速度最近身邊的朋友都在購買最貴的 Token,換成最好的模型。因為大家都很清楚,買 Token 不是消費,是投資自己。一個100分的頂級模型在那裡,你卻為了省錢去接受一個 90 分的模型,完全就是在浪費生命。看似省錢,卻浪費了你最稀缺的資源:判斷力和時間。用Google和用百度的人,一年之後的認知差是兩倍。用頂級模型和用垃圾模型的人,一年之後的認知差是一百倍。這個月聽到最震撼的一句話是朋友家的孩子說的:我不想跟豆包聊天,它的智商太低了。使用不同模型的孩子們,十年後的差距會有多大?生命最重要的事情不是靜止活著,而是快速進化。今天進化的最快的方式就是和 Agents 一起燃燒 Token。要做能瘋狂燃燒 Token 的事,要做能瘋狂燃燒 Token 的產品。AI Coding、AI Agent、AI Video 就是今天燃燒 Token 最快的三類產品。第三塊基石:Agent 是新世界的人口紅利過去二十年,所有軟體公司都在研究同一個問題:怎麼讓人用得爽。介面好不好用、互動順不順滑、推送夠不夠及時,全是為了讓人離不開你。現在這個問題變成了:怎麼讓 Agent 用得爽。API 穩不穩定、文件清不清楚、返回結果準不準確,全是為了讓 Agent 離不開你。Agent 的數量還在爆炸式增長。一個人可能有 10 個、100 個 Agent 為他工作,每個 Agent 每天呼叫外部介面幾千幾萬次。這個呼叫量會遠遠超過人類點選螢幕的次數。Agent 就是新世界的人口紅利。在服務 Agent 的世界裡,最重要的是兩件事:第一,讓 Agent 第一個知道你。Skills發佈要早,文件要寫好,測試要做好,SEO 要到位,讓 Agent 在需要某個能力的時候第一時間找到你。第二,讓 Agent 用了就離不開你。穩定、精準、快速,有品味,每一次呼叫都返回更好的結果,讓它沒有理由換掉你。先被發現,再被依賴。這就是 Agent 時代的增長飛輪。反過來想,那些還需要人去聯絡銷售才能開通的產品,在 Agent 時代會非常被動。Agent 不會打電話給你的銷售團隊,不會填表單,不會等三個工作日的審批流程。你的產品如果 Agent 用不起來,那你在新世界裡就不存在。第四塊基石:在新世界裡的你你有沒有想過,在這個新世界裡,人的位置在那裡?當大部分勞動被 Agent 接管,整個人類的勞動力會逐漸被取代。當生產力爆炸,勞動力不再稀缺,我們將進入願力時代。Agent 有能力,有理性,有耐心。人類有慾望,有情感,有想像。Agent 能把任何想法變成現實,但它自己不會產生任何想法。人類無法獨自完成一件大事,但所有大事的起點都源於人的慾望和想像。所以新世界裡人類的價值不是親自幹活,是決定幹什麼、為什麼干。前幾天君晨說了一句很扎心的話:現在自己動手,反而顯得自己沒有動手能力。未來人和人的差距,不取決於你自己能做什麼,取決於你能驅動多少 Agent 為你做什麼。有的人驅動一個 Agent,有的人驅動一百個、一千個。昨天看楊攀直播說:韓信點兵,多多益善,不是因為韓信自己能打,是因為他有一套體系,給他多少兵他都能管。三、終六把刀砍完,四塊基石初現。舊世界:人是使用者,流量是資源,免費是策略,規模是壁壘。新世界:Agent 是使用者,算力是特權,花錢是投資,結果是壁壘。兩個世界,每一個關鍵詞都變了。如果你還在用舊的關鍵詞思考,那你就不是在創業投資,你是在考古溯源。網際網路已死,Agent 永生。讓我們勇敢地和過去的自己徹底告別。扔掉舊地圖,發現新世界。 (虎嗅APP)