#豆包大模型
整整21個月,豆包大模型正式進入2.0時代!
在Seedance 2.0和Seedream 5.0 Lite,一波接一波爆火之後,豆包把完全體拿出來了——豆包大模型2.0。這是時隔21個月以來的最大版本的更新。像Seedance 2.0已經成為全民玩轉的AI,我們也試著做了一個視訊:短短5秒鐘,效果確實是足夠逼真。也難怪老外也開始研究怎麼註冊中國手機號來體驗了……再如Seedream 5.0 Lite,首次支援聯網檢索,生成的圖片也達到了商業化的水平:而就在今天,在視覺模型火爆之後,豆包終於把那個最核心的大腦拿出來了——豆包大模型2.0。整體來看,這次豆包大模型2.0在多模態理解、企業級Agent、推理和程式碼能力上都有了不少的提升:更強多模態理解:在多模態感知、高精度文字提取、圖表理解、空間理解、運動理解、視覺知識和推理、長視訊理解等方面表現出色。企業級Agent能力:模型能更好支援對技能(Skills)的理解和應用,Function Call 、多輪指令遵循、搜尋和工具呼叫能力顯著增強,格式輸出更穩定,支援靈活的上下文管理,更好地支援企業級複雜、長程任務,在資料分析和客服Agent等企業場景中表現出色。數學和程式碼推理能力:模型具備更強推理能力,支援思考長度可調節,且各思考長度下,Tokens效率都有大幅提升。在ICPC、IMO、CMO測試中均獲得金牌成績。更直觀的提升,體現在榜單測評中。例如在MathVista、MathVision、MathKangaroo、MathCanvas等數學推理基準上達到業界最優水平。同時,在 LogicVista、VisuLogic等視覺解謎與邏輯推理基準上,Seed2.0 Pro得分較Seed1.8顯著提升。並且在VLMsAreBiased、VLMsAreBlind、BabyVision等基準中,豆包大模型2.0取得了業界最高分!那麼接下來,還是老規矩,一波實測,走起~零幀手搓《我的世界》首先,我們就要測試最近各家都在主推的程式碼能力。在字節旗下的AI程式設計軟體TRAE中,我們目前就能體驗豆包大模型2.0的能力:我們就先以3D模仿求解器的案例,來小試牛刀一下:你幫我寫一個能解決魔方的群論演算法,然後用前端頁面演示下吧,要求美觀,本地當前資料夾下的所有檔案都可以直接編輯刪除和覆蓋。不難看出,豆包大模型2.0很好的理解了基於群論的智能演算法,並且在視覺和互動上也是比較驚豔。面對複雜的物理模擬,也是不在話下:接下來,我們來一個更加複雜且長任務的測試——3D版大富翁遊戲。請欣賞效果:可以看到,豆包大模型2.0依舊是穩穩拿捏。難度再上一層樓,這次我們直接做一個《我的世界》:同樣也是稍等幾分鐘,高仿版《我的世界》就誕生了:並且豆包官方也展示了通過豆包大模型2.0和TRAE生成的“AI春節廟會”:當然,像模擬可互動的蘋果電腦系統這種任務,也是非常輕鬆實現:除了程式設計之外,像複雜的圖解問題,豆包大模型2.0也是可以輕鬆拿捏。例如我們直接丟給它這樣一張圖:豆包大模型2.0在接收到問題之後,立即給出了正確答案:類似的,複雜的數學問題也是不在話下。由此可見,豆包大模型2.0在推理、程式設計和數學問題上,都有明顯的性能提升。為什麼現在才是2.0的節點?實測下來,最直觀的感受是:豆包大模型2.0變穩了。它不再滿足於陪你聊天,而是試圖幫你寫完一個項目、算出一個難題、畫出一張商用級海報。這也引出了一個問題:為什麼現在才是2.0的節點?過去一年,大模型行業陷入了卷參數和卷價格的混戰。但字節跳動似乎一直在憋大招。這個時間點發佈2.0,或許是因為在資料質量、訓練效率,以及應用效果都突破了一個新的臨界點。特別是在Agent場景下。真正的企業級應用,不是靠聊天解決的,而是靠行動。豆包 2.0 展現出的工具呼叫能力和長程任務規劃能力,顯然是衝著ToB和生產力工具去的。性價比是否更具優勢?答案是肯定的。在測試中我們發現,雖然能力變強了,但推理速度並沒有明顯的延遲。據技術報告顯示,Seed-2.0系列(包括 Pro、Lite、Mini)在同等性能下,通過架構最佳化,大幅提升了Tokens效率。這意味著,企業用它來做客服、做資料分析、寫程式碼,成本會更低。現在,豆包大模型2.0已經全面上線,感興趣的小夥伴可以去試試嘍~ (量子位)
字節大模型關鍵人物被曝離職!
字節跳動已至少流失7名AI大佬。字節跳動被曝又損失一員大將!智東西8月25日消息,今日下午,據微信公眾號大廠日爆消息,字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時已經於近期離職,並且推算他為字節跳動職級4-1、4-2大佬。今年6月,就有媒體爆料馮佳時將離職,但當時被字節闢謠為不實資訊。▲字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時2024年,字節跳動啟動Top Seed人才計畫,為豆包大模型團隊招人,在招聘海報中公佈的頂尖導師團隊共有8人,馮佳時就是其中之一。▲Top Seed人才計畫的頂尖導師團隊馮佳時2007年本科畢業於中國科學技術大學,碩士畢業於中國科學院自動化研究所,2014年獲得新加坡國立大學博士學位,2014-2015年在加州大學伯克利分校從事博士後研究,2016年-2021年在新加坡國立大學擔任助理教授,他曾在新加坡國立大學師從AI領域全球頂尖學者顏水成,2009年顏水成回國後,馮佳時接任其在機器學習與視覺實驗室的主持工作。2021年馮佳時回國加入字節跳動,專注於電腦視覺、機器學習領域的相關研究及其在多媒體中的應用。字節跳動的公開資訊顯示,馮佳時已發表400多篇關於深度學習、物體識別、生成模型、機器學習理論方面的論文,曾獲得ACM MM 2012最佳技術演示獎、TASK-CVICCV 2015最佳論文獎、ACM MM 2018最佳學生論文獎。他也是2018年麻省理工學院技術評論亞洲35歲以下創新者獎獲得者,曾擔任CVPR、NeurIPS、ICML、ICLR的領域主席以及ICMR 2017的程序主席。值得一提的是,他的論文在Google學術引用量已經超過6.9萬次。馮佳時的Hugging Face首頁顯示,字節跳動的視訊多模態大模型Sa2VA、自回歸視訊生成模型VideoWorld等研究論文,他均在作者之列。▲馮佳時Hugging Face首頁2023年底,新加坡國立大學Show Lab與字節聯合開源視訊生成模型MagicAnimate,允許使用者從單個圖像和動態視訊生成動畫視訊,這項研究就是馮佳時作為核心研究員推動的。▲MagicAnimate研究論文去年12月以來,字節跳動的大模型團隊已經損失多員大將,包含馮佳時在內已有7人離職。去年12月,字節跳動剪映產品負責人張逍然被曝離職,新動向未知;去年12月,TikTok演算法負責人陳志傑被曝從字節跳動離開,今年3月成立了AI程式設計方向公司言創萬物;今年3月,火山引擎AI應用產品線一號位駱怡航被曝離職,同月入職生數科技擔任CEO。今年6月,字節跳動豆包大模型大語言模型團隊負責人喬木被辭退;今年7月,字節跳動豆包大模型視覺多模態生成負責人楊建朝因家庭因素與長期高強度工作,宣佈暫時休息;今年6月,字節跳動AI Lab負責人李航被曝正式卸任,轉為勞務/顧問身份。另一邊,字節跳動也在大力從全球招兵買馬。去年9月,字節跳動被曝數千萬年薪挖走原阿里通義大模型技術團隊的關鍵成員,包括技術負責人周暢及其手下的十多名團隊成員;今年1月,經緯創投合夥人、前班牛科技高管熊飛被曝加入字節跳動飛書團隊負責南區銷售團隊管理;今年2月,Google Fellow、GoogleDeepMind研究副總裁吳永輝被曝離開Google加入字節跳動,擔任大模型團隊Seed基礎研究負責人。 (智東西)
90%的AI產品發佈,為什麼慘敗如垃圾!
每當一項新技術剛走進大眾視野的5年裡,這個階段的新產品總是讓人視為“雞肋”一樣的存在,即便是閱產品無數的投資人,也難免莞爾一笑,吐出一句大實話:乏善可陳。其實,這不止是使用者和投資界的反饋,AI產品創造者同樣也有慘痛的經歷。“我們的AI產品發佈那天,我確信我們會改變遊戲規則。所有那些不眠之夜,所有無休止的迭代,所有我傾注的心血,只為打造一款革命性的產品。一切都為了這一刻!”“但隨後,一切都沉寂了,沒人使用它。”不僅資料異常冰冷:參與度低、採用率為零,就連反饋也像刀子一樣狠——“令人困惑”、“垃圾”、“不靠譜”。90%的AI產品在使用者記憶中陣亡各位不妨回想一下自己在手機或電腦端在用的AI應用,究竟還有那些產品的AI功能讓你眼前一亮,並堅持使用超過了6個月?從去年年初開始,我們就時不時在採訪中向對方拋出這個問題,我們得到的答案不超過這4款,看看是不是精準命中了你的答案:ChatGPT、豆包、Cursor、Notion。ps:DeepSeek作為後起之秀,吃了發佈時間晚的虧,所以不在此之列。當然這並不意味著其他的AI產品有多大問題,比如前兩年年紅極一時的AI生圖工具Midjourney、主打音樂創作的Suno以及視訊創作的可靈AI都是備選項之一,但在適配體量和口碑聲量上遠不及前面提到的產品。而就在在這僅有的4款之中,前兩款驚人地一致,全是“產模一體”(產品即模型),只剩下Cursor和Notion還算是有相對垂直的應用場景。正如一位開發者所說:“Copilot/Aider/Claude Code都很棒,但我很難想到我使用的其他工具中,那個是用LLM改進過的。”為什麼會這樣?在一切皆可AI的今天,除了Cursor和Notion備受推崇之外,其他的很多知名產品都在大眾的記憶中陣亡了。此外,有媒體甚至爆料,許多受訪的高級知識型工作者其實根本對ChatGPT“不感冒”。不得不感嘆:歷史總是驚人的相似,彷彿我們回到了2022年,低程式碼產品陷入的市場怪象:“老闆們看了必須上,使用者試了試不想用。”回到AI的語境之下,我們瞭解到一線的使用者是這樣回答的:“現在90%的 AI 功能感覺都是附加的,毫無用處。”“這還不包括價格。有些服務商甚至為了所謂的“AI 功能”而多收 50% 甚至 100% 的費用。”“除了AI編碼功能之外,我其實很難想到那個AI功能真正讓我喜歡。”問題出現了:舊App開發封禁了大模型近期,YC合夥人Pete發表了一篇部落格:《horseless carriage》(無馬的馬車)並以Gmail郵件草稿功能為例,痛斥了目前AI應用在設計上的無用性!Gmail 團隊打造了一輛“無馬的馬車”,因為他們著手將人工智慧加入到他們現有的電子郵件客戶端中,而不是思考如果從頭開始設計一個包含人工智慧的電子郵件客戶端會是什麼樣子。他們的應用是將人工智慧塞進一個為日常人工工作設計的介面中,而不是一個為自動化日常工作設計的介面中。解釋一下,這裡的“無馬的馬車”,是指蒸汽機革命初期初代汽車的雛形,外表看起來依舊是一輛馬車,只不過沒有馬,後面多了一個蒸汽機而已。當時的人們看到之後沒法接受:寧願選擇馬而不是蒸汽機。Pete指出,初代的無馬馬車誕生於“舊世界思維”,它借鑑了馬車的樣子,本質上無異於用發動機取代馬匹,卻沒有重新設計車輛以應對更高的速度。在他看來,現在很多AI應用也一樣,都像Gmail的Gemini整合一般,毫無用處、令人惱火。1803年蒸汽馬車設計圖Pete具體指出,這項功能是讓Gemini生成了一封措辭合理的草稿,但可惜的是,這封郵件的語氣和其本人截然不同。此外除了語氣問題以外,生成的郵件比本人親自寫的郵件都要長。很多人包括Google團隊都把問題甩給了AI,認為是AI還不夠聰明,無法寫出好的電子郵件。但這其實並不是 AI 模型問題:Gemini是一個非常強大的模型,它完全有能力寫出好的電子郵件。問題在於,Gmail團隊設計的應用程式,它限制了模型的發揮。在他看來,AI 原生軟體應該最大限度地提升使用者在特定領域的影響力。AI 原生的Email應該最大限度地減少使用者花在傳送和閱讀郵件上的時間,而AI 原生的會計軟體則應該最大限度地減少會計人員記帳的時間,就這麼樸素的道理。言外之意,Pete認為現在的AI應用開發只是在模仿舊的軟體開發方式,而這種舊世界的方式已經限制了大模型的能力發揮。失敗的不是技術,而是與真人的聯絡微軟CEO納德拉在剛剛過去的LlamaCon上表示了類似的觀點。他認為,人工智慧很有潛力,但是需要軟體和管理變革配套。現在的AI,就像是一架“沒有馬的馬車”。“變革不止是技術,還有人們對新技術的新方式。”他還引用電從被發現到應用於工廠生產經歷了50年的例子,表明,雖然距離AI真正改變生產生活不需要50年那麼久,但距離AI被放進新的生產系統,還需要時間。那麼,在AI 適配的新系統被發現之前,我們需要瞭解除了技術之外的限制因素。首先,“拿著錘子找釘子”往往會導致破產。很多AI項目出發點都是以技術為出點,因為開發者的確需要清楚大模型的能力的上下限,然而這往往會導致“拿著錘子找釘子”,不能識別並解決目標使用者的真實痛點。這個過程中,公司很容易忽略完整的使用者調查,進而阻止了終端使用者參與開發階段。這種情況下誕生的產品,要麼過於複雜、要麼與使用者無關。一個明顯的例子是IBM的AI醫療項目Watson for Oncology,雖然獲得6200萬美元投資,但由於AI卻生成了不安全的治療方案,而且與腫瘤醫生的工作流程脫節,最後項目告吹了。一位AI產品發佈失敗的創業者總結了沉痛教訓:打造人工智慧只是成功的一半,如果你不深入瞭解你的使用者——他們害怕什麼,他們需要什麼,是什麼讓他們興奮——你就永遠無法贏得他們的信任。而信任才是最重要的。screenshotone.com 的創始人 Dmytro Krasun 也給出了同樣的建議:如果不知道要向誰銷售你的產品,就不要生產它。如果是B端產品,這種現象也更加嚴重。很多公司採用AI,僅僅是因為AI火,而不是首先確定AI的業務應用方向。一個典型的例子就是很多人為自己公司開發智能體,總是誤以為“複雜才是高級”,追求長鏈路的複雜任務,從而導致項目失敗率和成本抖升。這種被稱為“閃亮物體綜合症”的現象導致資源的無謂消耗,卻無法產生可量化的商業效益。這也是很常見的“技術目標和業務目標不匹配”,雖然解決方案可以正常運作,但卻無法解決市場上的根本問題。其次,對於資料質量和治理的重視程度不夠。AI系統的有效運行依賴於高品質的訓練資料和決策資料。許多AI項目失敗的原因在於它們使用的資料不足,這些資料要麼過時,要麼存在偏見,從而降低信任度和可用性水平。這裡也有一個例子。亞馬遜此前開發了一個人工智慧招聘系統,該系統從帶有男性偏見的歷史招聘資料中學習,從而產生了帶有性別歧視的建議。由於缺乏適當的資料治理監督,亞馬遜最終不得不放棄該項目。誠然,現在的大模型技術發展還處在早期階段,本身技術的研究還存在諸如安全、可解釋性等一些短板需要進一步補齊。但這並不是許多AI產品不受歡迎的主要原因,更多還是使用者需求的錯位理解以及企業落地過程中的工程環節等問題。不要愛上你的產品,愛上解決使用者的問題一款人工智慧產品,不能引起使用者的共鳴,技術上即便再出色,也將毫無意義。為使用者提供信任、可用性和價值才是建構AI產品的關鍵。開發AI產品,不妨提醒自己:不要迷失在尋找這項技術所能實現的可能性中。而是要時刻關心“為人而建”,因為使用者並不關心你的演算法,他們在乎的是它如何讓他們的生活更輕鬆。所以,瞭解他們的行為、他們的時間都花在了那裡,以及他們不喜歡工作流程中的那些方面。不要只問他們想要什麼,還要觀察他們做了什麼。所有這些都將幫助你打造一款使用者樂於使用的產品。此外,儘早關注資料質量。無論人工智慧多麼複雜,糟糕的資料都會導致糟糕的結果。在開始建構之前,投入時間和精力進行資料清理、資料整理和資料多樣化至關重要。這就像蓋房子一樣——你的資料就是地基。如果它出現裂縫或不平整,整個結構就會倒塌。並且不要忘記不時檢查您的資料;六個月前有效的方法今天可能就不起作用了。最後,少即是多,快速證明價值。正如前文多提到的,追求複雜是一個典型的產品開發誤區。很多人認為推出一款擁有眾多炫酷功能的人工智慧產品就能給利益相關者留下深刻印象。然而,事實並非如此,它非但沒有打動使用者、贏得他們的信任,反而讓他們感到困惑,甚至厭棄。所以,從一個小的、專注的場景開始,解決一個特定的問題。在取得第一個成功之後,再將其作為跳板進一步拓展你的產品。而對於企業而言,還有一點值得補充,即設定明確的目標,即便是實驗性質的探索,同樣有必要。開始開發工作之前應該建立具體的以業務為中心的成功標準,這樣可以讓開發人員專注於解決具體問題,而不是為了追求尖端技術。不要愛上你的人工智慧,而要愛上解決使用者問題這件事。這才是讓你的產品收穫使用者的不二法門。 (51CTO技術堆疊)