DeepSeek、阿里接連打出王炸,AI產業徹底變天了


敢開源才是真的OpenAI!

1. 阿里雲開源最強視訊大模型

本周,AI領域的開源風暴正在愈演愈烈,很快也許就會席捲到我們每一個人。

2月24日周一,DeepSeek宣佈啟動“開源周”,計畫連續在五天內每天開源一個重磅專案。

在此背景下,阿里雲悄悄發力,就在昨夜突然宣佈開源自家最強視訊大模型-萬相2.1(Wan)

圖源:阿里雲技術人員開源當晚直播

身為開源老兵,阿里雲再次透過開放原始碼的方式展現自己的無私以及對自家大模型技術實力的自信。

在AI技術快速發展的當下,開源已成為推動技術進步和生態建設的重要力量。

此次阿里開源萬相2.1,採用的是Apache 2.0協議,該協議為全球開發者提供了極大的自由度,無論是商業應用還是學術研究,都能在合規的前提下自由使用該模型。

而對開放原始碼的萬相2.1本身而言,其不僅支援文生視訊圖生視訊任務,還提供了14B1.3B兩個參數規格的全部推理程式碼和權重。

這意味著無論是追求極致效果的專業人士,還是希望快速部署的普通使用者,都能找到適合自己的解決方案。

目前,全球開發者已經可以在GitHub(https://github.com/Wan-Video/Wan2 .1)、HuggingFace(https://huggingface.co/spaces/Wan-AI/Wan2.1)和魔搭社群(https://modelscope.cn/studios/Wan-AI/Wan-2.2.1體驗此模型。

所以,號稱阿里雲最強的萬相2.1到底強大在那?

首先,從資料來看,14B版本的萬相2.1在指令遵循複雜運動生成物理建模文字視訊生成等方面表現都十分出色。

在權威評測集VBench中,以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外知名模型,系該領域的佼佼者。

圖源:鞭牛士

而1.3B版本則在性能效率之間找到了完美的平衡,不僅超過了更大尺寸的開源模型,甚至與一些閉源模型的表現不相上下。

更令咱們一般人感到驚喜的是,萬相2.1對裝置相容十分友好,支援消費級GPU。

據瞭解,13億參數模型僅需8.2GB視訊記憶體就能產生480P視訊,可相容於幾乎所有消費級GPU。

這意味著一般使用者也能在消費級顯示卡上輕鬆運行該模型,大大降低了使用門檻。

根據媒體評測,模型在RTX 4090顯示卡上產生5秒480P影片(未使用量化等最佳化技術)約需4分鐘。

此外,萬相2.1同時支援文生影片圖生影片影片編輯文生圖、影片生音訊視覺文字產生

而且,萬相2.1還是首個能夠產生中英文文字的影片模型,無需外掛程式就能在影片中產生想要的文字。

圖源:阿里雲官方演示

多家媒體對萬相2.1及其生成視訊能力給予了高度評價:萬相2.1不僅能夠生成高品質的視訊,還能在視訊中融入複雜的運動和物理效果。

例如,在官方公開的一個Demo,墨水在紅色宣紙上暈染開來,最終形成一個“福”字,筆畫邊緣自然模糊,東方韻味十足。

圖源:阿里雲官方演示

昨天,阿里旗下的AIGC通義千問也發佈了全新的「Thinking (QwQ)」深度思考模型,支援深度思考與連網搜尋。

據悉,該模式基於QWEN2.5-MAX,而官方版QWQ-MAX即將發佈,並將同樣採用Apache 2.0授權協議開源。

由此可見,即使DeepSeek的爆紅給整個產業帶來了不小的壓力,阿里雲仍然擁有更進一步的信心與膽量。

萬相2.1等模型的開源,將為開發者帶來更多的可能性,也為AI視訊生成領域的發展注入新的活力。

2. DeepSeek震撼全網的開源周

當阿里雲以開放原始碼的姿態向世界展示其強大的視訊生成大模型萬相2.1時,全球的目光也聚焦在了另一股開源力量—— DeepSeek

如果阿里雲的開源是一場科技盛宴,那麼DeepSeek的開源周則如同一顆震撼彈,直接在國際舞台上掀起了滔天巨浪。

與阿里雲的堅定開源不同,DeepSeek開源周的種種項目,讓外網的多方人士感到震撼,彷彿一夜之間,屬於真正“Open AI”的格局被徹底改寫。

今天已經是DeepSeek的開源周的第三天,在此之前,DeepSeek已經公開了2個令人矚目的技術成果。

第一天, DeepSeek開源了FlashMLA程式碼庫,這是針對Hopper GPU最佳化的高效能MLA解碼核心,專為處理可變長度序列而設計。

傳統解碼方法在處理不同長度的序列時,常常會導致GPU的平行運算能力被浪費,而FlashMLA透過動態調度和記憶體最佳化,讓Hopper GPU的算力被「榨乾」,吞吐量顯著提升。

圖源:X平台

簡單來說,FlashMLA可以讓大模型在專業GPU上跑得更快、效率更高,尤其適用於高效能AI任務。

這意味著企業可以用更少的GPU伺服器完成同樣的任務,直接降低了推理成本。

對於開發者來說,FlashMLA的開源不僅打破了算力壟斷,更降低了技術門檻,讓他們能夠免費獲得“工業級最佳化方案”,推動更多創新應用的誕生。

第一天, DeepSeek開源了DeepEP通訊庫,這是第一個用於MoE模型訓練和推理的開源EP通訊庫。

它支援高效率的全員溝通,無論是節點內或節點間,都支援NVLink和RDMA,確保資料傳輸的高效性。

同時,DeepEP也具備訓練及推理預填階段的高吞吐量運算核心,以及推理解碼階段的低延遲運算核心。

這些特性使得DeepEP能夠輕鬆應對大規模MoE模型的訓練和推理任務,大大提升了模型的效能和效率。

此外,DeepEP也原生支援FP8資料分發,靈活控制GPU資源,實現運算與通訊的高效重疊。

據瞭解,DeepEP在開源後迅速獲得了全球開發者的關注和認可,其GitHub上的Star量在3小時內就突破了1000。

圖源:GitHub

到了今日(第三天),DeepSeek再次祭了殺手鐧—— DeepGEMM

這是DeepSeek能夠訓練出V3/R1的核心動力所在,能在大規模模型訓練與推理中,大幅提升運算效率,特別適用於需要高效運算資源的場景。

並且,DeepGEMM的核心邏輯僅約300行程式碼,卻實現了高達1350+FP8 TFLOPS的效能,這項效能表現徹底折服了不少老外。

可以說,DeepGEMM開源專案的出現,讓更多開發者能夠體會到「超級電腦」一般高效的運算,推動了深度學習領域的技術進步。

這一波接一波的衝擊,讓外網直接將DeepSeek譽為「真正的OpenAI」,人們感慨於DeepSeek的技術實力和慷慨大方。

3. 「開源」值得更多感謝

那麼,有的朋友可能會問,我知道開源很偉大,知道做出這些的企業很無私,但他們的開源,究竟跟我們一般人有什麼關係?

事實上,開放原始碼的意義遠不止於技術層面的突破。

開放原始碼的最大意義在於它可以推動企業打破了科技的高牆,讓一般人也能享受AI帶來的種種好處。

正如當下無論是大型企業或小型新創公司,都在積極接觸DeepSeek等開源模型,將其融入工作與生活的各個層面。

智慧客服創意設計,從醫療影像分析教育輔助工具,AI正以前所未有的速度滲透到每個角落。

而且開放原始碼的意義不僅限於此。

現如今,在全球範圍內,AI產業正迎來一場前所未有的「軍備競賽」。

這場競賽不僅囊括了像阿里雲、DeepSeek這樣的開源先鋒,也包括像OpenAI和Meta這樣的國際巨頭。

前段時間,OpenAI宣佈部分車型免費開放。

緊接著,Anthropic也在近日對其大模型進行了升級換代,推出了號稱「迄今為止最聰明」的Claude 3.7 Sonnet,僅部分功能不支援免費使用。

這些變化正是開源在與閉源的較量勝出,推動了整個產業加速前進。

這種「開源福利」不僅在國內引發了熱潮,更輻射到了全球。

DeepSeek的開源周和阿里雲的開源行動,不僅為國內開發者提供了寶貴的技術資源,也讓全球AI產業看到了開放原始碼的力量。

如今,開源模型不僅在效能上不遜於閉源模型,更在彈性和可擴展性上展現出獨特的優勢。

開放原始碼的力量正在全球範圍內匯聚,形成一股不可阻擋的潮流。

只能說,僅通過這半個月以來AI行業的各種變化來看,誰還能再雲淡風輕地說出那句“開源模型會越來越落後”

開源,正在以前所未有的速度改變世界。 (環球科技局)