#Code
一年後程式設計師將會逐步消失| Boris(claude code技術負責人) 訪談筆記
來源:Lenny's Podcast,2026年2月,約95分鐘一、他自己怎麼用 AI從去年 11 月到現在沒手寫過一行程式碼。每天 10 到 30 個 PR,全是 Claude Code 出的。早上睜眼第一件事:拿手機打開 Claude iOS 的 code tab,把 agent 派出去跑。同時掛著四五個 agent 平行幹活。他在 Instagram 那會兒就是產出最高的幾個工程師之一。不是本來就寫得少。這一點,從去年11月份到現在還手寫程式碼的同學需要反思了(國央企,保密單位啥的沒辦法的不算),國內用不了claude ios app的也要反思了,不過還不晚,從今天起全部借助 agent,多個agent,另外能搞成skill的節能或者能力的都能搞盡快搞。二、他對程式設計的定調"Coding is largely solved." 至少他自己做的那類活,已經解決了。下一步是 agent 不光寫程式碼,還自己提需求。翻 feedback,看 bug report,讀 telemetry,然後跑來跟你說"這幾個可以修""那幾個可以加"。一到兩年後,學一門具體語言沒啥意義了。就跟現在沒幾個人在乎彙編一樣。年底前 "software engineer" 這個詞會開始退場,換成 "builder"。或者乾脆不分了,人人都是 PM 兼碼農。要立即退出程式設計的行列,不要在古法程式設計了,提升效率,程式語言的學習將沒有意義,這一點挺讓人傷心的,但是不能固步自封啊,前進吧。年底前,軟體工程師將會逐步的,徹底退出歷史舞台,這一點其實有點誇張,borris作為全球最頂級程式設計 agent的負責人,說的激進點沒啥問題,不過明年年底前肯定要退出歷史舞台了。三、資料SemiAnalysis 的報告:GitHub 上 4% 的 commit 是 Claude Code 寫的。這還只是公開倉庫,私有的比例更高。年底可能到 20%。增速不是線性的,還在往上翹。Anthropic 內部工程師產出漲了 200%(按 PR 算)。Boris 之前在 Meta 管程式碼質量, 幾百號人折騰一年也就提幾個百分點。對比之下這個數很離譜。這一點是程式設計師們心裡最痛的一個點,github啊,全球開放原始碼的集中地,後續將會有90%以上的程式碼都是由AI完成,這很難接受,難接受但是很合理。四、這東西怎麼來的剛加入 Anthropic 的時候花了一個月各種瞎搞原型,大部分沒出貨。又花了一個月做post-training,瞭解模型底層。他習慣搞清楚你踩的那層下面那層是什麼。第一個原型叫 Claude CLI。給模型一個 bash 工具讓它自己玩。他隨口問"我在聽什麼歌",模型自己就用 bash 翻出來了。他自己都沒想到這問題能答。發內部公告拿了兩個 like。沒人覺得終端裡能長出什麼正經程式設計工具。為什麼是終端?因為開始就他一個人。終端最省事。後來發現這歪打正著——模型迭代太快了,別的介面根本跟不上。終端正好是最"裸"的殼。2025 年 2 月對外發,一開始也不算爆款。好幾個月大家才搞懂怎麼用。Opus 4 之後開始真起飛。大牛也一樣要經歷沒人理睬的時刻,但是依然保持熱情,結果一下就爆了,在整個AI發展事上Borris恐怕會像linus一樣留下美名,雖然有很多安妮紡織機的工人會很反感他,開玩笑,繼續往下看。五、產品哲學1. 潛在需求(Latent Demand)老版本:看使用者拿你產品在幹什麼歪門邪道,然後把它做成正經功能Facebook Marketplace 是這麼來的:40% 的群組帖子其實是買賣東西。Facebook Dating 也是:60% 的 profile 瀏覽是異性非好友。Co-work 更典型:一堆非技術使用者用 Claude Code 種番茄、分析基因組、恢復硬碟照片、看 MRI 片子。那就給他們做個正經產品算了。這就是傳統的軟體開發流程啊,使用者需要什麼,我們就去滿足它。新版本(AI 時代):看模型自己想幹什麼,順著它的勁兒來。別跟它較勁。2. 別給模型套框一年前可能還需要各種編排器、固定工作流。現在給工具和目標就行,讓它自己找路。Claude Code 從頭就定了"模型即產品"。最少的殼,最少的內建工具,讓模型自己決定用啥、按什麼順序。現在claude code的確是最少的殼,最少的內建工具,用著用著模型會自主決定用那個工具,不帶跟你商量的,其實使用者在用的過程中也不斷的完善自己的一堆skills.3. Bitter Lesson通用模型永遠吃掉專用模型。別在小模型、fine-tune、工作流上花太多力氣,下一版模型出來全給你抹平。他的原話:"Build for the model six months from now." 前六個月產品可能很一般,模型一上來直接起飛。如果一開始大家就知道,通用模型會吃掉專用模型,很多的資金就可以節省下來,很多創業的小夥伴就可以好好的了,不得不佩服段永平先生的一個神觀點:敢為人後,AI初期,攻城略地很有意義,但是觀察整個行業,在合適的時候出手沒問題,不要一開始就跑馬入場,很可能成炮灰,但是學習,持續的觀察整個行業動態是必須的,前置的。4. 少給資源人少反倒逼著人用 AI 想辦法。一個人扛一個項目,自然就想快點出貨。AI 給你加速,不需要老闆在後面催。後邊一個老闆帶著一個有編碼經驗的老碼農就行了,這也是碼農的福利了,一個碼農要兼PM,設計以及測試(其實增加一個測試skill就可以了),老闆在市場衝鋒陷陣,後邊一個碼農就是一個產研團隊,給老闆提供充足的支援。5. 反饋飛輪內部有個 channel 全是吐槽。Boris 早期是有人反饋幾分鐘內出 PR。讓人覺得自己說了算,反饋就越來越多,飛輪就轉起來了。現在 Claude 自己替他幹大部分。激情四射的Borris!六、安全:三層底層:mechanistic interpretability(機制可解釋性),直接看神經元在幹嘛,追蹤"欺騙神經元"之類的東西。Chris Olah 是這個領域的開創者。中層:evaluations,實驗室環境的安全評估。上層:丟到真實世界,看它在野外的表現。所以產品發佈經常叫 "research preview",不是噱頭,是在收真實資料。"Race to the top":把 sandbox 開源了,任何 agent 都能用。想讓行業在安全上捲起來,別比爛。安全是必須要考慮的,AI時代安全比網際網路時代的安全更隱蔽,而且現在在很初期的階段,,前兩天發生了一起使用者用cursor + optus 4.6刪除使用者生產資料庫造成損失的案例,我別的文章有詳細報導。見AI9秒刪庫事件:程式設計師必學的5條安全教訓七、工程師這個角色的去向Cursor 插曲:2025 年中加入 Cursor,兩周走人。原因簡單——他想念 Anthropic 的使命。Cursor 做的事很酷,但他需要工作綁在一個更大的意義上,不然自己待不住。他學程式設計的起點:中學給圖形計算器寫程序,為了數學考試作弊。後來寫了個通用求解器賣給全班,大家一起被抓。老師沒讓他們畢業。從頭到尾程式設計就是工具,不是目的。也承認有人就是愛手寫。隊裡有工程師周末還手搓 C++,就是享受。"以後還會有空間,就像現在還有人寫鋼筆字。"給學生:學校別光盯著程式碼。去學系統架構、產品、設計、商業。以後最搶手的人不是最會寫程式碼的,是能跨好幾個領域、知道到底該造什麼的人。程式設計師同學們,這是個哲人啊,程式設計永遠是工具,不應該是目的,不能贊同更多。或許,以後網路直播手寫程式碼也會成為一個流量的噱頭。還在學電腦沒畢業的孩子們,要去看看這篇文章的原視訊,看看Borris的更詳細的說明,要學架構、產品、設計、商業。後續的人才必須是跨學科的,應該不是說人才,而是普通的打工人也要是跨領域的,一招鮮,吃遍天的時代徹底終結了。八、印刷術這個類比1450 年代以前,歐洲識字率不到 1%。所有文字活全交給抄寫員(scribes)。古騰堡之後 50 年,產出的印刷品比之前一千年加起來還多。成本降了一百倍。200 年後識字率從 1% 到了 70%。沒有印刷術就沒有文藝復興——沒人識字你傳播什麼。有個歷史文獻挺妙的:當時有抄寫員被問到對印刷術的看法,說很高興終於不用抄書了,可以專心做插畫和裝訂(那些更有意思的活)。Boris 把自己跟這個比:不用再折騰配環境、調依賴、修編譯錯誤那些破事了。時間花在跟使用者聊、想方向、跟團隊碰。長期看:程式設計從少數人的手藝變成人人都有的能力,能釋放出什麼?猜不到,但樂觀。短期看:會疼,會有人被淘汰。這是全社會的事,不該一家公司拍板。古騰堡是西方近代印刷術之父,borris舉這個例子就是說明,碼農終於不用手寫程式碼了,終於可以利用自己的頭腦,借助AI做很多自己喜歡做的事情,但是陣痛是不可避免的,長期來看是正向的,積極的。九、對程式設計師說的實在話用最強模型。Opus 4.6 + maximum effort。便宜模型來回修反而更費 token。八成任務先開 plan mode。原理土到掉渣:就是注入一句"先別寫程式碼"。計畫對味了再讓它跑,4.6 下幾乎一把過。給工程師拉滿 token。單人實驗的 token 費遠低過他的工資。真跑出好東西再最佳化成本。各種介面都試試。terminal、desktop app、手機端,那個順手用那個。這不是個純終端工具。多開幾個 agent 平行跑。別一次只跑一個。別怕,去玩。泡在工具最前沿,這是唯一不掉隊的方式。這段既是在宣傳自己的產品,雖然不用宣傳也知道你是最強的,也是在告訴大家一個道理,最貴的可能是最便宜的,而最便宜的可能才是最貴的。我喜歡這種自信。十、零碎但有意思的他生在烏克蘭奧德薩,主持 Lenny 也是。倆人訪談中途當場認老鄉。爺爺是蘇聯第一批程式設計師,用打孔卡寫程序。他媽小時候拿打孔卡當塗鴉紙。進 Anthropic 之前在日本的鄉下住了好幾年,鎮子上唯一寫程式碼的、唯一說英語的。會做味噌。白味噌三個月起,紅的要兩到四年。說是他練耐心用的,也是 AGI 之後的退休方案。書單:《Functional Programming in Scala》(他說是最好的技術書,雖然你可能不寫Scala 了)、《Accelerando》(Charles Stross,節奏和現在 AI 這波一模一樣)、《流浪地球》短篇集(說中國視角的科幻跟西方完全不同,看著新鮮)。格言:use common sense。別看到流程就跟著跑,別看到大家都在做就覺得對。聞著不對勁,它就是不對勁。就這些,這是一個頂級極客,也是一個有意思的很自信的人,碼字不易,歡迎大家點贊推薦打賞三連,原視訊細節更多,歡迎去看。 (米斯特太陽)
撕開Claude Code真相:讓它好用的98.4%,是工程不是AI
當普通人還在鑽研「最強提示詞咒語」時,矽谷頂級實驗室已經把AI基建跑成了生產線。你還在ChatGPT的聊天框裡反覆調prompt?最近,一位X使用者發了條推文,開頭就是一個驚呼:頭部大廠偷偷在用的Claude Code項目範本外洩!這已經不是寫提示詞了。這是AI工程基礎設施。整套打法圍繞一個檔案「CLAUDE.md」展開,而它的核心原則只有三條:每次Claude犯錯→你加一條規則;每次你重複自己→你加一個工作流;每次出bug→你加一道護欄。這樣做,是要把項目經驗沉澱成它每次啟動都會讀取的長期上下文和自動化約束。整個架構,像是一家AI公司的崗位編制:CLAUDE.md是入職手冊,skills/是工作SOP,hooks/是合規部,docs/是公司章程,tools/是後勤組,src/才是真正出活的業務部門。你不再是在和AI聊天了,而是在建構一個瞭解你程式碼倉庫的AI。最瘋狂的部分是,你只需要配置一次,Claude就會自動審查程式碼,並按指令重構、強制執行架構規則、撰寫發佈說明、從技能中運行工作流、記住過去錯誤等。而且它會越用越聰明。大多數人,都是打開ChatGPT,寫提示詞,複製貼上,反覆;而在這套打法下,你只需要打開終端,跑一個skill程式碼已交付。這等於是在自己的程式碼庫裡養了一隊AI同事。這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小訊號,大多數人可能還沒反應過來。一張不算洩露的「洩露截圖」撕開一個真相@ai_rohitt曬出來的這張截圖,是Anthropic官方文件裡公開推薦的Claude Code標準範式。CLAUDE.md是Claude Code在每次會話開始時自動讀取的項目記憶檔案。.claude/skills/和.claude/hooks/是官方支援的擴展機制。這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部範本」。但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天用Claude的開發者們的認同。其中相當一部分人,可能這兩天才意識到原來它還能這麼用。而矽谷頂級團隊,已經把這件事跑成了生產線。第一個例子,是OpenAI Frontier團隊。OpenAI官方披露的Frontier團隊實驗中,一個從空repo起步的內部beta,在約5個月內由Codex生成了約100萬行程式碼和約1500個PR;團隊從3人擴展到7人,人工不直接寫程式碼。帶隊的Ryan Lopopolo在後續訪談中進一步提到,這套工作流已經接近「0 人工程式碼、0 人工 review」的極限形態。他認為與其節省token,不如利用模型極高的並行能力和極低的成本來代替人類有限且昂貴的同步注意力。第二個例子,是Stripe內部的自動化程式碼代理系統Minions。Stripe內部的Minions每周生成並推動超過1300個PR合併,這些程式碼從頭到尾由AI生成,但仍經過人工review。這裡還有一對資料:1.6%vs98.4%,它來自Mohamed bin Zayed AI大學VILA-Lab發表的一篇論文。https://arxiv.org/pdf/2604.14228研究者係統性扒了Claude Code v2.1.88版本51.2萬行TypeScript原始碼,給出的結論是:只有1.6%是AI決策邏輯,剩下的98.4%是確定性的工程基礎設施。具體說就是權限閘道器、上下文管理、工具路由、錯誤恢復這四類。這組數字不是說模型只貢獻1.6%的能力,而是說明Claude Code作為產品,大量複雜度不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。@ai_rohitt那張圖裡的CLAUDE.md/skills/hooks結構,就是普通開發者也能搭一套的「入門版基建」,它和OpenAI、Stripe那套生產級架構是同一種範式,只是規模小得多。CLAUDE.md暴露的秘密過去3年,所有人都在問「GPT什麼時候能更聰明」「Claude什麼時候出新版本」。但真正在生產環境跑通AI程式設計的團隊,他們更關心的可能根本不是這個,而是如何讓AI記住自己上次踩過的坑,怎麼讓AI在動手前先看一眼項目的架構約束,怎麼讓AI犯錯的時候自己被工具擋住。CLAUDE.md正是這一切的承載體。Anthropic官方對它的定義只有一句:一個markdown檔案,放在項目根目錄,Claude Code在每次會話開始時自動讀取。https://code.claude.com/docs/en/memory聽上去很簡單,圍繞它展開的那幾層結構,才是它真正厲害的部分。CLAUDE.md是項目大腦。架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是AI每次啟動時第一眼看到的「員工手冊」。.claude/skills/是可復用工作流。Claude Code的建立者Boris Cherny在社區裡反覆強調一句話:「如果你每天做某件事超過一次,把它變成skill或command。」一個skill就是一段可執行的方法論。Code review、生成commit message、寫發佈說明,這些都不該是每天手敲提示詞的活,應該是skill調一下就出結果。.claude/hooks/是自動護欄。這是最關鍵的部分。它不依賴AI自己判斷,由確定性程式碼在AI犯錯之前就擋住它。這就是為什麼敢讓AI「無人監督」地跑,因為出錯的邊界由hooks卡死了。docs/decisions/是架構決策記錄。讓AI不僅知道程式碼「是什麼」,還知道程式碼「為什麼是這樣」。這一項最容易被忽略,但也是AI協作最大的槓桿點。tools/和src/是執行層。這套架構真正值得注意的地方,不在於某個開發者搞出了一個漂亮目錄,而是越來越多獨立團隊正在收斂到同一個方向:把模型放進一套由上下文、工具、權限、評估和反饋循環組成的harness裡。GitHub上已經能看到不少類似項目:rohitg00的awesome-claude-code-toolkit、diet103的claude-code-infrastructure-showcase、affaan-m的everything-claude-code,都在圍繞agents、skills、hooks、rules、MCP configs等元件搭建Claude Code的工程化工作環境。這說明,真正成熟的AI程式設計工作流,不是只靠一個更強的模型,也不是只靠一條更長的prompt,而是把模型嵌入一套可復用、可約束、可恢復、可審計的工程系統裡。至於具體目錄結構,各家實現並不完全相同。OpenAI實驗室的極限實驗2026年2月11日,OpenAI官方部落格發了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。https://openai.com/index/harness-engineering/Anthropic圍繞這個概念重新調整了Claude Code的架構思路;Martin Fowler的網站把它凝練成一個公式:「Agent=Model+Harness。」Harness這個詞來自馬術。它指的是馬的整套挽具,韁繩、馬嚼子、馬鞍、籠頭。一匹馬可以跑得很快很有力,但它自己不知道往那兒走:整套挽具決定了它的方向。類比到AI程式設計:模型本身能力很強,但它不知道在你的程式碼庫裡該往那兒走。Harness就是你為它造的方向盤+剎車+導航。OpenAI Frontier團隊那個「100萬行0人工」的實驗,本質就是把Harness做到極致。他們的關鍵工程實踐包括以下幾條。層級架構強約束。從Types到Config到Repo到Service到Runtime到UI,依賴關係單向流動,由linter在CI層強制執行。Agent寫出違反層級關係的程式碼?直接建構失敗。linter錯誤資訊本身是修復指令,這也是最反直覺的細節。普通項目的lint錯誤是「violation detected」,給人看的;OpenAI Frontier的lint錯誤是「use logger.info({event: 'name', ...data}) instead of console.log」,給Agent看的、可以直接讀懂並修復的指令。文件作為單一事實來源。所有架構圖、execution plans、設計規範都在倉庫內部的docs/目錄。Agent不需要任何外部知識庫,一切就在repo裡。這套東西效果有多厲害?模型沒有換,但LangChain調整了harness,包括系統提示、工具、中介軟體和推理模式,最終把Terminal Bench 2.0分數從52.8提到66.5。你今天就能做的事是為AI造一個項目大腦問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。第一件事,在你最重要的項目根目錄建一個CLAUDE.md。不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求、那些反覆踩過的坑,10分鐘能寫完一個能用的版本。下次AI犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md裡缺了什麼?第二件事,把每天重複做的事改造成skill。這裡要注意Boris Cherny的金句:「如果你每天做某件事超過一次,把它變成skill或command。」Code review、生成commit message、寫發佈說明、修一類重複的bug,這些都該是skill,不該是每天手敲提示詞。第三件事,在容易踩坑的地方加一個hook。Hook是98.4%裡最有槓桿的那部分。它不依賴AI變聰明,它依賴確定性程式碼做強制檢查。這是把人類工程師的判斷力翻譯成機器可讀約束的過程。這件事的核心不在寫程式碼,而在寫規則。Karpathy今年1月在推特上的那句被廣泛轉發的話:「我已經從80%手動寫程式碼變成了80%交給Agent寫。」未來五年,工程師的能力曲線正在從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。寫程式碼的活兒正在被Agent接管。但設計那個讓Agent能寫出好程式碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。 (新智元)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)