看不懂GitHub程式碼?剛剛這個AI工具讓全球每個GitHub專案開口說話


還記得那個號稱全球首位AI 軟體工程師Devin 嗎?它的創造者Cognition Labs公司剛剛推出了一個名為 DeepWiki 的計畫。簡單來說,這是一個目標宏大的計畫:為全世界每一個GitHub 程式碼倉庫(Repo)提供可以即時交流、即時更新的文檔

你可以把它想像成一個由Devin 技術驅動的、專門針對GitHub 的「深度研究」工具

亮點:免費、免註冊、即時可用

最關鍵的是,對於開源項目,這項服務完全免費,甚至無需註冊

怎麼用?非常簡單:

  1. 造訪 deepwiki.com,探索已經收錄的熱門開源專案的Wiki
  2. 或者,更直接的方式:把你正在瀏覽的任何GitHub 倉庫URL 中的 github.com 替換成 deepwiki.com,即可無縫跳到該倉庫的DeepWiki 頁面

能做什麼?

對話式檔案: 你可以直接向程式碼庫“提問”,DeepWiki 會嘗試理解你的問題並給出檔案級的解答

深度研究(Deep Research): 對於複雜問題,可以開啟此功能,讓AI Agent 進行更深入的分析與回答

按需索引: 如果你關心的公開倉庫還沒被收錄,可以請DeepWiki 為你索引

私有倉庫支援: 對於私有倉庫,可以透過註冊 Devin 帳戶(devin.ai)來獲得服務

輕鬆分享: 產生的Wiki 頁面和問答結果都可以透過連結分享,方便團隊成員保持資訊同步

投入與規模

Cognition Labs 為了DeepWiki 可謂投入巨大:

  • 已索引約 3 萬個 GitHub 倉庫
  • 處理了超過 40 億行程式碼
  • 索引過程的計算成本就超過了 30 萬美元
  • 總計處理了超過 1000 億個 Token

據稱,平均索引一個倉庫的成本約為12 美元,但目前對所有開源專案完全免費開放

技術探秘:理解全域結構與提交歷史

我們知道,LLM 理解局部程式碼的能力已經很強,但要掌握龐大程式碼庫的全域結構是真正的困難。 DeepWiki 的核心技術正是為瞭解決這個問題:

  1. 層級化系統分解: 它首先將程式碼庫分解成一個層級化的高階系統(high-level systems)結構
  2. 系統級Wiki 產生: 然後為每一個識別出的系統產生對應的Wiki 頁面,建構出整個專案的知識圖譜

此外,DeepWiki 還利用了一個非常有價值的訊號:程式碼提交歷史(commit history)。透過分析「那些檔案經常被那些開發者一同修改」(這可以表示成一個圖),DeepWiki 能夠挖掘出程式碼庫中隱藏的模式、模組邊界和開發者協作關係,這些都是理解複雜專案的關鍵訊息

寫在最後

目前,DeepWiki 網站上已經有 3 萬個倉庫的Wiki 可供探索。對於開發者來說,尤其是面對龐大、複雜的開源專案時,DeepWiki 無疑提供了一個強大的新工具,有望極大提升程式碼理解效率,降低學習和參與門檻

比較好奇DeepWiki背後使用的模型,哈哈 (AI寒武紀)