官方認證
RexAA
全球科技產業觀察者
不用等R2了!第三方給新版DeepSeek V3加入深度思考,推理101秒破解7米甘蔗過2米門
DeepSeek即將發佈R2??坊間傳聞越來越多了,且難辨真假。1.2T兆參數,5.2PB訓練資料,高效利用華為晶片……只能說如果有一半是真的都很牛了。HuggingFace創始人此時推薦“以不變應萬變”,打開官方認證帳號的更新提醒,就能第一時間獲取通知。拋開具體洩露資料是否精準,大家似乎有一個共識:如果真的有R2,它的基礎模型會是新版DeepSeek V3-0324。之所以有很多人相信R2會在4月底發佈,有一部分原因也是出於R1與V3之間相隔了一個月左右。現在,等不及DeepSeek官方,開源社區已經開始自己動手給V3-0324加入深度思考了。新模型DeepSeek-R1T-Chimera,能力與原版R1相當,但速度更快,輸出token減少40%,也是基於MIT協議開放權重。相當於擁有接近R1的能力和接近V3-0324的速度,結合了兩者的優點。而且做到這一點,不是靠微調或蒸餾,而是DeepSeek V3-0324和R1兩個模型融合而成。R1+V3融合模型新模型R1T-Chimera並非DeepSeek官方出品,而是來自德國團隊TNG Technology Consulting。該團隊此前也探索過可調專家混合(MoTE)方法, 讓DeepSeek-R1在推理部署時可以改變行為。新的R1T-Chimera模型權重可在HuggingFace下載,也可以在OpenRouter免費線上試玩。目前已知是選用了V3-0324的共享專家+R1與V3-0324的路由專家的混合體融合而來。TNG團隊表示最終結果令人驚訝,不僅沒有表現出融合模型的缺陷,相反,思考過程還比原版R1更緊湊有序。暫沒有技術報告或更詳細的模型融合方法公佈,要驗證它是否符合描述,就只能拉出來試一試了。我們選用最新折磨AI的難題“7米長的甘蔗如何通過2米高1米寬的門?”。原版R1思考了13秒就下了結論;R1T Chimera在這裡卻足足思考了101秒,最終計算出可以通過。雖然還是無法像人類一樣直觀的理解三維空間,讓甘蔗與門的平面垂直就可通過,但依然通過計算夾角與投影得出了結論。在這100秒時間裡R1T-Chimera如何一步步思考出答案呢?展開推理token可以發現,在簡單計算二維方案不可行後,它就已經想到了三維方案。後面依然陷入了各種誤區,在旋轉甘蔗、彎曲甘蔗、計算“門的厚度”上走了彎路。最終通過“揣摩出題人心理”走進正確的路線。最終給出的答案非常嚴謹了。雖然人類直覺上就能想出把甘蔗垂直起來通過這個方法,但仔細一想,題目中確實沒有給出“門後有多少空間這個條件”。細還是AI細。關於R1T-Chimera的更多細節,大家還在等TNG團隊消息和更多第三方基準測試結果。不過也有人注意到,KIMI K1.5技術報告中也探索了模型融合方法。不過在實驗中,這種簡單融合方法表現並不如這篇論文中提出的Long2short強化學習方法。另一個在模型融合上有經驗的團隊是Transformer作者Llion Jones創辦的Sakana AI。早在24年初就結合進化演算法提出以block為單位融合的方法。隨著更多團隊跟進這一路線,模型融合會不會成為2025年大模型的一大技術趨勢呢? (量子位)
蘭德:2025人工智慧演算法進展:進步調查與近期未來預測報告
蘭德公司(RAND)發佈的《人工智慧演算法進展:進步調查與近期未來預測》研究報告由Carter C. Price、Brien Alkire和Mohammad Ahmadi撰寫,於2025年初完成。該報告對人工智慧演算法改進進行全面調研,分析了演算法進步的關鍵管道和未來發展趨勢。報告主要內容包括:人工智慧演算法改進的定義與維度、數值分析與運籌學中演算法進步機制分析、大型語言模型性能提升的關鍵因素,以及對近期AI發展的預測。研究發現兩個高影響力的演算法改進管道是:資料合成與最佳化,以及提高資料效率的改進演算法。報告還探討了三種可能的近期發展情景:資料限製成為瓶頸、演算法無法有效擴展,或演算法與資料協同發展。值得注意的是,2024年12月問世的DeepSeek-V3語言模型成為演算法改進的重要實例,展示了混合專家系統架構的優勢。該報告為政策制定者提供了基於證據的預測,幫助理解AI技術發展軌跡及其安全影響。演算法改進的本質與維度什麼才算是演算法的改進?這個問題並沒有一個標準答案。從本質上講,當演算法變化能夠在特定任務上帶來更好的性能表現或減少所需的計算資源(或兩者兼具)時,我們可以稱之為演算法的改進。這種改進可能是主觀的(如對人類偏好的樣本統計),也可能是客觀的(如減少執行數學運算所需的浮點運算次數)。演算法改進可以從不同維度來描述。從強度邊際來看,改進包括減少輸入需求(如訓練資料、訓練計算量或模型參數)或在相同或更少輸入的情況下獲得更好的性能。本質上,強度邊際關注的是效率。而廣度邊際的改進則包括新能力或應用領域的擴展,比如解決之前模型無法解決的新問題類別。演算法改進也可以發生在不同階段:訓練階段、訓練後調整階段或推理階段。訓練階段的改進尤為重要,因為訓練需要前期投入大量成本,這可能成為未來模型發展的障礙。某些演算法變化可能會在多個維度上帶來改進,或者在一個維度上的改進是以犧牲另一個維度為代價的。人工智慧演算法進步的歷史與現狀縱觀人工智慧演算法的發展歷史,我們可以看到演算法改進在人工智慧性能提升中扮演了關鍵角色。研究表明,在各種問題類型的性能進步中,演算法進步貢獻了50%到100%的改進。特別是在大型語言模型領域,從2012年到2023年,預訓練後的語言模型性能提升中,有5%到40%歸功於演算法改進。兩個關鍵創新帶來了大部分性能提升:Transformer架構的引入和來自Hoffmann等人(2022)的縮放定律。Transformer作為深度學習架構,徹底改變了自然語言處理領域。而縮放定律則揭示了模型大小、訓練計算量和模型性能之間的經驗關係,為模型設計提供了重要指導。然而,關於演算法進步的速度和方向,目前並沒有明確共識。一些研究認為,人工智慧系統的性能正趨於穩定並接近人類水平,而另一些研究則預測演算法每年會帶來大約半個數量級的模型改進,如果這一趨勢持續到2027年,人工智慧系統將能夠承擔人工智慧研究者的工作。演算法改進的主要管道通過對數值分析、運籌學和電腦科學領域演算法的廣泛研究,我們可以識別出幾個可能的演算法改進管道,並探討它們對人工智慧發展的影響。高影響潛力的管道兩個可能帶來高影響的演算法改進管道涉及:資料合成與最佳化:生成合成資料或精簡現有資料,以生成更適合訓練人工智慧的資料集。隨著高品質資料資源的日益稀缺,如何高效利用現有資料或創造新資料將成為關鍵。資料效率提升:改進演算法以提高計算效率,例如開發比Transformer計算成本更低的演算法(如Mamba),或者每次迭代效果比Transformer更好的演算法(如Kolmogorov-Arnold網路)。這兩種改進也可能同時發生。潛在突破性管道一個可能帶來突破的管道是開發更符合商業實用性能衡量標準的替代訓練標準(本報告中鬆散稱為目標函數)。當前的訓練方法主要基於預測下一個標記的交叉熵損失函數,但這可能與商業上有意義的性能衡量標準不完全匹配。演算法進步的案例:DeepSeek-V3值得一提的是2024年12月問世的DeepSeek-V3語言模型,它是演算法改進的重要實例。根據DeepSeek的介紹,該模型"優於其他開源模型,達到與領先閉源模型相當的性能...僅需2.788M H800 GPU小時完成全部訓練"。DeepSeek-V3採用了專家混合(MoE)架構,通過採用多頭潛在注意力機制和架構變更,實現了高效推理和經濟高效的訓練。此外,它還實施了新的負載平衡策略,並執行多標記預測訓練目標以獲得更強性能。模型訓練後,還進行了監督微調(SFT)和強化學習階段,以使其性能與人類偏好保持一致。人工智慧演算法的近期未來發展基於對高影響管道的分析,我們可以展望人工智慧演算法在近期可能的發展趨勢。根據不同管道的進展程度,可能出現三種近期未來情景:1. 資料限製成為瓶頸如果無法獲取額外資料,可能會阻止模型繼續高效擴展,這可能導致小型、專注的人工智慧系統主導市場。在這種情況下,研究人員將更加專注於如何從有限資料中提取最大價值,比如通過更高效的訓練演算法或更精確的資料篩選方法。2. 演算法無法有效擴展如果可以通過合成生成獲得額外資料,但新演算法無法通過包含這些額外資料有效提取有意義的性能提升,那麼大型模型的工作可能會繼續,但小型人工智慧系統可能會在市場上佔據主導地位。這種情況下,研究重點可能會轉向如何最佳化現有演算法以更好地利用新資料。3. 演算法和資料協同發展如果能夠生成額外資料,並且有新演算法能夠高效利用這些資料,那麼大型模型可能會繼續主導市場,並且可能出現性能上的實質性突破。這種情景下,我們可能會看到人工智慧能力的快速提升,開闢全新的應用領域。人工智慧進展的指標與政策思考如何評估人工智慧演算法的進展?Stanford人類中心人工智慧研究所的2024年人工智慧指數報告指出,人工智慧性能已經接近或超過人類在九個技術性能基準上的表現。然而,最近幾年這些基準的性能已經趨於穩定,這可能表明人工智慧能力已經達到平台期,或者研究人員正轉向更複雜的研究挑戰。對於政策制定者而言,瞭解演算法進步的方向和速度至關重要,這有助於預測人工智慧技術的發展軌跡,並制定相應的政策措施。例如,如果資料成為限制因素,政策制定者可能需要關注資料隱私和資料共享的規定;如果演算法擴展成為挑戰,則可能需要增加對基礎研究的投資。值得注意的是,隨著人工智慧技術的發展,安全和倫理問題也變得越來越重要。確保人工智慧系統的安全、可靠和符合人類價值觀是一個複雜的挑戰,需要技術和政策層面的共同努力。例如,強化學習與人類反饋(RLHF)的研究正致力於將人工智慧系統的行為與人類偏好和價值觀保持一致。結語人工智慧演算法的進步是一個複雜而動態的過程,涉及多個維度和管道。通過理解演算法改進的機制和管道,我們可以更好地預測人工智慧技術的未來發展方向,並為政策制定提供依據。在可預見的未來,資料合成與最佳化以及資料效率提升將是推動人工智慧發展的關鍵因素。如何在保障安全的前提下,最大限度地發揮這些技術的潛力,將是研究人員、產業界和政策制定者共同面臨的挑戰和機遇。隨著人工智慧技術不斷演進,我們需要保持警惕和適應性,既要抓住技術進步帶來的機遇,也要應對可能出現的風險和挑戰。只有這樣,我們才能確保人工智慧的發展真正造福人類社會。人工智慧演算法的進步不僅僅是技術問題,也是關乎社會、經濟和倫理的重大議題。通過跨學科的合作和全球範圍的對話,我們可以共同塑造一個人工智慧技術為人類服務的未來。在這個未來中,演算法不僅僅追求效率和性能,也要體現公平、透明和負責任的價值觀。這將是人工智慧發展的終極目標,也是我們共同的責任。 (歐米伽未來研究所2025)
天空精讀| Google大神Jeff Dean最新演講,Bolt.new CEO談成功, YC談AI氛圍程式設計,兩大投資科技大佬群播客更新
感謝科技的進步,每一個長篇訪談都可以有萬字全文,但或許更稀缺的是時間。希望本城日常精讀可以幫助大家在最有限時間裡掌握最新的科技商業認知。同時附上完整視訊和全文的連結,感興趣的同學可以繼續針對特定內容深入瞭解。天空科技商業精讀04.27 | 內容目錄• Google大神Jeff Dean關於AI重要趨勢的演講 - 蘇黎世聯邦理工學院 20250420• 訪談Bolt.new 首席執行官 Eric Simons 20250423• 如何最大限度地利用Vibe Coding - YC創業學校 20250425• BG2播客:關稅、自由貿易、出口管制、H20 與稀土禁令 - 比爾·格利 & 布萊德·格斯特納 20250424• Allin播客:馬斯克重返特斯拉,Google Gemini模型,中國的釷突破 20250426❖ ❖ ❖Google大神Jeff Dean關於AI重要趨勢的演講 - 蘇黎世聯邦理工學院 20250420視訊和全文連結:https://www.bilibili.com/video/BV1eZjcznExr/內容精讀:Google首席科學家Jeff Dean傑夫·迪恩,一位自1999年起便深度參與並塑造Google分佈式技術基石(如MapReduce, BigTable, Spanner, TensorFlow, Pathways)的關鍵人物,同時也是Google大腦團隊的聯合創始人,分享了他對人工智慧領域重要趨勢的見解。他強調,機器學習已根本性地改變了我們對電腦能力的預期,相較於十年前,如今電腦在視覺、語音識別和語言理解方面取得了巨大飛躍。          這一進步的核心驅動力在於不斷增加的訓練算力、資料規模以及模型大小,這幾乎已成為過去十五年顛撲不破的規律——更大的模型和更多的資料通常能帶來更好的性能。然而,迪恩特別指出,演算法和模型架構的改進,其重要性甚至超過了硬體的進步。這些綜合因素正推動計算範式從傳統的CPU為中心向更適應AI負載的新型計算硬體轉變。          回顧關鍵技術里程碑,神經網路和反向傳播演算法奠定了深度學習革命的基礎。2012年,迪恩及其同事通過訓練比當時已知最大模型大60倍的神經網路(使用DistBelief系統和16000個CPU核心),證明了更大模型結合足夠算力能帶來顯著性能提升,尤其在無監督學習和細粒度圖像分類任務上。DistBelief系統探索了模型平行與資料平行,並採用了創新的(儘管數學上非嚴謹的)非同步梯度更新方法,成功擴展了模型規模,催生了Word2Vec等詞嵌入技術。Word2Vec不僅讓相關詞語在向量空間中聚集,更揭示了向量方向的語義意義。          隨後,基於神經網路的序列到序列學習(2014年)推動了機器翻譯等任務的發展。對大規模神經網路推理需求的預見,促使Google開發了張量處理單元(TPU),這種專為低精度、高密度線性代數運算設計的硬體,在推理任務上實現了遠超當時CPU/GPU的性能和能效。TPU隨後發展為支援訓練和推理的大規模Pod系統,通過高速互連和光交換網路連線數千晶片,計算能力和能效在七年內分別提升了約3600倍和30倍。          開源框架如TensorFlow、PyTorch和JAX的普及,極大地促進了機器學習社區的發展和應用的廣泛性。2017年,“Attention is All You Need”論文提出的Transformer架構,通過注意力機制擺脫了循環模型的順序限制,以更少的計算量和模型大小實現了更優性能,成為現代大型語言模型(LLM)的基石。自監督學習利用海量無標籤文字(通過預測文字自身,如自回歸或掩碼語言模型)進行訓練,是LLM能力強大的關鍵。視覺Transformer(ViT)則將Transformer架構成功應用於圖像處理,統一了處理不同模態資料的模型基礎。          稀疏模型(如混合專家模型MoE)通過僅啟動模型的一小部分(如2%),在保持巨大模型容量的同時,顯著降低了訓練和推理的計算成本,實現了演算法上的又一次效率飛躍。為管理超大規模分佈式訓練,Google開發了Pathways軟體抽象,它將數萬個TPU晶片虛擬化為單一處理程序下的裝置集,簡化了跨資料中心、跨地域的複雜計算任務編排。          在模型應用層面,“思維鏈”提示鼓勵模型展示推理步驟,顯著提升了其在複雜問題(如數學題)上的精準性。知識蒸餾技術則能將大型“教師”模型的知識有效遷移到小型“學生”模型中,利用教師模型輸出的機率分佈作為更豐富的訓練訊號,使得小型模型在少量資料下也能達到接近大型模型的性能。針對高效推理,研究者們探索了不同的計算對應策略(如權重聚集),發現最優選擇依賴於批次大小和延遲等因素。推測解碼技術利用小型“草稿”模型快速生成候選序列,再由大型模型驗證,通過分攤記憶體頻寬成本來加速推理過程。          這些進展——包括更好的硬體加速器(TPU、GPU)、軟體抽象(Pathways、框架)、模型架構(Transformer、ViT、MoE)、訓練演算法(自監督、蒸餾、RLHF/SFT)和推理技術(CoT、推測解碼)——共同塑造了現代AI模型的能力。          迪恩以Google的Gemini項目為例,說明了這些技術的融合應用。Gemini是Google多部門合作的產物,旨在建構世界領先的多模態模型(處理文字、圖像、音訊、視訊),其開發利用了TPU、Pathways、JAX、Transformer、MoE、蒸餾等技術。Gemini 1.5引入了百萬級token的長上下文能力,使得模型能直接處理和推理大量資訊(如多篇論文或書籍),上下文中的資訊因其高保真度而尤為有效。最新的Gemini 2.5 Pro在編碼、多項基準測試和使用者偏好(如LM Arena ELO評分)上均取得顯著進步,體現了模型在質量與成本帕累托前沿的持續最佳化。          管理如此大規模的項目(涉及全球分佈的數百位研究人員)需要有效的組織結構(按領域劃分團隊)、溝通機制(大量使用聊天工具、正式評審流程)和資料驅動決策(排行榜、基線比較)。擴展計算規模也面臨挑戰,如靜默資料損壞(SDC),需通過監控梯度范數、確定性重放等方法來檢測和緩解硬體錯誤。Gemini展示了強大的能力,如修復程式碼、通過上下文學習掌握冷門語言(卡拉芒語)、處理多模態輸入(視訊轉JSON、視訊摘要)、數位化歷史資料以及高級程式碼生成。          最後,迪恩強調了AI的社會影響,並提及了他參與合著的《塑造AI》論文。該文旨在聯合學界、工業界力量,通過有針對性的研究和政策,主動引導AI發展,以服務公共利益,最大化其積極影響(如普及專業知識),同時警惕並減輕潛在風險(如虛假資訊傳播)。他認為,雖然當前AI在某些複雜任務上仍有不足,且使用者需要學習如何有效利用這些工具(提示工程),但模型能力正快速迭代提升。資料質量至關重要,雖然原始資料似乎尚未枯竭,但更高效地利用資料、讓模型從資料中學習更深層次的理解是重要的研究方向。AI的未來潛力巨大,需要社會各界共同努力,負責任地塑造其發展軌跡。          當前模型能夠將相對簡單的任務分解為少數幾個步驟,並借助有限的工具使用來完成,其精準率大約在60%到70%。然而,這些模型尚無法獨立地將非常複雜的事情分解成大量的子步驟(例如50個或更多),並使用多種複雜工具來完成可能耗時數月的重要任務。目前的技術水平與人們期望達到的、能夠以極高精準率(如95%)在一千個步驟中完成長期工作的理想狀態之間,存在著巨大的鴻溝,這種理想狀態目前肯定無法實現。能力的提升可能是一個連續的過程,而非一蹴而就的突破。未來會看到模型的性能逐漸增強,例如能夠以90%的精準率完成10步操作,這可以視為一個中間發展階段。訪談Bolt.new 首席執行官 Eric Simons 20250423視訊和全文連結:https://www.bilibili.com/video/BV1hELfzuEnd/內容精讀:這篇訪談的核心內容,圍繞著一家名為StackBlitz的公司及其產品Bolt的戲劇性崛起展開,堪稱一個“歷時7年才實現的一夜成名”的故事。公司創始團隊最初的願景,是讓建構全端Web應用像使用Canva或Figma一樣簡單,為此投入了七年時間研發核心技術WebContainer——一個能在瀏覽器標籤頁內運行、毫秒級啟動的作業系統。然而,儘管技術領先,公司在商業化上步履維艱,主要面向開發者的IDE產品並未獲得足夠市場牽引力,年經常性收入(ARR)僅在70萬美元左右徘徊,一度瀕臨解散。          轉折點出現在公司將前沿AI技術與自身核心技術結合,推出了Bolt——一個通過文字提示即可生成應用程式的工具。這一創新徹底改變了公司的命運。Bolt上線後,年經常性收入在短短兩個月內從70萬美元飆升至2070萬美元。令人意外的是,Bolt的主要使用者群體(約60%-70%)並非開發者,而是產品經理、設計師、創業者等非技術背景人士,他們借助Bolt將產品構想直接轉化為實際可運行的軟體,這揭示了AI正在賦能一個全新群體進行軟體創造。          Bolt的成功,很大程度上歸功於其底層WebContainer技術。這項技術使得應用能在使用者本地瀏覽器中快速(百毫秒級啟動)、低成本、高可靠性地運行,避免了傳統雲IDE依賴虛擬機器帶來的延遲、成本和安全問題。使用者只需輸入提示,即可在極短時間內獲得一個功能看似完備的應用原型(如Spotify克隆),體驗流暢且“神奇”,入門門檻極低,甚至可以輕鬆部署到線上。          公司強調,早期長達七年的技術積累和社群建設雖未直接帶來商業成功,卻為Bolt的爆發奠定了堅實基礎。WebContainer技術是Bolt的核心競爭力,而多年積累的社群和品牌聲譽,使得Bolt僅憑一條推文就能迅速引爆市場。艱難時期學到的精益營運經驗,使得僅有15-20人的小團隊能夠有效應對使用者和收入的爆炸式增長,保持了高度的敏捷性和效率,例如僅用3名支援人員服務超過6萬付費客戶。          展望未來,公司認為隨著AI能力的提升(如更可靠的程式碼生成),產品將進一步簡化,可能隱藏更多面向開發者的技術細節,以更好地服務非技術使用者,同時仍為專業開發者提供深度定製的能力,如同一個適用於專業人士和普通使用者的“電鑽”。公司正在推出Bolt Builders計畫,連接使用者與專家解決開發難題,並可能將服務延伸至行銷、分銷等公司建立的全流程環節。他們認為,在一個產品建立成本趨近於零的時代,競爭優勢將更多地體現在品牌、分銷管道和卓越的客戶服務上。最終,這種由AI驅動的軟體開發民主化趨勢,將為消費者帶來更多競爭和更好的產品。公司也計畫在近期開始投入付費使用者獲取,以擴大這一顛覆性技術的認知度和影響力。✧ ✧ ✧ ✧ ✧如何最大限度地利用Vibe Coding - YC創業學校 20250425視訊和全文連結:https://www.bilibili.com/video/BV1p1jAzTEKn/內容精讀:近一個月來,我嘗試在幾個副項目中使用“氛圍編碼”,發現效果顯著,只要願意嘗試並掌握最佳實踐,就能取得可衡量的進步。如同幾年前的提示工程,人們每周都在發現新方法,而最佳技術往往與專業軟體工程師所用的相似。有人認為這已是軟體工程而非“氛圍編碼”,但這不重要,關鍵在於如何利用這些工具獲得最佳結果。          一些利用AI工具的建議包括:當AI IDE陷入困境時,嘗試直接訪問LLM網站介面,貼上程式碼提問或許能解決問題。可以同時使用Cursor(速度快,適合前端和全端)和Windsurf(思考時間長)處理同一項目,利用等待一個工具思考的時間在另一個工具上工作,甚至讓它們基於相同上下文生成同一功能的不同迭代版本供選擇。將AI視為一種新的程式語言,用自然語言程式設計,因此需要提供非常詳細的背景和資訊。推薦從測試用例入手,手工編寫測試用例作為防護欄,讓LLM在此基礎上自由生成程式碼,看到測試通過即可。在將任務交給AI編碼工具前,先在純LLM中規劃好範圍和架構至關重要。要監控LLM是否陷入困境,不斷重新生成程式碼或需要反覆貼上錯誤資訊,此時應退一步分析根本原因,可能是上下文不足或模型能力限制。          對於初學者,推薦Repl.it或Lovable這類提供可視化介面的工具,它們便於直接在程式碼中嘗試新UI,許多產品經理和設計師已開始這樣做,速度快於在Figma中設計。但若需精確修改後端邏輯,這類工具可能力不從心。對於有編碼經驗者,可以直接使用Windsurf、Cursor或ClaudeCode等工具。首要步驟不是直接編碼,而是與LLM合作制定一份全面的計畫(存於Markdown檔案並持續參考),然後逐節實施,每完成一節進行檢查、測試並執行Git提交,再讓AI標記計畫完成的部分,逐步推進而非試圖一次完成。版本控制至關重要,務必虔誠地使用git。儘管某些工具有恢復功能,但尚不可靠。每次開始新功能前確保Git狀態乾淨,以便AI偏離軌道時能回滾到可用版本。若AI不工作,不要猶豫使用`git reset head --hard`重設後重新開始。多次提示AI修復同一問題往往導致程式碼質量下降,因為它傾向於堆疊糟糕的程式碼層。發現有效解決方案後,最好是`git reset`,然後基於乾淨的程式碼庫將該方案輸入給AI。          接下來應編寫測試,或讓LLM編寫測試,它們在這方面做得不錯,但通常默認編寫低級單元測試。推薦編寫高等級整合測試,模擬使用者端到端的操作流程,確保功能正常工作。在開發下一個功能前完成測試,因為LLM有更改無關邏輯的壞習慣,測試套件能及早發現這些回歸。          記住LLM不僅用於編碼,也可用於非編碼任務,如組態DNS伺服器、設定Heroku託管(充當DevOps工程師),或建立網站favicon並編寫指令碼調整尺寸格式(充當設計師)。遇到錯誤時,直接將錯誤資訊(來自伺服器日誌或瀏覽器控制台)貼上給LLM通常足以讓其識別並修復問題,無需過多解釋。未來,期待編碼工具能自動攝取錯誤,無需手動複製貼上。對於複雜錯誤,可讓LLM先思考多種可能原因,每次修復嘗試失敗後用`git reset`重設,避免累積無用程式碼。加入日誌記錄也很有幫助。如果遇到困難,嘗試切換不同模型(如Claude Sonnet 3.7、OpenAI模型、Gemini),它們各有擅長。找到棘手錯誤的根源後,建議重設所有更改,在乾淨程式碼庫上給出非常具體的修復指令。          為LLM編寫指令(存放於各工具特定的規則檔案中)能顯著提高效果,有些創始人為此編寫了數百行指令。關於指令內容網上有很多建議。對於文件訪問,線上訪問效果不一,建議下載特定API的文件到本地子目錄,讓LLM在本地訪問,並在指令中明確要求先閱讀文件。LLM也可作為老師,讓它逐行解釋程式碼實現,是學習新技術的好方法。          處理複雜新功能時,建議先在乾淨程式碼庫中將其作為獨立項目開發,獲得一個小型可工作的參考實現(或下載GitHub上的參考實現),然後讓LLM參照該實現在主程式碼庫中重新實現。保持檔案小巧和模組化對人類和AI都有利,未來可能向更模組化或基於服務的架構轉變,清晰的API邊界讓LLM更容易工作。          技術堆疊的選擇會影響AI表現。使用Ruby on Rails效果很好,可能是因為其擁有大量完善約定和一致的高品質線上訓練資料。相比之下,Rust或Elixir等較新語言的訓練資料較少,效果可能稍遜。          利用截圖貼上到編碼代理中,可用於展示UI錯誤或借鑑其他網站的設計靈感。語音輸入(如使用Aqua)是另一種高效互動方式,能以遠超打字的速度輸入指令,且AI對輕微語法錯誤容忍度高。          程式碼可運行且測試到位後,應經常重構。可以請LLM識別程式碼庫中重複或適合重構的部分。這符合專業軟體開發實踐,保持檔案小巧模組化有助於理解。          持續進行實驗至關重要,該領域技術每周都在變化。嘗試不同模型(如Gemini擅長規劃,Sonnet 3.7擅長實現,GPT-4.1目前表現尚不突出),找出它們在不同場景下的優劣勢,並根據需要選用。 (Web3天空之城)
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題