剛剛,AI大牛吳恩達官宣創業公司新成果——Agentic Object Detection(Agent目標檢測)。
無需標註訓練資料,模型僅通過推理就能在圖片中定位指定物體。
舉個栗子,在一張長滿草莓的圖片中,提示詞為“未成熟的草莓”,AI模型立馬分分鐘幫你找出。
據吳恩達介紹,以前視覺AI要想識別物體,需要在大量標註資料上訓練,而現在AI只需瞥一眼圖片,短暫思考後(當前約20~30s)就能立刻輸出正確內容。
而通過推理實現零樣本標記的方法也令一眾網友感到興奮,未來應用潛力巨大。
目前這個AI工具人人免費可玩(也為開發者提供了API),僅過去幾小時,一大波網友試玩已新鮮出爐~
還是先來看下吳恩達的詳細介紹。
在他看來,Agentic Object Detection改變了目標檢測的工作流程。
傳統視覺AI的目標檢測,通常需要繪製大量邊框來標註資料,然後在神經網路上訓練。
而現在,新的AI系統將耗時耗力的標註過程省略了。它將感知規劃行動等都糅合在一起,通過呼叫一系列工具,以及對任務長度進行推理,最終實現了零樣本標記輸入輸出。
按他的說法,這就好比“睜眼版”o1和DeepSeek R1,看一眼,然後立即思考作答。
介紹過程中,除了一開始提到的草莓識別,他還展示了其他幾個demo(請大家來找茬doge)。
planes with two engines(帶兩個引擎的飛機)
再比如在超市貨架上找出某品牌的麥片。
Kellogg’s branded cerea
當然更實用的場景是,假如在家裡翻箱倒櫃找不著東西了,召喚它來幫忙(媽媽:別整天媽媽媽)。
除此之外,網友們也開始集體交作業,整體看下來大部分都成功了。
簡單的有,找出板球運動中的擊球手(batsman)。
或者檢測出特定程序項目。
再比如找出航拍視角下的荒漠綠植。
當然,還有類似下面這樣的日常生活。AI成功找到了一大盤食物中的壽司,不過在找貨架上的汽水時,網友反饋只有詳細到芬達這個品牌名才有可能成功,單純提示“汽水”nonono。
更難的有,分別識別出美式足球中的攻守兩方隊員(上下驗證能對得上)。
甚至也能快速找出非常迷你的飛鏢。
不過,也有網友分享了少部分翻車案例。
同一張圖,當網友試圖找出戴帽子的人,AI明顯漏了,一眼就能看到23號隊員。
而且也無法識別圖中的矩形。(地面,看看我)
經網友總結,顯然Agentic Object Detection對一些常見問題(如遮擋、光線過曝等)還無法良好適應。
正如我們前面提到的草莓,有火眼金睛的網友發現,AI誤將一個光線不佳的成熟草莓識別為“未成熟”。
不過吳恩達也早已提到,目前這個還只是初步嘗試,檢測質量、回答速度等後續還會進行最佳化。
眾所周知,吳恩達從2017年離開百度後(百度前首席科學家)便投身AI創業。
目前已知的人工智慧項目有3個。
2017年6月,他官宣了第一個創業項目Deeplearning.ai,主要和教育相關(他目前還是斯坦福大學CS客座教授)。
這是一個AI線上教育平台,通過提供深度學習課程和資源,幫助人們學習AI技術。
在這之後,他又推出了第二個創業項目Landing.ai,專注於幫助企業實現人工智慧轉型。
從當時的介紹來看,其目標是通過AI技術提升企業效率,解決製造業中的痛點問題。例如提高生產效率、最佳化供應鏈管理、減少浪費等。
後來Landing.ai還和富士康等企業建立了戰略合作關係,共同開發AI技術、人才和系統。
而這一次的Agentic Object Detection,從官宣視訊來看即是出自該項目。
這也透露了,這一新工具大機率也是面向B端應用。
也幾乎是同時,他在2018年成立了第三個創業項目AI Fund,顯然這是一家專注於投資人工智慧初創企業的投資基金。
當時資金規模達到1.75億美元,投資者包括NEA(New Enterprise Associates)、紅杉和軟銀等一眾知名機構。
而近來,他更是對Agent智能體押下重注。
早在去年年初,他曾通過Deeplearning.ai平台預言:
超越下一代基礎模型,Agent工作流將推動AI巨大進步。
當時他就提到,就像大語言模型(LLMs)在零樣本模式下工作(提示模型逐個生成最終輸出token,而不修改其工作),Agent在執行一系列步驟(如規劃、執行、反思等)後可能比單次產生更好的效果。
現在,是時候逐步檢驗一系列新成果了。
所以,你能想到這項技術還有那些潛在應用嗎? (量子位)