#獎勵
特斯拉在歐洲銷量崩了!但不影響馬斯克獲得9600萬股股票獎勵
美國證交會檔案顯示,特斯拉批准向馬斯克授予9600萬股股票獎勵,馬斯克將按每股23.34美元的價格購買已獲授股票。特斯拉在歐洲市場正遭遇前所未有的銷量滑鐵盧。即便推出了升級版 Model Y,其在歐洲主要市場的銷量仍加速惡化,這已是特斯拉在歐洲地區銷量連續第七個月下滑。從具體資料來看,德國聯邦機動車管理局 KBA 的資料顯示,7 月特斯拉在德國僅售出 1110 輛汽車,同比下降 55.1%;今年前 7 個月累計銷量為 1 萬輛,較去年同期更是暴跌 57.8%。英國汽車製造商和貿易商協會的資料也不容樂觀,特斯拉 7 月在英國的註冊量從去年同期的 2462 輛降至 987 輛,降幅高達 60%。此外,特斯拉在其他歐洲國家的表現同樣慘淡。7 月,其在法國的註冊量下降 27% 至 1307 輛;在瑞典暴跌 86%,僅為 163 輛;在比利時下降 58% 至 460 輛。而 1 月至 7 月,特斯拉在義大利的新車註冊量較 2024 年同期也下降了 34.74%。不過,西班牙和挪威市場出現了難得的亮點,註冊量分別增長 27% 和 83%。更令人咋舌的是,特斯拉 7 月在英、德、法、瑞四國的銷量之和僅為 3567 輛,這一數字甚至不及中國市場的零頭。據乘聯分會 8 月 4 日消息,7 月特斯拉中國批發銷量為 67886 輛,環比下降 5.2%,6 月批發銷量為 7.1 萬輛。特斯拉當前面臨的挑戰不僅來自激烈的市場競爭,CEO 馬斯克的政治立場爭議也帶來了不小的負面影響。電動車智能報告 6 月的研究顯示,消費者對馬斯克的好感度下降 26%,對特斯拉品牌的好感度下降 32%,未來購買特斯拉的可能性也降低了 32%。為應對這些挑戰,8 月 4 日,特斯拉公司董事會批准了一項新的薪酬協議,授予埃隆・馬斯克 9600 萬股,價值超 290 億美元。此前,這位億萬富豪首席執行官曾威脅,若無法獲得更多控制權,將離開這家電動汽車製造商。特斯拉在 8 月 4 日提交的檔案中表示,該決定由一個特別委員會提議,隨後經董事會批准。公司在致股東的信中稱:“我們清楚地認識到,埃隆的商業項目、興趣以及其他事務對其時間和精力的要求是廣泛而多樣的,包括他在 xAI、SpaceX、Neuralink 等的領導職務。如今,留住埃隆比以往任何時候都更為重要。我們相信,這筆獎勵會讓埃隆留在特斯拉…… 讓他重獲動力、凝聚重心,推動特斯拉邁入下一個增長時代。”根據倫敦證交所 LSEG 測算的資料,新的股票獎勵將使馬斯克持有的特斯拉股份從目前的 12.7% 增至 15% 以上。外界分析認為,賦予馬斯克對公司更大控制權的舉動表明,董事們仍然認為他最適合應對特斯拉未來幾年不斷增長的挑戰。此舉旨在讓馬斯克專注於這家電動汽車製造商,因為它正從主要汽車業務轉向無人駕駛計程車和機器人技術領域。在二級市場上,截至美股周二收盤,特斯拉股價跌 0.17%。今年以來,公司股價已下跌 23.56%,明顯跑輸大盤基準。 (洞察3C前沿)
剛剛,馬斯克獲得300億美元股票獎勵
2025年8月4日,特斯拉公司宣佈,其董事會已批准向首席執行官埃隆·馬斯克授予9600萬股限制性股票,價值約300億美元。這一“臨時獎勵”旨在激勵馬斯克繼續領導特斯拉,並確保其專注於公司在電動汽車向人工智慧和機器人技術轉型的關鍵階段。此舉是在特拉華州法院持續審理馬斯克2018年價值超500億美元的薪酬方案訴訟背景下做出的。根據特斯拉向美國證券交易委員會(SEC)提交的檔案,這份獎勵由特斯拉董事會特別委員會推薦,委員會成員包括董事會主席羅賓·丹霍姆(Robyn Denholm)和獨立董事凱瑟琳·威爾遜-湯普森(Kathleen Wilson-Thompson)。檔案指出,馬斯克需在未來兩年內持續擔任特斯拉高級領導職務,且支付每股23.34美元的購買價格(與2018年薪酬方案的行權價相同),才能獲得這些股票。此外,股票在授予後需持有五年,除非用於支付稅款或購買價格。若特拉華州法院最終恢復2018年的薪酬方案,此次獎勵將被取消或抵消,以避免“重複領取”。特斯拉在致股東的信中表示,此次獎勵是對馬斯克過去貢獻的認可,也是對2018年薪酬協議的“誠意”首付款。信中指出,2018年薪酬方案為特斯拉帶來7350億美元的市值增長,儘管僅產生23億美元的股票薪酬費用。然而,該方案因被特拉華州法院裁定對股東不公而被取消,目前正處於上訴階段。特斯拉強調,留住馬斯克對公司至關重要,尤其是在人工智慧人才競爭日益激烈、特斯拉業務轉型的關鍵時刻。此獎勵還反映了特斯拉對馬斯克領導力的依賴。馬斯克不僅是特斯拉的最大股東,持有約13%的股份,還領導著SpaceX、xAI、Neuralink和X公司等多家企業。特斯拉董事會表示,儘管馬斯克有廣泛的商業興趣,但此獎勵將激勵他繼續專注於特斯拉,帶領公司應對電動車市場競爭加劇和品牌忠誠度下降等挑戰。市場對這一消息反應積極,特斯拉股價在周一早盤交易中上漲超2%。然而,今年以來,由於馬斯克的政治立場、電動車市場需求放緩以及產品線老化等因素,特斯拉股價已下跌約25%。分析人士認為,此次獎勵有助於消除股東對馬斯克領導承諾的擔憂。Wedbush分析師丹·艾夫斯(Dan Ives)表示:“這一獎勵將確保馬斯克至少到2030年繼續擔任特斯拉首席執行官,化解了特拉華州訴訟帶來的不確定性。”特斯拉還計畫在11月6日的年度股東大會上提交一項長期的首席執行官薪酬方案,以進一步激勵馬斯克並確保其對公司的長期承諾。董事會強調,馬斯克的領導力不僅是公司成功的關鍵,也是吸引和留住頂尖人才的重要因素。此舉引發了部分爭議。一些投資者擔心9600萬股的授予可能導致股票稀釋,影響短期至中期的股東利益。 此外,馬斯克近期因政治活動引發的品牌爭議也為公司帶來壓力。S&P Global Mobility的資料顯示,自馬斯克支援美國總統唐納德·川普後,特斯拉的客戶忠誠度有所下降。特斯拉表示,此次獎勵是公司在人工智慧和機器人領域持續發展的戰略舉措的一部分。馬斯克此前曾表示,特斯拉的未來在於機器人計程車和人形機器人,這一定位使公司逐漸從傳統汽車製造商轉向人工智慧和機器人技術公司。隨著特斯拉繼續其轉型之旅,馬斯克的領導力和此次巨額股票獎勵無疑將成為市場關注的焦點。股東們將在11月的年度會議上進一步瞭解特斯拉對馬斯克未來薪酬的計畫,而特拉華州法院的判決也將對這一獎勵的最終命運產生深遠影響。 (北美商業見聞)
DeepSeek R2來了?全新推理時Scaling論文聯手清華震撼發表!
Dee pSeek新論文來了!在清華研究者共同發布的研究中,他們發現了獎勵模型推理時Scaling的全新方法。DeepSeek R2,果然近了。最近,DeepSeek和清華的研究者發表的這篇論文,探討了獎勵模型的推理時Scaling方法。論文地址:https://arxiv.org/abs/2504.02495現在,強化學習(RL)已廣泛應用於LLM的大規模後訓練階段。透過RL激勵LLMs的推理能力表明,採用合適的學習方法,就有望實現有效的推理時可擴展性。然而,RL面臨的一個關鍵挑戰,就是在可驗證問題或人工規則之外的多種領域中,為LLMs獲得準確的獎勵訊號。是否有可能透過增加推理計算資源,來提升通用查詢情境下獎勵建模(RM)的能力,也就是通用RM在推理階段的可擴展性呢?DeepSeek和清華的研究者發現,在RM方法上採用點式生成式獎勵建模(Pointwise Generative Reward Modeling, GRM),就能提升模型對不同輸入類型的靈活適應能力,並具備推理階段可擴展的潛力。為此,他們提出一種自我原則點評調優(Self-Principled Critique Tuning, SPCT)的學習方法。透過線上RL訓練促進GRM生成具備可擴展獎勵能力的行為,即能夠自適應生成評判原則並準確產生點評內容,從而得到DeepSeek-GRM模型。他們提出了DeepSeek-GRM-27B,它是基於Gemma-2-27B經過SPCT後訓練的。可以發現,SPCT顯著提高了GRM的品質和可擴展性,在多個綜合RM基準測試中優於現有方法和模型。研究者也比較了DeepSeek-GRM-27B與671B的更大模型的推理時間擴展性能,發現它在模型大小上的訓練時間擴展性能更好。另外,他們也引進一個元獎勵模型(meta RM)來引導投票過程,以提升擴展效能。整體來說,研究者的三個貢獻如下。1.提出了一種新方法-自我原則點評調優(SPCT),用於推動通用獎勵建模在推理階段實現有效的可擴展性,最終構建出DeepSeek-GRM系列模型。同時引入了元獎勵模型(meta RM),進一步提升推理擴展性能。2.SPCT顯著提升了GRM在獎勵品質和推理擴展性能方面的表現,超過了現有方法及多個強勁的公開模型。3.將SPCT的訓練流程應用於更大規模的LLM,並發現相較於訓練階段擴大模型參數量,推理階段的擴展策略在效能上更具優勢。SPCT受到初步實驗結果的啟發,研究者為點式生成式獎勵模型(pointwise GRM)開發了一種新穎的方法,使其能夠學習產生具有適應性和高品質的原則,以有效指導評論內容的生成。此方法稱為自我原則點評調優(Self-Principled Critique Tuning,SPCT)。如圖3所示,SPCT包括兩個階段。1.拒絕式微調(rejective fine-tuning)作為冷啟動階段2.基於規則的線上強化學習(rule-based online RL),透過提升生成的原則和評論內容來強化通用獎勵的生成過程。另外,SPCT還可以促進GRM在推理階段的可擴展行為。將「原則」從理解轉向生成研究者發現,適當的原則可以在一定標準下引導獎勵生成,這對於生成高品質獎勵至關重要。然而,在大規模通用獎勵建模中,如何有效產生這些原則仍是一個挑戰。為此,他們提出將「原則」從一種理解過程解耦出來,轉變為獎勵生成的一部分,也就是說,不再將原則視為預處理步驟,而是納入獎勵生成流程中。形式化地說,當原則是預先定義時,原則可用於引導獎勵生成。研究者讓GRM自行產生原則,並基於這些原則產生點評內容,形式化表達如下:其中,p_θ是用來產生原則的函數,由參數θ表示,且與獎勵產生函數r_θ共享同一個模型架構。這項轉變使原則能夠根據輸入問題及其回答內容進行動態生成,從而使獎勵生成過程更加自適應。此外,透過對GRM進行後訓練,可進一步提升所生成原則與對應點評內容的品質與細緻度。當GRM能夠在大規模條件下產生多樣化、高品質的原則時,其輸出的獎勵將更加合理且具備更高的細粒度,而這項能力正是推理階段可擴展性的關鍵所在。基於規則的強化學習為了同時優化GRM中的原則與評論內容的生成,研究者提出了SPCT方法,它結合了拒絕式微調(rejective fine-tuning)與基於規則的強化學習(rule-based RL)。其中,拒絕式微調作為冷啟動階段。拒絕式微調(Rejective Fine-Tuning,冷啟動)這一階段的核心思想是讓GRM適應不同輸入類型,並以正確的格式產生原則與點評內容。與以往工作混合使用單一、成對和多個回答的RM資料並使用不同格式不同,研究者採用了點式GRM(pointwise GRM),以在相同格式下靈活地對任意數量的回答進行獎勵生成。在資料建構方面,除了通用指令資料外,研究者還從具有不同回答數量的RM資料中採樣預訓練GRM在給定查詢與回答下的軌跡。對於每個查詢及其對應的回答,研究者執行了N_RFT次採樣。他們統一了拒絕策略:若模型預測的獎勵與真實獎勵不一致(錯誤),或該組查詢與答案在所有N_RFT次採樣中全部預測正確(太簡單),則拒絕該軌跡。形式化地,令r_i表示第i個回答y_i對查詢x的真實獎勵,預測得到的點式獎勵被認為是正確的,當且僅當:此條件保證真實獎勵中只有一個最大值。然而,如同以往研究所指出的,預先訓練的GRM在有限採樣次數下,往往難以為部分查詢及其答案產生正確的獎勵。因此,研究者引入了提示式採樣(hinted sampling):將作為提示,附加到GRM的提示語中,以期提高預測獎勵與真實獎勵的一致性。可以發現,與先前的研究不同,提示採樣的軌跡在某些情況下會捷徑式簡化點評生成,特別是在推理任務中。這顯示:線上強化學習對GRM仍是必要的,並具有潛在優勢。基於規則的強化學習在SPCT的第二階段,研究者使用基於規則的線上強化學習對GRM進一步微調。具體而言,我們採用了GRPO的原始設定,並使用基於規則的結果獎勵(rule-based outcome rewards)。在rollout過程中,GRM根據輸入查詢與回答產生原則與點評,然後提取預測獎勵並透過準確性規則與真實獎勵進行比較。與DeepSeek-AI不同的是,研究者不再使用格式獎勵,而是採用更高的KL懲罰係數,以確保輸出格式正確並避免嚴重偏差。形式化地,對於第i個輸出o_i(給定查詢x和回答),其獎勵定義為其中,點數獎勵是從o_i中提取的。此獎勵函數鼓勵GRM透過線上最佳化產生的原則與點評內容,正確地區分最優回答,從而提升推理階段的可擴展性。此外,此獎勵訊號可無縫對接任何偏好資料集與標註的LLM回答。SPCT的推理時Scaling為了進一步提升DeepSeek-GRM在產生通用獎勵上的效能,研究團隊探索如何利用更多的推理計算,透過基於採樣的策略來實現有效的推理時擴展。透過產生獎勵進行投票逐點GRM(pointwise GRMs)投票過程定義為將獎勵求和:因為S_(i,j)通常設定在一個小的離散範圍內(例如{1,...,10}),所以投票過程實際上將獎勵空間擴大了k倍,讓GRM能產生大量原則(principles),從而提升最終獎勵的品質和細膩度。直觀來說,如果把每個原則看作一種判斷視角的代表,那麼更多的原則就能更準確地反映真實分佈,進而帶來擴展的有效性。值得一提的是,為了避免位置偏差並增加多樣性,研究人員在採樣前會對答案進行隨機打亂。元獎勵模型引導投票DeepSeek-GRM的投票過程需要多次採樣,但由於隨機性或模型本身的侷限性,產生的某些原則和評論可能會出現偏見或品質不高。因此,研究團隊訓練了一個元獎勵模型(meta RM)來引導投票過程。這個meta RM是一個逐點標量模型,訓練目標是判斷DeepSeek-GRM產生的原則和評論是否正確。引導投票的實現很簡單:meta RM為k個採樣獎勵輸出元獎勵(meta rewards),然後從這些獎勵中選出前k_meta(k_meta ≤ k)個高質量的獎勵進行最終投票,從而過濾掉低質量樣本。獎勵模型結果不同方法和模型在RM基準測試上的整體結果如表2所示。結果顯示,DeepSeek-GRM-27B在整體性能上超過了基線方法,並且與一些強大的公開RM(如Nemotron-4-340B-Reward和GPT-4o)表現相當。如果透過推理時擴展(inference-time scaling),DeepSeek-GRM-27B還能進一步提升,達到最佳整體結果。不同方法和模型在RM基準測試上的整體結果。底線數字表示最佳性能,粗體數字表示基線方法和本文方法中的最佳性能,斜體字表示標量或半標量RM。對於meta RM指導的投票,k_meta = 1/2k推理時擴展性不同方法的推理時擴展結果如表3所示,整體趨勢如圖1。研究人員發現,在最多8個樣本的情況下,DeepSeek-GRM-27B的效能提升最高,超越了貪婪解碼和取樣結果。隨著推理計算量增加(最多32個樣本),DeepSeek-GRM-27B展現出進一步提升效能的潛力。 meta RM也在每個基準測試中證明了其過濾低品質軌跡的有效性。總之,SPCT提升了GRM的推理時擴展性,而meta RM進一步增強了整體擴展效能。消融研究表4展示了所提SPCT不同組件的消融研究結果。令人驚訝的是,即使沒有使用拒絕採樣的評論資料進行冷啟動,經過線上強化學習(online RL)後,通用指令調整的GRM仍然顯著提升(66.1 → 68.7)。此外,非提示採樣似乎比提示採樣更重要,可能是因為提示採樣軌跡中出現了捷徑。這顯示線上訓練對GRM的重要性。與先前研究一致,研究團隊確認通用指令資料對GRM效能至關重要。他們發現,原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時擴展性能都至關重要。在推理時擴展中,meta RM指導的投票在不同k_meta下表現出穩健性。推理與訓練成本擴展研究團隊進一步研究了DeepSeek-GRM-27B在不同規模LLM後訓練下的推理時和訓練時擴展表現。模型在Reward Bench上測試,結果如圖4所示。他們發現,使用32個樣本直接投票的DeepSeek-GRM-27B可以達到與671B MoE模型相當的性能,而meta RM指導的投票僅用8個樣本就能取得最佳結果,證明了DeepSeek-GRM-27B在推理時擴展上的有效性,優於單純擴大模型規模。此外,他們用包含300個樣本的降採樣測試集測試了DeepSeek-R1,發現其性能甚至不如236B MoE RFT模型,這表明延長推理任務的思維鏈並不能顯著提升通用RM的性能。 (新智元)