巨額算力投入成為技術和效益優(yōu)化的瓶頸,技術路徑破局迫在眉 睫。從效益端看,基于 Transformer 架構的模型在訓練計算量(training FLOPs)達到一定量級時,模型性能才出現(xiàn)向上的“拐點”,因此在 大模型訓練任務中,算力成為必須的基礎性資源。但隨著模型越來 越大,算力成本越來越高,成本飆升源于模型復雜度和數(shù)據(jù)量攀升 對計算資源的需求。Anthropic 首席執(zhí)行官表示,三年內(nèi) AI 模型的 訓練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓 練投入一定程度減緩了技術進步和效益提升,因此技術路徑破局尤 為關鍵。當前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實踐。
MoE 框架是對 Transformer 架構的優(yōu)化,關鍵在于路由策略及微 調(diào)。其能在不給訓練和推理階段引入過大計算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型語言模型(LLM)中,每個 混合專家(MoE)層的組成形式通常是𝑁個“專家網(wǎng)絡”搭配一個“門 控網(wǎng)絡”G。門控函數(shù)(也被稱路由函數(shù))是所有 MoE 架構的基礎 組件,作用是協(xié)調(diào)使用專家計算以及組合各專家的輸出。根據(jù)對每 個輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機制是激活部分專家,而密集式是激活所有專 家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。
MoE 在 NLP、CV、語音識別以及機器人等領域表現(xiàn)出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著。
OpenAI o1 基于“思維鏈”的創(chuàng)新推理模式,學會人類“慢思考”, 專業(yè)領域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于擁有人類“慢思考”的特質:系統(tǒng)性、邏輯性、批判性、 意識性。在響應用戶提出的難題之前,OpenAI o1 會產(chǎn)生一個縝密 的內(nèi)部思維鏈,進行長時間的思考,完善思考過程、意識邏輯錯誤、 優(yōu)化使用策略、推理正確答案。這種深度思考能力在處理數(shù)學、編 程、代碼、優(yōu)化等高難度問題時發(fā)揮重要作用,能夠進行博士級別 的科學問答,成為真正的通用推理。推理側的應用模式創(chuàng)新有望在 更為專業(yè)的領域創(chuàng)造價值應用,從通用的偏娛樂領域逐步過渡到偏 嚴肅的專業(yè)領域場景,AI 大模型的真正實踐價值有望進一步釋放, 因此 o1 模型提供的新應用范式和能力維度在大模型技術路線演繹 中,具有里程碑意義。
商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤 迎賓機器人 移動機器人底盤 講解機器人 紫外線消毒機器人 大屏機器人 霧化消毒機器人 服務機器人底盤 智能送餐機器人 霧化消毒機 機器人OEM代工廠 消毒機器人排名 智能配送機器人 圖書館機器人 導引機器人 移動消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |