谁有黄色在线观看,2018天天拍拍天天爽视频,大鸡巴嗯嗯啊嗯啊嗯啊嗯啊嗯啊日逼视频,日韩va免费线上看

首頁 / 

智譜發布集深度研究和操作執行于一體的Agent,背后推理模型媲美DeepSeek-R1

©原創 作者: 譚妮妮 發表時間:2025-04-01 10:29
分享到:

今天,智譜在中關村論壇上正式發布AutoGLM沉思,這一全新智能體不僅具備深度研究能力(DeepResearch),還能實現實際操作(Operator),真正推動AIAgent進入“邊想邊干”的階段。

AutoGLM沉思的技術演進路徑包括:GLM-4基座模型→GLM-Z1推理模型→GLM-Z1-Rumination沉思模型→AutoGLM模型。其中核心鏈路的模型和技術,我們將于4月14日正式開源,以推動行業生態發展。

“讓機器像人一樣思考”,智譜始終專注于AGI的基座模型研發,目前已經探索到L3-AgenticLLM階段。在行業生態方面,智譜堅持和行業伙伴共創,用其在大模型研發上的積累幫助行業伙伴成功,合力做出成功的大模型應用。智譜也積極推動中國AI解決方案出海,幫助“一帶一路”國家構建自主、可控、無幻覺的國家級/區域級自主大模型。

      AutoGLM沉思

在AIAgent的發展過程中,智譜始終在不斷探索和創新。從最早推出具備FunctionCall能力的智譜清言(2023.10),到率先上線支持智能體編排的GLMs(2024.1),再到推出全球首個設備操控智能體AutoGLM(2024.10),智譜一直引領AIAgent上界的探索。

今天,智譜推出全新的AutoGLM沉思模型,全球首個集深度研究與實際操作能力于一體的Agent。這是自主智能體技術的一次重要進步,也是設備操控智能體的進一步升級。

AutoGLM沉思體現了智譜對AIAgent的核心理解:讓機器不僅能夠思考,還能主動行動,實現“邊想邊干”的目標。

這一能力的實現依賴于三個關鍵特性:

深度思考:能夠模擬人類在面對復雜問題時的推理與決策過程。

感知世界:能夠像人一樣獲取并理解環境信息。

工具使用:能夠像人一樣調用和操作工具,完成復雜任務。

AutoGLM沉思融合了以上三大能力。與OpenAI的DeepResearch不同,它不僅能深入研究,還能真正執行任務,推動AIAgent從單純的思考者,進化為能交付結果的智能執行者。

為什么叫AutoGLM沉思,因為在AutoGLM沉思背后的模型,是我們全新推出的Agent大腦——沉思模型,即通過強化學習,讓模型學會自我批評、反思、甚至沉思,并通過更長的深度思考時間換取更優的效果。沉思突破了實時聯網搜索、動態工具調用、深度分析和自我驗證,實現真正的長程推理和任務執行。

目前,AutoGLM沉思在智譜清言PC客戶端上線,用戶可免費體驗其研究能力和操作能力。此次發布的為preview版本,核心支持research場景;在未來兩周,我們將進一步擴展更多智能體執行能力。包括推出“虛擬機”版本,進一步增強AIAgent的實際落地能力。

沉思功能,目前已經正式上線智譜清言網頁端、PC端和手機App,免費、不限量地開放給大家。這也是國內首個正式開放的DeepResearch功能。


        GLM系列模型

「AutoGLM沉思」模型的背后,是智譜自主研發的全棧大模型技術,融合了GLM-4的通用能力、GLM-Z1的反思能力、GLM-Z1-Rumination的沉思能力,以及AutoGLM的自動執行能力。


      新版基座模型

基于最新的技術積累,我們重新訓練了一個320億參數的基座模型GLM-4-Air-0414,在預訓練階段加入了更多的代碼類、推理類數據,并在對齊階段針對智能體能力進行了優化,模型在工具調用、聯網搜索、代碼等智能體任務上的能力得到大大加強。

GLM-4-Air-0414以32B參數量比肩更大參數量的國內外主流模型,這使得模型在適配智能體任務方面特別有效。這是因為智能體任務往往涉及多輪復雜交互,32B的參數量使得GLM-4-Air-0414能快速執行復雜任務,為AI智能體的真正大規模落地應用提供了堅實基礎。


      新版推理模型

基于GLM-4-Air-0414,智譜引入了更多推理類數據,并在對齊階段深度優化了通用能力,推出了全新的深度思考模型GLM-Z1-Air。

在性能表現上,可以與DeepSeek-R1(671B,激活37B)媲美。我們在AIME24/25、LiveCodeBench、GPQA等基準測試中對GLM-Z1-Air進行了評估,評估結果顯示GLM-Z1-Air展現了較為強大的數理推理能力,為更多復雜任務的解決提供了支持:

在推理速度上,GLM-Z1-Air相比R1提升了8倍,成本可以降低至1/30,實現高性能與高性價比的雙重突破。

此外,GLM-Z1-Air可在消費級顯卡上運行。為了更進一步解放開發者在硬件方面的限制。

此外,我們也在MAAS平臺上將免費模型GLM-4-Flash的基座版本更新至GLM-4-Flash-0414,并推出了對應的推理版本GLM-Z1-Flash,在保留大部分效果的情況下更輕量級、更高速,完全免費調用,以適用于更廣泛的應用場景。

沉思模型

基于GLM-Z1,我們通過擴展強化學習訓練,提升了模型結合工具使用完成長程推理能力,訓練出沉思模型GLM-Z1-Rumination。

該模型突破了傳統AI單純依賴內部知識推理的局限,創新性地結合實時聯網搜索、動態工具調用、深度分析和自我驗證,形成完整的自主研究流程:

實時搜索:主動獲取最新信息,突破信息孤島。

深度分析:進行多角度邏輯推理,避免單一思維路徑。

動態驗證:不斷修正假設,提高研究的準確性與邏輯性。

GLM-Z1-Rumination能夠主動理解用戶需求,在復雜任務中不斷優化推理、反復驗證與修正假設,使研究成果更具可靠性與實用性。相比于傳統的推理模型,我們期待沉思模型引領AI助手進入一個“高智商”到“高智商+高自主”的階段,能夠自主完成更復雜、更深入的研究任務。

      AutoGLM

智譜的AutoGLM系列再次取得重要進展。

在斯坦福大模型中心《AI指數2024》選定的智能體基準評測AgentBench上,AutoGLM系列模型在5個測試環境中也取得了SOTA的成績。其中,在PhoneUse基準(AndroidLab&AndroidWorld)中,AutoGLM-Phone的任務成功率較此前最佳成績提升超過20%;在BrowserUse基準上,AutoGLM-Web也全面超越OpenAIGPT-4o和AnthropicClaude-3.5-Sonnet,展現了在網頁交互場景中的領先能力。

在GUI智能體領域,智譜自研模型GLM-PC(CogAgent)在多個權威評測榜單上取得SOTA成績。憑借僅9B的參數,CogAgent超越了包括GPT-4o+UGround、ClaudeComputerUse等更大規模的同類模型或商用API。

上述模型將于4月14日開源。并將在未來兩周內陸續上線MaaS平臺(bigmodel.cn)。



作者:譚妮妮

編輯:龔忻

分享到:
評論一下
評論 0人參與,0條評論
快來搶個沙發吧~
最熱評論
最新評論
已有0人參與,點擊查看更多精彩評論

請輸入驗證碼

熱門文章