近日,中國移動九天人工智能研究院(下稱“九天研究院”)研發(fā)的端側(cè)自主智能體模型JT-GUIAgent-V2,登頂谷歌AndroidWorld自主智能體動態(tài)基準評測國際榜單榜首。
九天研究院研發(fā)的端側(cè)自主智能體模型JT-GUIAgent-V2,在谷歌AndroidWorld自主智能體動態(tài)基準測試國際榜單中,任務(wù)成功率(Success Rate pass@1)達到67.2%,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驅(qū)動的多個GUI Agent框架和模型,位列榜單Top1!這標志著中國移動在端側(cè)復雜智能體系統(tǒng)的人機交互技術(shù)方面達到了國際領(lǐng)先水平。
GUI Agent(圖形用戶界面智能體)是一種前沿的人工智能代理系統(tǒng),它融合計算機視覺、自然語言處理和強化學習等多種AI核心技術(shù),能夠自動推理并執(zhí)行UI交互,像人類用戶一樣,通過圖形用戶界面感知操作環(huán)境,模擬人類完成跨平臺任務(wù),理解并執(zhí)行在圖形界面上的各種操作指令,如點擊、輸入、拖拽、讀取界面信息等,實現(xiàn)用戶要求的復雜任務(wù)自動化處理。這種技術(shù)突破有效解決了傳統(tǒng)人工操作的效率瓶頸。簡單來說,GUI Agent 就像端側(cè)的“自動駕駛系統(tǒng)”,能夠代替用戶與各種軟件應(yīng)用進行自動交互,顯著提高了工作效率和用戶操作體驗。
然而,GUI Agent在實際應(yīng)用中面臨三大核心技術(shù)挑戰(zhàn):一是如何準確感知理解動態(tài)多變的多模型UI界面,二是如何對復雜長鏈條任務(wù)做到高效推理,三是在任務(wù)執(zhí)行過程中如何做到自動糾偏處理。這些技術(shù)難題的解決不僅依賴計算機視覺、自然語言等單一技術(shù)領(lǐng)域的突破,而且需要多模態(tài)融合與持續(xù)學習的協(xié)同創(chuàng)新,對現(xiàn)有AI技術(shù)體系提出了全方位的嚴苛要求。為此,JT-GUIAgent-V2在架構(gòu)設(shè)計和智能規(guī)劃上實現(xiàn)了全面升級。相比1個月前發(fā)布的V1版本,新版本在自然語言指令理解、UI元素多模態(tài)感知、目標任務(wù)識別推理以及自動化執(zhí)行等方面實現(xiàn)了全方位能力躍遷,真正實現(xiàn)了“任務(wù)自動觀察-自主思考-自動執(zhí)行”的全鏈路閉環(huán),其核心技術(shù)優(yōu)勢體現(xiàn)在以下兩大創(chuàng)新:第一,自主構(gòu)建兩階段的協(xié)同框架。創(chuàng)新設(shè)計全局規(guī)劃智能體(Planner)和感知定位智能體(Grounder)兩階段協(xié)同框架。Planner專注高階策略規(guī)劃,顯著提升復雜任務(wù)推理能力和環(huán)境適應(yīng)性;Grounder則確保界面元素的精準識別與操作執(zhí)行,二者協(xié)同形成完整決策閉環(huán)。第二,創(chuàng)新性地引入經(jīng)驗驅(qū)動的智能規(guī)劃方法,通過實時融合用戶指令解析與應(yīng)用操作經(jīng)驗,實現(xiàn)系統(tǒng)的動態(tài)決策優(yōu)化,帶來三個方面的性能和效果顯著提升:一是規(guī)劃精準化。阂虢(jīng)驗檢索機制,實時匹配用戶意圖與應(yīng)用特征,避免規(guī)劃冗余或陷入錯誤循環(huán);二是錯誤最小化:有效減少模型“認知盲區(qū)”,解決不常見圖標識別、隱藏手勢調(diào)用等技術(shù)難題;三是任務(wù)通用化:通過可擴展的應(yīng)用經(jīng)驗積累,提升模型在新任務(wù)上的執(zhí)行準確率。
AndroidWorld是由Google研究人員聯(lián)合發(fā)布的一個功能完備的Android環(huán)境,為自主智能體提供了一個具有高專業(yè)性和權(quán)威性的基準測試平臺。其特點在于:一是 環(huán)境真實,構(gòu)建了包含20款主流Android應(yīng)用程序的完整功能環(huán)境。二是任務(wù)多樣, 精心設(shè)計了涵蓋日程管理、信息交流、系統(tǒng)設(shè)置等日;顒拥116項任務(wù),高度模擬真實用戶場景。三是評測嚴謹, 每項任務(wù)均配備標準化初始化、嚴格的成功判定機制及清理邏輯,確保評測結(jié)果的高可重復性與可比性。四是能力全面, 重點考察智能體對自然語言指令的理解深度、與動態(tài)UI的精準交互能力、復雜任務(wù)的高效完成度以及應(yīng)對任務(wù)參數(shù)變化的魯棒性。
憑借上述技術(shù)優(yōu)勢,GUI Agent 的強大功能使其在眾多領(lǐng)域擁有廣闊的應(yīng)用前景。例如,在生活服務(wù)場景中,用戶提出語音和文本交互指令,GUI Agent能夠在用戶授權(quán)許可應(yīng)用(如攜程、大眾點評、12306等)中實現(xiàn)跨應(yīng)用操作,為用戶在多個APP界面的復雜操作提供了全新解決方案;在辦公場景中,用戶只需通過語音或文字向 GUI Agent 下達指令,如 “打開文檔并將其中的關(guān)鍵數(shù)據(jù)整理成表格發(fā)送給團隊成員”,它便能自動完成從打開辦公軟件、定位文檔、提取數(shù)據(jù)到制作表格并發(fā)送郵件的一系列操作,無需用戶手動逐一操作;在財務(wù)應(yīng)用中,GUI Agent 能夠自動讀取和整理各類財務(wù)數(shù)據(jù),生成財務(wù)報表,降低人工操作帶來的錯誤風險和時間成本;在軟件開發(fā)過程中,GUI Agent 可用于自動化軟件測試,模擬各種用戶操作,快速檢測軟件的穩(wěn)定性和兼容性;在工業(yè)生產(chǎn)中,GUI Agent 可用于自動化控制系統(tǒng),根據(jù)生產(chǎn)指令自動操作設(shè)備、監(jiān)控生產(chǎn)流程,實現(xiàn)生產(chǎn)過程的智能化和自動化,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
GUI Agent作為大模型落地的關(guān)鍵使能技術(shù),融合了意圖理解、環(huán)境感知、自主決策與交互執(zhí)行等綜合智能能力,未來在智能終端、智能網(wǎng)聯(lián)汽車、智能機器人等信息消費“新三樣”領(lǐng)域具有廣闊的應(yīng)用前景。
九天GUI Agent本次登頂AndroidWorld榜單,充分體現(xiàn)了九天研究院在自主智能體方面的技術(shù)實力,更代表了中國移動在智能時代對用戶服務(wù)需求和業(yè)務(wù)體驗方面的深刻洞察和主動創(chuàng)新。未來,中國移動九天人工智能研究院將持續(xù)探索更先進的GUI Agent架構(gòu)與算法,重塑人機交互協(xié)作模式,為廣大用戶帶來智能化、便捷化、個性化的全新信息服務(wù)新體驗。