微軟開源 OmniParser 純視覺 GUI 智能體:讓 GPT-4V秒懂屏幕截圖
IT之家 10 月 29 日消息,科技媒體 marktechpost 於 10 月 24 日發佈博文,報道稱微軟公司宣佈開源 OmniParser,是一款解析和識別屏幕上可交互圖標的AI 工具。
項目背景
傳統的自動化方法通常依賴於解析 HTML 或視圖層次結構,從而限制了其在非網絡環境中的適用性。
而包括 GPT-4V 在內的現有的視覺語言模型(VLMs),並不擅長解讀複雜 GUI 元素,導致動作定位不準確。
項目簡介
微軟爲了克服這些障礙,推出了 OmniParser,是一種純視覺基礎的工具,旨在填補當前屏幕解析技術中的空白。
該工具並不需要依賴額外的上下文數據,可以理解更復雜的圖形用戶界面(GUI),是智能 GUI 自動化領域的一項令人興奮的進展。
OmniParser 結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標籤或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作,提高用戶界面的解析準確性。
OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。
測試表現
OmniParser 在多個基準測試中顯示出優越的性能。例如,在 ScreenSpot 數據集中,其準確率提高了 73%,顯著超越依賴 HTML 解析的模型。
這一設計不僅能生成類似文檔對象模型(DOM)的結構化表示,還能通過疊加邊界框和功能標籤來引導語言模型做出更準確的用戶動作預測。
同時,GPT-4V 在使用 OmniParser 輸出後,圖標的正確標記率從 70.5% 提升至 93.8%。這些改進表明,OmniParser 能夠有效解決當前 GUI 交互模型的根本缺陷。
OmniParser 的發佈不僅拓寬了智能體的應用範圍,也爲開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。微軟目前已在 Hugging Face 上發佈 OmniParser,普及這一前沿技術,將進一步推動多模態 AI 的發展,特別是在無障礙、自動化和智能用戶輔助等領域。
IT之家附上參考地址