2月17日|根據微軟官網,微軟日前發佈視覺Agent解析框架OmniParser最新版本V2.0,可將OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,轉化為“計算機使用智能體”(Computer Use Agent)。相比前代版本,OmniParser V2在檢測更微小可交互元素時精度更高、推理速度更快。具體而言,V2通過使用更大規模的交互元素檢測數據集和圖標功能描述數據進行訓練,並通過縮小圖標描述模型的輸入圖像尺寸,推理延遲較前代降低60%。
新聞來源 (不包括新聞圖片): 格隆匯