著者:
(1) アン・ヤン、カリフォルニア大学サンディエゴ校、ayan@ucsd.edu。
(2)Zhengyuan Yang、Microsoft Corporation、zhengyang@microsoft.com、同額の寄付。
(3) Wanrong Zhu、UC サンタバーバラ校、wanrongzhu@ucsb.edu。
(4)ケビン・リン、マイクロソフトコーポレーション、keli@microsoft.com
(5) Microsoft Corporation、Linjie Li、lindsey.li@mocrosoft.com。
(6) Jianfeng Wang、Microsoft Corporation、jianfw@mocrosoft.com。
(7) Jianwei Yang、Microsoft Corporation、jianwei.yang@mocrosoft.com。
(8) Yiwu Zhong、ウィスコンシン大学マディソン校、yzhong52@wisc.edu。
(9)ジュリアン・マコーリー、カリフォルニア大学サンディエゴ校、jmcauley@ucsd.edu
(10) Jianfeng Gao、Microsoft Corporation、jfgao@mocrosoft.com。
(11) Zicheng Liu、Microsoft Corporation、zliu@mocrosoft.com。
(12) Lijuan Wang、Microsoft Corporation、lijuanw@mocrosoft.com。
編集者注: これは、スマートフォンを操作するための生成 AI の使用を評価する論文のパート 1 です。論文の残りの部分は、以下のリンクの表から読むことができます。
スマートフォンのグラフィカル ユーザー インターフェイス (GUI) ナビゲーション タスク用の GPT-4V ベースのエージェントである MM-Navigator を紹介します。MM-Navigator は、人間のユーザーとしてスマートフォンの画面を操作し、指定された指示を実行するための後続のアクションを決定できます。調査結果によると、大規模マルチモーダル モデル (LMM)、具体的には GPT-4V は、高度な画面解釈、アクション推論、正確なアクション ローカリゼーション機能により、ゼロ ショット GUI ナビゲーションに優れていることが示されています。まず、収集した iOS 画面データセットで MM-Navigator のベンチマークを行います。人間の評価によると、このシステムは、iOS でのシングル ステップの指示に対して、合理的なアクションの説明を生成する際に 91% の精度、正しいアクションを実行する際に 75% の精度を示しました。さらに、Android 画面ナビゲーション データセットのサブセットでモデルを評価し、モデルはゼロ ショット方式で以前の GUI ナビゲーターを上回りました。ベンチマークと詳細な分析は、GUI ナビゲーション タスクに関する将来の研究のための強固な基盤を築くことを目的としています。プロジェクトページは https://github.com/zzxslp/MM-Navigator にあります。
コンピューティング デバイスと対話し、人間の指示に従うことができる自律エージェントの構築は、機械学習コミュニティにおける長年のテーマです (Bolt、1980 年、Lieberman 他、1995 年)。スマートフォンの登場以来、Siri、Cortana、Google Assistant などの仮想アシスタントの作成に対する実用的な需要があり、これらはユーザー エクスペリエンスを大幅に向上させ、身体的または状況的に障害のある個人を支援する可能性があります。理想的には、これらのアシスタントは、タイマーの設定などの単純なアクションから、家族旅行に最適なホテルを見つけるなどのより複雑なタスクまで、自然言語の指示に基づいて日常のタスクを適切に実行します。
最近の研究では、人間の指示に従ったモバイルデバイスの制御とスマートフォンのタスク自動化について調査し始めています (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023)。代表的なアプローチとしては、画面イメージをテキストで記述し、変換されたテキストを大規模言語モデル (LLM) で処理する (Rawles et al., 2023; Wen et al., 2023)、または視覚言語モデルをトレーニングして教師あり方式でアクションを生成する (Rawles et al., 2023; Zhan and Zhang, 2023) などがあります。ただし、これらの教師ありモデルは、特定の種類の画面と指示でトレーニングされた場合 (Rawles et al., 2023)、現実世界のシナリオへの一般化における有効性が限られています。一方、LLM ベースのアプローチは一般化が優れていますが、画面イメージをテキストに変換する中間ステップで情報が失われ、結果としてパフォーマンスが低下します。最近の大規模マルチモーダル モデル (LMM) の有効性と幅広い適用性に触発され、ゼロショット スマートフォン GUI ナビゲーションに LMM である GPT-4V (OpenAI、2023a、b、c、gpt、2023、Yang ら、2023c) を活用することを検討し、この興味深いタスクの新しい強力なベースラインを設定することを目指しています。
LMM を使用した GUI ナビゲーションには、意図されたアクションの説明とローカライズされたアクションの実行という 2 つの主な課題があります。まず、モデルは画面イメージとテキスト指示入力を理解し、クエリを推論して適切なアクションを決定する必要があります。たとえば、「3 行目と 4 列目の Amazon アイコンをクリックする」という自然言語の説明を提供する必要があります。次に、モデルはそのような高レベルの理解を、「{アクション: クリック、場所: (0.31、0.57)}」などのルールに基づいて簡単に実行できるフォーマットされたアクションに変換する必要があります。私たちのアプローチでは、アクション プランニングのために GPT-4V にイメージとテキストを提示し、生成された出力を固定するためにマーク セット タグ (Yang ら、2023b) を配置します。具体的には、セグメンテーション モデルまたは OCR モデルを使用して、これらのマークを空間的な場所に関連付けます。この目的のために、提案する GPT-4V ベースのシステム、つまり MM-Navigator は、画面イメージ、テキスト指示、およびそのインタラクション履歴に基づいて実行可能なアクションを生成できます。
MM-Navigator を 2 つのデータセットでベンチマークします。まず、手動で収集したスクリーンショットとユーザー インストラクションを含む iOS GUI ナビゲーション データセットから始めます。このクリーンな分析データセットは、GUI ナビゲーションにおける 2 つの課題、つまり意図されたアクションの説明とローカライズされたアクションの実行に関する洞察を探るために設計されています。これら 2 つのタスクで GPT-4V を評価するために人間による評価が使用され、精度はそれぞれ 91% と 75% でした。さらに、最近リリースされた Android ナビゲーション ベンチマーク (Rawles et al.、2023) のランダムなサブセットでモデルを評価します。ベンチマークで提案された評価プロトコルに従い、追加の人間による評価も行います。この優れたパフォーマンスは、MM-Navigator がスマートフォン向けの効果的な GUI ナビゲーターであり、以前の LLM ベースのアプローチを大幅に上回っていることを示しています。代表的な成功例と失敗例の詳細な分析を提供します。図 4 のマルチスクリーンの結果からもわかるように、GPT-4V の現在の状態は、さまざまな現実世界の GUI ナビゲーション シナリオで人間を支援するのにすでに効果的である可能性があります。ただし、分析で明らかになったように、システムの信頼性をさらに高めるには、継続的な機能強化が不可欠です。
私たちの貢献は以下のように要約されます
• スマートフォンの GUI ナビゲーション用に GPT-4V 上に構築されたエージェント システムである MM-Navigator を紹介します。MM-Navigator は、アクション履歴とマーク セット タグを効果的に組み込んで、実行可能な正確なアクションを生成します。
• 多様な iOS 画面とユーザー指示を含む新しい分析データセットを収集し、LMM を使用した GUI ナビゲーションにおける 2 つの主な課題、つまり意図されたアクションの説明とローカライズされたアクションの実行を評価します。
• 2 つのデータセットに対して、自動と人間の両方による広範な評価を実行し、詳細な分析を提供します。印象的な結果は、GUI ナビゲーションにおける MMNavigator の有効性を実証しています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。