Forfattere:
(1) An Yan, UC San Diego, ayan@ucsd.edu;
(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com med lige store bidrag;
(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;
(4) Kevin Lin, Microsoft Corporation, keli@microsoft.com;
(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;
(6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;
(7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;
(8) Yiwu Zhong, University of Wisconsin-Madison, yzhong52@wisc.edu;
(9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;
(10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;
(11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;
(12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.
Redaktørens note: Dette er del 1 af et papir, der evaluerer brugen af en generativ AI til at navigere på smartphones. Du kan læse resten af avisen via tabellen med links nedenfor.
Vi præsenterer MM-Navigator, en GPT-4V-baseret agent til smartphone graphical user interface (GUI) navigationsopgave. MM-Navigator kan interagere med en smartphoneskærm som menneskelige brugere og bestemme efterfølgende handlinger for at opfylde givne instruktioner. Vores resultater viser, at store multimodale modeller (LMM'er), specifikt GPT-4V, udmærker sig i zero-shot GUI-navigation gennem dens avancerede skærmfortolkning, handlingsræsonnement og præcise handlingslokaliseringsmuligheder. Vi benchmarker først MM-Navigator på vores indsamlede iOS-skærmdatasæt. Ifølge menneskelige vurderinger udviste systemet en nøjagtighedsgrad på 91 % ved generering af rimelige handlingsbeskrivelser og en nøjagtighedsgrad på 75 % ved udførelse af de korrekte handlinger for enkelttrinsinstruktioner på iOS. Derudover evaluerer vi modellen på en delmængde af et Android-skærmnavigationsdatasæt, hvor modellen udkonkurrerer tidligere GUI-navigatorer på en nul-shot måde. Vores benchmark og detaljerede analyser har til formål at lægge et robust grundlag for fremtidig forskning i GUI-navigationsopgaven. Projektsiden er på https: //github.com/zzxslp/MM-Navigator.
Opbygning af autonome agenter, der er i stand til at interagere med computerenheder og følge menneskelige kommandoer, har været et langvarigt emne i maskinlæringssamfundet (Bolt, 1980; Lieberman et al., 1995). Siden fremkomsten af smartphones har der været en praktisk efterspørgsel efter at skabe virtuelle assistenter, som Siri, Cortana og Google Assistant, som har potentialet til at forbedre brugeroplevelsen betydeligt og hjælpe personer, der er fysisk eller situationshæmmede. Ideelt set ville disse assistenter kompetent udføre dagligdagsopgaver baseret på naturlige sproginstruktioner, lige fra simple handlinger som at indstille en timer til mere komplekse opgaver såsom at finde det ideelle hotel til en familieferie.
Nylige undersøgelser er begyndt at udforske styring af mobilenheder og automatisering af smartphoneopgaver efter menneskelige instruktioner (Rawles et al., 2023; Wen et al., 2023; Zhan og Zhang, 2023; Wang et al., 2023). Repræsentative tilgange omfatter beskrivelse af skærmbilleder med tekst og behandling af konverteret tekst med store sprogmodeller (LLM'er) (Rawles et al., 2023; Wen et al., 2023) eller træning af en vision-sprogmodel til at generere handlinger på en overvåget måde ( Rawles et al., 2023; Zhan og Zhang, 2023). Men disse overvågede modeller udviser, når de trænes på specifikke typer skærme og instruktioner (Rawles et al., 2023), begrænset effektivitet til at generalisere til scenarier i den virkelige verden. På den anden side generaliserer de LLM-baserede tilgange bedre, men det mellemliggende trin med at konvertere skærmbilleder til tekst resulterer i tab af information og skader følgelig ydeevnen. Inspireret af effektiviteten og den brede anvendelighed af nyere store multimodale modeller (LMM'er) udforsker vi at bruge en LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) til zeroshot smartphone GUI navigation, med det formål at sætte en ny stærk baseline for denne spændende opgave.
Vi identificerer to primære udfordringer for GUI-navigation med LMM'er, nemlig tiltænkt handlingsbeskrivelse og lokaliseret handlingsudførelse. For det første skal modellen forstå skærmbilledet og tekstinstruktionsinputtet og begrunde forespørgslen for at bestemme den passende handling, der skal tages, såsom at give en naturlig sprogbeskrivelse "at klikke på Amazon-ikonet i tredje række og fjerde kolonne." For det andet bør modellen konvertere en sådan forståelse på højt niveau til en formateret handling, der let kan udføres baseret på regler, såsom "{Handling: Klik, Sted: (0.31, 0.57)}." I vores tilgang beder vi GPT-4V med et billede og tekst til handlingsplanlægning og placerer sæt-of-mark tags (Yang et al., 2023b) for at forankre de genererede output. Specifikt forbinder vi disse mærker med rumlige placeringer ved hjælp af segmentering eller OCR-modeller. Til dette formål kan vores foreslåede GPT-4V-baserede system, nemlig MM-Navigator, generere eksekverbare handlinger, der er betinget af skærmbilledet, tekstinstruktionen og dets interaktionshistorik.
Vi benchmarker MM-Navigator på to datasæt. Vi starter med et iOS GUI-navigationsdatasæt med skærmbilleder og brugerinstruktioner, som vi manuelt indsamlede. Dette rene analytiske datasæt er designet til at undersøge indsigt i de to udfordringer i GUI-navigation: tilsigtet handlingsbeskrivelse og lokaliseret handlingsudførelse. Menneskelige evalueringer bruges til at vurdere GPT-4V på disse to opgaver med nøjagtighedsrater på henholdsvis 91 % og 75 %. Derudover vurderer vi modellen på en tilfældig delmængde fra det nyligt udgivne Android-navigationsbenchmark (Rawles et al., 2023). Vi følger den foreslåede evalueringsprotokol i benchmark sammen med ekstra menneskelige evalueringer. Den stærke ydeevne viser, at MM-Navigator er en effektiv GUI-navigator til smartphones, der markant overgår tidligere LLM-baserede tilgange. Vi leverer dybdegående analyser af de repræsentative succes- og fiaskosager. Vi finder ud af, at den nuværende tilstand af GPT-4V allerede kan være effektiv til at hjælpe mennesker i forskellige virkelige GUI-navigationsscenarier, som det fremgår af multiskærmsresultaterne i figur 4. Men fortsatte forbedringer er stadig vigtige for yderligere at øge systemets pålidelighed, som afsløret i vores analyser.
Vores bidrag er opsummeret som følger
• Vi præsenterer MM-Navigator, et agentsystem bygget på GPT-4V til smartphone GUI-navigation. MM-Navigator inkorporerer effektivt handlingshistorier og sæt-af-mærke-tags for at producere præcise eksekverbare handlinger.
• Vi indsamler et nyt analytisk datasæt med forskellige iOS-skærme og brugerinstruktioner, som evaluerer to hovedudfordringer i GUI-navigation med LMM'er: tilsigtet handlingsbeskrivelse og lokaliseret handlingsudførelse.
• Vi udfører omfattende evalueringer, både automatiske og menneskelige, på to datasæt og giver detaljerede analyser. De imponerende resultater demonstrerer effektiviteten af MMNavigator til GUI-navigation.
Dette papir er tilgængeligt på arxiv under CC BY 4.0 DEED-licens.