paint-brush
মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারেদ্বারা@fewshot
756 পড়া
756 পড়া

মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে

দ্বারা The FewShot Prompting Publication 5m2024/12/11
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

মাইক্রোসফ্ট এবং ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া সান দিয়েগোর গবেষকরা একটি এআই মডেল তৈরি করেছেন যা আপনার স্মার্টফোনের স্ক্রীন নেভিগেট করতে সক্ষম।
featured image - মাইক্রোসফ্ট গবেষকরা বলছেন যে নতুন এআই মডেল আপনার ফোনের স্ক্রীন 'দেখতে' পারে
The FewShot Prompting Publication  HackerNoon profile picture
0-item

লেখক:

(1) আন ইয়ান, ইউসি সান দিয়েগো, ayan@ucsd.edu;

(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com সমান অবদানের সাথে;

(3) ওয়ানরং ঝু, ইউসি সান্তা বারবারা, wanrongzhu@ucsb.edu;

(4) কেভিন লিন, মাইক্রোসফট কর্পোরেশন, keli@microsoft.com;

(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;

(6) জিয়ানফেং ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, jianfw@mocrosoft.com;

(7) জিয়ানওয়েই ইয়াং, মাইক্রোসফ্ট কর্পোরেশন, jianwei.yang@mocrosoft.com;

(8) Yiwu Zhong, Wisconsin-Madison University, yzhong52@wisc.edu;

(9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;

(10) জিয়ানফেং গাও, মাইক্রোসফ্ট কর্পোরেশন, jfgao@mocrosoft.com;

(11) জিচেং লিউ, মাইক্রোসফ্ট কর্পোরেশন, zliu@mocrosoft.com;

(12) লিজুয়ান ওয়াং, মাইক্রোসফ্ট কর্পোরেশন, lijuanw@mocrosoft.com।


সম্পাদকের দ্রষ্টব্য: এটি একটি কাগজের অংশ 1 যা স্মার্টফোনে নেভিগেট করার জন্য একটি জেনারেটিভ এআই ব্যবহার মূল্যায়ন করে। আপনি নীচের লিঙ্কের টেবিলের মাধ্যমে কাগজের বাকি অংশ পড়তে পারেন।

লিঙ্কের টেবিল


বিমূর্ত

স্মার্টফোন গ্রাফিক্যাল ইউজার ইন্টারফেস (GUI) নেভিগেশন টাস্কের জন্য আমরা MM-Navigator, একটি GPT-4V-ভিত্তিক এজেন্ট উপস্থাপন করি। MM-Navigator একটি স্মার্টফোন স্ক্রিনের সাথে মানুষের ব্যবহারকারী হিসাবে ইন্টারঅ্যাক্ট করতে পারে এবং প্রদত্ত নির্দেশাবলী পূরণ করার জন্য পরবর্তী ক্রিয়া নির্ধারণ করতে পারে। আমাদের অনুসন্ধানগুলি দেখায় যে বড় মাল্টিমোডাল মডেলগুলি (LMMs), বিশেষত GPT-4V, শূন্য-শট GUI নেভিগেশন এর উন্নত স্ক্রীন ব্যাখ্যা, অ্যাকশন যুক্তি এবং সুনির্দিষ্ট অ্যাকশন স্থানীয়করণ ক্ষমতার মাধ্যমে এক্সেল করে। আমরা আমাদের সংগৃহীত iOS স্ক্রীন ডেটাসেটে প্রথম বেঞ্চমার্ক MM-Navigator. মানুষের মূল্যায়ন অনুসারে, সিস্টেমটি যুক্তিসঙ্গত ক্রিয়া বর্ণনা তৈরিতে 91% নির্ভুলতার হার এবং iOS-এ একক-পদক্ষেপ নির্দেশাবলীর জন্য সঠিক ক্রিয়া সম্পাদনে 75% নির্ভুলতার হার প্রদর্শন করেছে। উপরন্তু, আমরা একটি Android স্ক্রীন নেভিগেশন ডেটাসেটের একটি উপসেটে মডেলটিকে মূল্যায়ন করি, যেখানে মডেলটি একটি শূন্য-শট ফ্যাশনে পূর্ববর্তী GUI নেভিগেটরদেরকে ছাড়িয়ে যায়। আমাদের বেঞ্চমার্ক এবং বিশদ বিশ্লেষণের লক্ষ্য GUI নেভিগেশন টাস্কে ভবিষ্যতের গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করা। প্রকল্পের পৃষ্ঠাটি https://github.com/zzxslp/MM-Navigator-এ রয়েছে।

1 ভূমিকা

কম্পিউটিং ডিভাইসের সাথে মিথস্ক্রিয়া করতে এবং মানুষের আদেশ অনুসরণ করতে সক্ষম স্বায়ত্তশাসিত এজেন্ট তৈরি করা মেশিন লার্নিং সম্প্রদায়ের একটি দীর্ঘস্থায়ী বিষয় (বোল্ট, 1980; লিবারম্যান এট আল।, 1995)। স্মার্টফোনের আবির্ভাবের পর থেকে, সিরি, কর্টানা এবং গুগল অ্যাসিস্ট্যান্টের মতো ভার্চুয়াল অ্যাসিস্ট্যান্ট তৈরির জন্য একটি ব্যবহারিক চাহিদা রয়েছে, যা ব্যবহারকারীর অভিজ্ঞতাকে উল্লেখযোগ্যভাবে উন্নত করতে এবং শারীরিক বা পরিস্থিতিগতভাবে প্রতিবন্ধী ব্যক্তিদের সহায়তা করার সম্ভাবনা রাখে। আদর্শভাবে, এই সহকারীরা দক্ষতার সাথে প্রাকৃতিক ভাষার নির্দেশাবলীর উপর ভিত্তি করে দৈনন্দিন কাজগুলি সম্পাদন করবে, একটি টাইমার সেট করার মতো সাধারণ কাজ থেকে শুরু করে আরও জটিল কাজ যেমন পারিবারিক ছুটির জন্য আদর্শ হোটেলের অবস্থান।


সাম্প্রতিক গবেষণাগুলি মানুষের নির্দেশনা অনুসরণ করে মোবাইল ডিভাইস নিয়ন্ত্রণ এবং স্মার্টফোনের টাস্ক অটোমেশন অন্বেষণ করতে শুরু করেছে (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023)। প্রতিনিধিত্বমূলক পদ্ধতির মধ্যে টেক্সট সহ স্ক্রীন ইমেজ বর্ণনা করা এবং বৃহৎ ভাষা মডেল (LLMs) সহ রূপান্তরিত পাঠ্য প্রক্রিয়াকরণ (Rawles et al., 2023; Wen et al., 2023), অথবা একটি তত্ত্বাবধানে ক্রিয়াকলাপ তৈরি করার জন্য একটি দৃষ্টি-ভাষা মডেল প্রশিক্ষণ ( Rawles et al., 2023; Zhan and Zhang, 2023)। যাইহোক, এই তত্ত্বাবধানে থাকা মডেলগুলি, যখন নির্দিষ্ট ধরণের স্ক্রিন এবং নির্দেশাবলীর উপর প্রশিক্ষিত হয় (Rawles et al., 2023), বাস্তব জগতের পরিস্থিতির সাধারণীকরণে সীমিত কার্যকারিতা প্রদর্শন করে। অন্যদিকে, এলএলএম-ভিত্তিক পদ্ধতিগুলি আরও ভাল সাধারণীকরণ করে, তবে স্ক্রীনের চিত্রগুলিকে পাঠ্যে রূপান্তর করার মধ্যবর্তী পদক্ষেপের ফলে তথ্য নষ্ট হয় এবং ফলস্বরূপ কর্মক্ষমতা ক্ষতিগ্রস্থ হয়। সাম্প্রতিক বৃহৎ মাল্টিমোডাল মডেলের (LMMs) কার্যকারিতা এবং বিস্তৃত প্রযোজ্যতা দ্বারা অনুপ্রাণিত হয়ে, আমরা zeroshot স্মার্টফোন GUI-এর জন্য একটি LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) ব্যবহার করে অন্বেষণ করি। নেভিগেশন, এই কৌতুহলপূর্ণ কাজের জন্য একটি নতুন শক্তিশালী ভিত্তিরেখা সেট করার লক্ষ্য।


আমরা LMM এর সাথে GUI নেভিগেশনের জন্য দুটি প্রাথমিক চ্যালেঞ্জ সনাক্ত করি, যথা উদ্দেশ্যমূলক কর্ম বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। প্রথমত, মডেলটিকে স্ক্রীন ইমেজ এবং টেক্সট নির্দেশনা ইনপুট বুঝতে হবে, এবং উপযুক্ত ব্যবস্থা নেওয়ার জন্য কোয়েরির উপর কারণ জানাতে হবে, যেমন একটি প্রাকৃতিক ভাষা বর্ণনা প্রদান করা "তৃতীয় সারি এবং চতুর্থ কলামে অ্যামাজন আইকনে ক্লিক করা।" দ্বিতীয়ত, মডেলটিকে এমন উচ্চ-স্তরের বোঝাপড়াকে একটি ফর্ম্যাট করা অ্যাকশনে রূপান্তর করা উচিত যা নিয়মের উপর ভিত্তি করে সহজে কার্যকর করা যেতে পারে, যেমন “{Action: Click, Location: (0.31, 0.57)}”। আমাদের পদ্ধতিতে, আমরা কর্ম পরিকল্পনার জন্য একটি চিত্র এবং পাঠ্য সহ GPT-4V প্রম্পট করি এবং জেনারেট আউটপুটগুলিকে অ্যাঙ্কর করার জন্য সেট-অফ-মার্ক ট্যাগগুলি (ইয়াং এট আল।, 2023b) স্থাপন করি। বিশেষত, আমরা এই চিহ্নগুলিকে বিভাজন বা ওসিআর মডেলের সাহায্যে স্থানিক অবস্থানের সাথে সংযুক্ত করি। এই লক্ষ্যে, আমাদের প্রস্তাবিত GPT-4V-ভিত্তিক সিস্টেম, যথা MM-Navigator, স্ক্রীন ইমেজ, টেক্সট নির্দেশ এবং এর ইন্টারঅ্যাকশন ইতিহাসে শর্তযুক্ত এক্সিকিউটেবল অ্যাকশন তৈরি করতে পারে।


আমরা দুটি ডেটাসেটে এমএম-নেভিগেটর বেঞ্চমার্ক করি। আমরা ম্যানুয়ালি সংগ্রহ করা স্ক্রিনশট এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি iOS GUI নেভিগেশন ডেটাসেট দিয়ে শুরু করি। এই পরিষ্কার বিশ্লেষণাত্মক ডেটাসেটটি GUI নেভিগেশনের দুটি চ্যালেঞ্জের জন্য অন্তর্দৃষ্টি অনুসন্ধান করার জন্য ডিজাইন করা হয়েছে: উদ্দেশ্যমূলক কর্মের বিবরণ এবং স্থানীয়কৃত ক্রিয়া সম্পাদন। মানবিক মূল্যায়ন যথাক্রমে 91% এবং 75% এর যথার্থতার হার সহ এই দুটি কাজের GPT-4V মূল্যায়ন করতে ব্যবহৃত হয়। উপরন্তু, আমরা সম্প্রতি প্রকাশিত অ্যান্ড্রয়েড নেভিগেশন বেঞ্চমার্ক (Rawles et al., 2023) থেকে একটি র্যান্ডম সাবসেটে মডেলটিকে মূল্যায়ন করি। আমরা অতিরিক্ত মানব মূল্যায়ন সহ বেঞ্চমার্কে প্রস্তাবিত মূল্যায়ন প্রোটোকল অনুসরণ করি। শক্তিশালী পারফরম্যান্স দেখায় যে MM-Navigator হল স্মার্টফোনের জন্য একটি কার্যকর GUI নেভিগেটর, উল্লেখযোগ্যভাবে আগের LLM-ভিত্তিক পন্থাগুলিকে ছাড়িয়ে গেছে। আমরা প্রতিনিধিত্বমূলক সাফল্য এবং ব্যর্থতার ক্ষেত্রে গভীরভাবে বিশ্লেষণ প্রদান করি। আমরা দেখতে পাই যে GPT-4V-এর বর্তমান অবস্থা ইতিমধ্যেই বাস্তব-বিশ্বের বিভিন্ন GUI নেভিগেশন পরিস্থিতিতে মানুষকে সাহায্য করার জন্য কার্যকর হতে পারে, যেমন চিত্র 4-এর মাল্টি-স্ক্রিন ফলাফল দ্বারা প্রমাণিত হয়েছে। যাইহোক, সিস্টেমের আরও বাড়ানোর জন্য অব্যাহত বর্ধনগুলি এখনও অপরিহার্য। নির্ভরযোগ্যতা, যেমন আমাদের বিশ্লেষণে প্রকাশিত হয়েছে।


আমাদের অবদান নিম্নরূপ সংক্ষিপ্ত করা হয়


• আমরা MM-Navigator উপস্থাপন করি, স্মার্টফোন GUI নেভিগেশনের জন্য GPT-4V-এ নির্মিত একটি এজেন্ট সিস্টেম। এমএম-নেভিগেটর কার্যকরভাবে অ্যাকশন হিস্ট্রি এবং সেট-অফ-মার্ক ট্যাগগুলিকে সুনির্দিষ্ট এক্সিকিউটেবল অ্যাকশন তৈরি করতে অন্তর্ভুক্ত করে।


• আমরা বিভিন্ন iOS স্ক্রীন এবং ব্যবহারকারীর নির্দেশাবলী সহ একটি নতুন বিশ্লেষণাত্মক ডেটাসেট সংগ্রহ করি, যা LMM এর সাথে GUI নেভিগেশনের দুটি প্রধান চ্যালেঞ্জের মূল্যায়ন করে: উদ্দেশ্যমূলক ক্রিয়া বর্ণনা এবং স্থানীয়কৃত ক্রিয়া সম্পাদন।


• আমরা দুটি ডেটাসেটে স্বয়ংক্রিয় এবং মানবিক উভয় ধরনের বিস্তৃত মূল্যায়ন করি এবং বিস্তারিত বিশ্লেষণ প্রদান করি। চিত্তাকর্ষক ফলাফল GUI নেভিগেশনের জন্য MMNavigator এর কার্যকারিতা প্রদর্শন করে।


এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ