AppleがAIモデルにアプリインターフェースの推論を教えたc

AppleがAIモデルにアプリインターフェースの推論を教えたc
Appleの「AIドクター」計画には2つの大きな問題がある | フレンドリーな白いロボット

Appleが支援し、フィンランドのアアルト大学と共同で実施した新たな研究で、ILuvUIが紹介されました。これは、スクリーンショットや自然言語による会話からモバイルアプリのインターフェースを理解するように訓練された視覚言語モデルです。ILuvUIの意味と、その実現方法についてご紹介します。

ILuvUI: ベースとなったモデルを上回るパフォーマンスを発揮したAI

論文「ILuvUI: 機械会話からの UI の命令調整された言語ビジョン モデリング」で、チームは人間とコンピューターの相互作用 (HCI) における長年の課題、つまり、AI モデルに人間のようにユーザー インターフェイスを推論するように教えること (実際には視覚的かつ意味的に推論することを意味します) に取り組んでいます。

「UI 上のアクションを理解して自動化することは、難しいタスクです。リスト項目、チェックボックス、テキストフィールドなど、画面内の UI 要素は、インタラクションのみのためのアフォーダンスを超えた多くのレイヤーの情報をエンコードしているためです。(….) 特に LLM は、多くの領域で自然言語によるタスクの指示を理解する優れた能力を示していますが、LLM で UI のテキスト記述のみを使用すると、UI の豊富な視覚情報が失われます。」

研究者らが説明しているように、現在、ほとんどの視覚言語モデルは犬や道路標識などの自然な画像でトレーニングされているため、アプリのUIなど、より構造化された環境を解釈するように求められた場合、それほど良いパフォーマンスを発揮しません。

視覚情報とテキスト情報を融合することは、多くの人間が世界とどのように関わっているかを反映するため、UIを理解する上で重要です。自然画像に適用することでこのギャップを埋めようとしたアプローチの一つが、視覚言語モデル(VLM)です。これは、画像とテキストの両方のマルチモーダル入力を受け入れ、通常はテキストのみを出力し、汎用的な質問応答、視覚的推論、シーンの説明、画像入力による会話を可能にします。しかし、これらのモデルのUIタスクにおけるパフォーマンスは、トレーニングデータにUIの例が不足しているため、自然画像に比べて劣っています。

これを念頭に置いて、研究者はオープンソースの VLM LLaVA を微調整し、そのトレーニング方法も UI ドメインに特化するように適応させました。

彼らは、いくつかの「黄金比の例」に基づいて合成されたテキストと画像のペアでこのAIを訓練しました。最終的なデータセットには、Q&A形式のインタラクション、詳細な画面説明、予測されたアクション結果、さらには複数ステップのプラン(「ポッドキャストの最新エピソードの聴き方」や「明るさ設定の変更方法」など)が含まれていました。

このデータセットでトレーニングを行った結果、生成されたモデル ILuvUI は、機械ベンチマークと人間の嗜好テストの両方で元の LLaVA を上回るパフォーマンスを発揮することができました。

さらに、ユーザーがインターフェース上で関心領域を指定する必要がありません。モデルはシンプルなプロンプトから画面全体を文脈的に理解します。

ILuvUI (…) は関心領域を必要とせず、UI 画像に加えてテキスト プロンプトを入力として受け入れるため、視覚的な質問回答などのユース ケースに回答を提供できます。

ユーザーはこれによってどのような利益を得られるのでしょうか?

Appleの研究者たちは、このアプローチはアクセシビリティだけでなく、UIテストの自動化にも役立つ可能性があると述べています。また、ILuvUIは依然としてオープンコンポーネントに基づいていますが、将来的には、より大規模な画像エンコーダ、より優れた解像度処理、JSONなどの既存のUIフレームワークとシームレスに連携する出力形式など、様々な開発に取り組む可能性があると指摘しています。

Apple の AI 研究論文の最新情報に目を通している人は、AI モデルがアプリ内アクションの結果を理解するだけでなく、予測できるかどうかに関する最近の調査を思い浮かべるかもしれません。

この 2 つを組み合わせると、特にデバイスの操作にアクセシビリティに依存している場合や、アプリ内ワークフローのより面倒な部分を OS が自律的に処理してくれることを望む場合には、状況が面白くなり始めます。

Amazonの外付けドライブのセール

  • Seagate ポータブル 2TB HDD、USB 3.0: 79.99ドル
  • SanDisk 2TB Extreme ポータブル SSD、USB-C: 134.99 ドル(旧価格 209.99 ドル)
  • Samsung T7 1TB ポータブル SSD、USB 3.2 Gen 2: $89.99 (旧価格 $129.99)
  • WD 5TB Elements ポータブル外付けHDD、USB 3.2 Gen 1:123.99ドル(旧価格139.99ドル)

tixow.com を Google ニュース フィードに追加します。 

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。