AppleのAIチームが高度な画像認識に焦点を当てた初の研究論文を発表
「敵対的トレーニングによるシミュレートされた教師なし画像からの学習」と題されたこの論文は、iOS 10 の写真に導入された 「Siri インテリジェンス」および顔認識機能 と同様の設定で、デジタル画像をインテリジェントに解読して理解できるプログラムについて説明していますが、より高度です。 。
Appleは調査の中で、「合成」つまりコンピュータ画像と比較して、実際の画像を使用することの欠点と利点を指摘している。注釈は実際の画像に追加する必要があり、これは人間の労働力が画像内のオブジェクトに個別にラベルを付ける必要がある「高価で時間のかかる作業」です。一方、コンピュータで生成された画像は、「注釈が自動的に利用可能になるため」、このプロセスを促進するのに役立ちます。
それでも、合成画像に完全に切り替えると、問題のプログラムの品質が低下する可能性があります。これは、「合成データは多くの場合、十分に現実的ではない」ためであり、エンド ユーザー エクスペリエンスはコンピュータ生成画像に存在する細部にのみ適切に反応し、現実世界の物体や写真については適切に一般化できないことになるためです。直面した。
これは、この論文の中心的な提案、つまり、シミュレートされた画像と実際の画像の両方を組み合わせて「敵対的トレーニング」で連携し、高度な AI 画像プログラムを作成するという提案につながります。
この論文では、シミュレート + 教師なし (S+U) 学習を提案します。この学習の目的は、ラベルなしの実データを使用してシミュレーターからの合成画像のリアリズムを向上させることです。リアリズムの向上により、データ収集や人間による注釈の労力を必要とせずに、大規模なデータセットでより優れた機械学習モデルのトレーニングが可能になります。
![]()
これにより、非常に現実的な画像の生成が可能になることを示し、 これを定性的およびユーザー調査の両方で実証します。
論文の残りの部分では、実行された実験やその結果を裏付けるために提案された数学など、このテーマに関する Apple の研究の詳細について説明します。この論文の研究は単一の画像のみに焦点を当てていたが、Appleのチームは最後の方で、近いうちに「動画の改良も調査」したいと述べている。
この論文のクレジットは、Apple 研究者の Ashish Shrivastava、Tomas Pfister、Onsel Tuzel、Josh Susskind、Wenda Wang、および Russ Webb に与えられています。研究チームの研究結果は11月15日に初めて提出されたが、公表されたのは12月22日だった。
数週間前にバルセロナで開催された AI カンファレンスでは、Apple の機械学習責任者である Russ Salakhutdinov と他の数人の従業員が、健康とバイタルサイン、LiDAR の体積検出、構造化された出力による予測、画像処理とカラー化、インテリジェントなアシスタントと言語モデリング、およびアクティビティ認識。近い将来、これらのさまざまなトピックやその他のトピックに関する論文が発表される可能性があります。










