画像の認識・理解シンポジウム (MIRU2021) に参加しました！

エムスリーエンジニアリンググループ AI・機械学習チームの浮田です。

先日の画像の認識・理解シンポジウム (通称MIRU) にエムスリーのAI・機械学習チームから4名参加してきました。

f:id:uKita:20211019190732j:plain

MIRUとは
Can Vision Transformers Learn without Natural Images?
- 推しポイント
Part-based Analysis to Understand Font Impression
- 推しポイント
自己教師あり学習による映像とステレオ音の意味的および空間的対応関係の獲得
- 推しポイント
iMADAO: 画像事例に応じだデータ拡張戦略の設計手法
- 推しポイント
まとめ
We are hiring!

MIRUとは

コンピュータビジョン (CV) の領域で国内最大級の会議で、正式名称はMeeting on Image Recognition and Understandingです。今年はCOVID-19の影響でオンライン開催となりましたが、2件の招待講演、3件のチュートリアルを含む200件以上の発表が行われました。また、CVPRなどのCV分野のトップ会議に採択されたトークのセッションなどもありレベルが高く、現在のCV研究の潮流を掴むにはよい機会でした。

エムスリーでは最近、医用画像処理にも取り組んでいることから、スポンサー企業として聴講し、企業ブースを設置しました。なお、今回の会議はオンライン開催だったため、Oviceのプラットフォーム上での仮想的なブースを設置することになりました。

以下、参加したメンバーが面白いと思った論文を1本ずつ紹介します。

Can Vision Transformers Learn without Natural Images?

論文リンク: https://arxiv.org/abs/2103.13023
紹介者: 浮田

推しポイント

Transformerの事前学習において、ImageNetなどの自然画像で学習する代わりに、数式的に生成したフラクタル図形で学習する手法を提案した論文です。Transformerにはもともと「訓練データ数やモデルパラメータ数を増やすに従って精度が良くなる」というScaling law*1が知られており、良い精度を出すにはデータ数が重要だと考えられます。本論文の手法により訓練データを大量生成できるとTransformerの学習に有用と考えられ、とても興味深い内容でした。

Part-based Analysis to Understand Font Impression

論文リンク: https://arxiv.org/abs/2103.14216
紹介者: 堀江

推しポイント

フォントから受ける印象を、文字そのものの影響を除いて評価することを目的にしています。MyFonts.com というサイトを知らなかったのですが、膨大なフォントに様々なタグが付与されていてとても面白いデータセットでした。

論文では、SIFTでキーポイントを抽出しパーツごとに順不同の集合としてDeepSetsでラベルを予測、中間層の重みを用いてパーツごとの印象への寄与を評価するという流れになっていました。

f:id:eemon18:20210928184639p:plain — モデル概観

実際に、ancientであれば "止め" のような部分に特徴があり、girlyと感じるのは先端の丸みや曲線の細くなる部分、と納得感のある結果が得られており面白かったです。

f:id:eemon18:20210928184724p:plain — パーツ毎に印象を評価した際の結果の一部 (Fig. 5)

自己教師あり学習による映像とステレオ音の意味的および空間的対応関係の獲得

紹介者: 大垣

推しポイント

MIRU2021では、自己教師あり学習のタスクの論文もたくさんありました。個人的に自己教師あり学習の研究を聞くのが好きなのは、データセットの中に自然に存在する入力 -> 出力の自己教師関係を発見し、アイデア勝負でいくらでも広がりが有る点です。

この論文での自己教師のアイデアは、動画には、”画像”と”そのシーンでなっていた音声”の教師データが存在しているというものでした。実際にそのシーンでなっていた音を正例、別のシーンの音を負例として学習するものです。実はそのアイデア自体は既存手法なのですが、この研究で提案されていたのは、そのシーンでなっていた音のステレオチャネルを反転させたものも負例とでき、それにより、シーンの位置関係など細かいセマンティックが学習できるというものでした。

動画の中には音声と画像の自己教師関係が存在しているという話が面白かったし、その中で位相に着目することで更に教師データを作れるというアイデアも非常に自然で面白かったです。

iMADAO: 画像事例に応じだデータ拡張戦略の設計手法

紹介者: 薛

推しポイント

Autoaugmentationという、効果はあるが構造が複雑かつ学習コストが莫大な手法に対して、簡潔な設計を提案した論文

Autoaugmentationは、data augmentation（データ拡張）という人の経験に頼って設定されることが多い工程をモデル化し、自動で最適化をする手法です。この研究は、分類タスクにおいて従来分離している分類モデルとaugmentation policyを一体化する思想で、end-to-endで全てのモジュールをgradient descentで学習するように設計し、augmentation policyの最適化のコストが大幅に下げることに成功しました。