こんにちは。エンジニアリンググループのAI・機械学習チームに所属している鴨田 です。弊チームでは毎週1時間の技術共有会を実施しており、各自が担当するプロダクトの技術や、最近読んだ論文を紹介しています。今週はICCV2025が開催されていることもあり、同学会の論文読み会となりました。1セッション1名の担当で、各自がセッション内で気になった論文の詳細を解説します。本ブログではその一部として、セッションごとの「推し論文」を紹介します。

- Scaling Laws for Native Multimodal Models
- Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
- Learning Streaming Video Representation via Multitask Training
- RayZer: A Self-supervised Large View Synthesis Model
- Importance-Based Token Merging for Efficient Image and Video Generation
- Removing Cost Volumes from Optical Flow Estimators
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
- We are hiring !!
Scaling Laws for Native Multimodal Models
- セッション: Oral 1A: Multi-modal learning
- 著者: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa
- 論文リンク:https://arxiv.org/abs/2504.07951
- 紹介者: 鴨田 (機械学習エンジニア)

Figure 1. Scaling properties of Native Multimodal Models
この論文で示したスケーリング則の図。上部のグラフはLossを下げるためには計算量と学習データ量を比例させてスケールさせていかないといけないこと、Early-FusionがLate-Fusionとそこまで差がないことを示している。下部のグラフは計算予算(C)が与えられたときに、最適な性能を達成するためのモデルパラメータ数(N)と学習トークン数(D)の比率(N/D)のトレードオフの図。上下のグラフから、Late-Fusionは本質的な優位性がないこと、Early-Fusionがより効率的であることがわかる
推しポイント
マルチモーダルAIの分野では、テキスト、画像、音声といった複数のメディアを通じて世界を認識する汎用モデルの構築が長年の目標とされてきました。そのアーキテクチャは、各モダリティの特徴を統合するタイミングによって、主にEarly-FusionとLate-Fusionに大別されます。
現在主流となっているのはLate-Fusionで、これは画像エンコーダやLLM(大規模言語モデル)など、個別に事前学習されたコンポーネントをネットワーク後段(Late)で接続する手法です。このアプローチは、モダリティを初期段階(Early)で統合するEarly-Fusionよりもサンプル効率(少ないデータでの学習効率)に優れる、というのがこれまでの通説でした。
本研究では、この通説に異議を唱えています。
パラメータ数を合わせて比較した時に、ネイティブなEarly-Fusionモデルが、一般的に主流とされるLate-Fusionモデルと比較して、本質的な性能上の不利がないだけではなく、学習効率、パラメータ効率、およびデプロイの容易さにおいて優位性を持つことを指摘しています。さらにMixture of Experts(MoE) をEarly-Fusionに適用することで性能が大幅に向上し、モデル内にモダリティ毎にexpertが自律的に形成されることも観測されました。
MoEを適用すると計算効率が良くなる。ドメイン毎のexpertが自律的に形成されるといった話は他の論文でも議論されていますが、この研究ではスケーリング側を利用してモデルの性能(達成可能なLoss)をある程度予測できる点が功績かなと感じました。
MoEを適用することで学習難易度が上がってしまう点で課題はありつつも、限られたパラメータで高性能なマルチモーダルモデルを実装する指針が示された点が汎用的でいい論文だなと感じたので推し論文にさせていただきました。(Appleインターン中の成果なのに457モデルでスケーリング側を検証したところもすごい)
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
- セッション: Oral 5B: Applications and evaluation
- 著者: Chen, Yi and Ge, Yuying and Li, Yizhuo and Ge, Yixiao and Ding, Mingyu and Shan, Ying and Liu, Xihui
- 論文リンク: https://arxiv.org/abs/2412.04445
- 紹介者: 伊吹 (ソフトウェアエンジニア)

推しポイント
最近だとNLP分野が勢いのある印象ですが、NLPの学習プロセスを真似することで動画像に対しても同じように解くことができるぞ、というのは面白いなと思い選びました。調べてみると、似たような手法が提案されている論文も複数あり、これから発展していきそうな気配を感じました。
大規模言語モデル(LLM)が、テキストコーパスに対する自己回帰学習によって自然言語処理分野に革命を起こしたように、本論文では、その枠組みをロボット工学に応用し、膨大な「動画コーパス」から動きの言語である「Motion Token」を学習させるというアプローチが提案されています。ここではロボットアームを対象に「コーラの缶を持ち上げる」「真ん中の引き出しを開ける」「スポンジの横に青のペットボトルを移動させる」といった指示を実行させることを目指します。
ロボット工学では、ハードウェアも関わることから、ラベル付きの行動データを大量に生成することは労力のかかる作業です。そこで、コーパスから自己回帰学習で基盤モデルを作り、それをタスクに合わせてFine-Tuningする、というLLMの枠組みをそのまま利用します。
本研究のプロセスは、以下の3つのステップです。
まず、連続的な動画の動きを、言語モデルが扱える離散的な「Motion Token」へと変換します。VQ-VAEを利用し、1フレーム+トークンから次のフレームを生成するタスクを解くことで、Motion Tokenのトークナイザーを作成します。VQCodebookと呼ばれる128個のベクトルのいずれかに変換する層で最終的な出力は離散トークンとなります。この作業はいわばロボットのための「単語」を創出する作業に相当します。
次に、トークナイザーによってトークン化された系列を使い、指示文と初期フレーム画像を入力として、「この動きの次には、どの動きが来るか」を予測するタスクを自己回帰的に学習させます(Moto-GPT)。これはLLMが文章の次に来る単語を予測するのと同じ原理です。モデルはインターネット上の動画から物理法則などの一般的な知識を得ることになり、これがベースモデルとなります。
最後に、事前学習で得たベースモデルを、特定のロボットアームの動作へと変換・適応させます。ロボットアームの動きに変換する層を追加し、少量の行動ラベル付きデータを用いて微調整(Fine-Tuning)することで、少ないデータ量で固有のハードウェアに対応させます。
SIMPLERというシミュレーション環境による評価では、98Mの少ないパラメータ数でありながら、平均で61.4%のタスクが解けており、ロボット分野における基盤モデルであるRT-2-XやOpenVLAよりも高い精度となっています。
CV分野でもLLMの考え方で解けることは面白く、またこれを応用すれば、例えば人間が運転したデータからそのまま自動運転の基盤モデルを学習したり実際の車体への適用なども可能そうです。事実、ロボットマニピュレーションの分野では本論文と類似の手法が同時期に複数登場しており、これから発展していきそうな気配を感じています。 「見て覚える」モデルがこれからも登場していきそうという発展性を感じており、この論文を推します。
Learning Streaming Video Representation via Multitask Training
- セッション: Oral 3A: Foundation models and representation learning
- 著者: Yibin Yan, Jilan Xu, Shangzhe Di, Yikun Liu, Yudi Shi, Qirui Chen, Zeqian Li, Yifei Huang, Weidi Xie
- 論文リンク: https://arxiv.org/abs/2504.20041
- 紹介者: 氏家 (機械学習エンジニア)

推しポイント
言語や画像の分野で猛威を振るっている基盤モデルですが、動画理解の分野でも様々なモデルが提案されています。自動運転やロボットマニピュレーションなどに用いる際リアルタイムでの処理が要求されるため、ストリーミングで処理した際に低遅延で動くことも重要です。ただ、pixelやpatch単位で時系列方向での相互作用を実現するのは計算量が大きくなりがちで、既存研究ではframe単位に一度poolingしてから時系列情報を組み込むことで低遅延を実現してきました。
この論文では、frame単位に特徴量をpoolingする前に、patch単位で時系列方向にattentionを取ることでより詳細に時系列変化をとらえています。愚直にやれば当然計算量は上がってしまいますが、過去のframeに対してはKey-Value cachingを適用することで低遅延を実現しています。よくある実装ですが、この論文ではCausal Temporal Attentionと呼ばれています。
また、この論文の面白いポイントで、動画と自然言語を統一された一つの埋め込み空間で学習し、その埋め込み空間での特徴量から各タスクを解いています。扱うタスクはセグメンテーションのようなpixel単位のものから行動分類といった動画単位のタスクまで様々ですが、それぞれの粒度で学習を行うためにglobal (動画)、temporal(frame)、spatio-temporal(pixel)の3段階で特徴量を出力し、すべて自然言語と同じ空間に埋め込まれるよう学習されます。これにより、patch、frame、動画全てのタスクで言語を介してsemanticな情報を共有しながら効率的に学習できるというわけです。
動画理解のモデルは全然追っていませんでしたが、現状でもかなり低遅延でそこそこの精度が出ているのに最初驚きました。この論文は、モデルは素直でモチベーションもわかりやすく、言語を介してタスクを揃える発想もあり、読んでいて面白かったです。

RayZer: A Self-supervised Large View Synthesis Model
- セッション: Oral 2A: View Synthesis and Scene Reconstruction
- 著者: RayZer: Hanwen Jiang, Hao Tan, Peng Wang, Haian Jin, Yue Zhao, Sai Bi, Kai Zhang, Fujun Luan, Kalyan Sunkavalli, Qixing Huang, Georgios Pavlakos
- 論文リンク: https://arxiv.org/pdf/2505.00702
- 紹介者: 池嶋 (機械学習エンジニア)
推しポイント
この研究は、写真や動画からリアルな3D空間を再構成し、それを新しい視点から自由に描画する技術をテーマにしています。 既存の主要な手法としてNeRFやGaussian Splattingが知られていますが、これらの手法は入力画像に対応するカメラパラメータを必要とします。そのため、通常の動画のようにカメラパラメータがない場合は、COLMAPなどの別手法で事前に推定するという前処理が不可欠でした。
本研究が提案する「RayZer」は、カメラパラメータとシーンの3D表現を、Transformerベースの単一のネットワークでend-to-endに同時推定することで、この課題を解決しています。この仕組みにより、数枚の同一シーン画像から、新たな視点からの画像が生成できるようになっています。
論文のFig.3に、そのネットワークの全体像が示されています。

- カメラ推定(ピンク色の部分): まず、入力された画像からカメラパラメータを推定し、「Plücker ray map」という形式の表現に変換します。
- シーン再構成(緑色の部分): 次に、一部の画像とそのカメラ情報(Plücker ray map)を入力として、シーン全体の3D表現を「scene token
z*」というトークン群に集約します。 - レンダリング(水色の部分): 最後に、シーン再構成に使われなかった別視点のカメラ情報と、シーン表現である
z*を組み合わせることで、その視点からの画像を生成します。
この生成画像と、対応する実画像との誤差を最小化するように、3つの部分からなるネットワーク全体を自己教師ありで学習させます。ここで特に注目すべきは、1シーンあたり10枚程度の少数の画像しか必要としない点です。本研究では、事前にさまざまなシーンの画像で汎用scene token zを学習します。ここで「こういうオブジェクトがあればこういうトークン表現」という知識を獲得します。scene token zを使うことで、新たな1つのシーンに対しては10枚程度の少数の画像だけで3Dシーン表現z*を構築できると論文では報告されています。
結果として、RayZerは既存研究のカメラの位置情報が与えられたオラクル手法と同等以上の性能を達成しました。特に、特徴点の抽出が困難な真っ白な壁のような、従来手法が苦手とするシーンで高い性能を示しています。 一方、植物のような複雑な構造をもつオブジェクトはscene tokenで対応できていないためか、再現が苦手なようです。
こうした課題は残るものの、カメラパラメータなどの付加情報を一切必要としないend-to-endの仕組みは、Web上の膨大な動画データを活用できる高いスケーラビリティを秘めています。NeRFやGSはカメラパラメータを使ったレンダリングを目指した研究である一方、本研究では空間の基盤モデル構築を目指しています。その将来性に大きな魅力を感じ、今回の推し論文とさせていただきました。
Importance-Based Token Merging for Efficient Image and Video Generation
- セッション: Oral 2B: Efficient Learning
- 著者: Haoyu Wu, Jingyi Xu, Hieu Le, Dimitris Samaras
- 論文リンク: https://arxiv.org/abs/2411.16720
- 紹介者: 農見 (機械学習エンジニア)
左側が従来手法で右側が本手法。従来手法ではattentionを計算する部分(白)がまばらなのに対し、本手法では顔付近の重要な位置でattentionを計算している。そのためクリアな画像が出力されている。
論文の図1より引用
推しポイント
画像生成の分野では、高速化技術として「Token Merging」という手法があります。これは、生成過程において画像の似ているピクセル(トークン)同士を統合(マージ)することで、Attention計算を効率化し、処理速度を向上させる手法です。しかし、従来のToken Merging手法では、マージするピクセルをランダムまたは事前に決められたパターンで選んでいたため、画像にとって重要な情報を含む部分も統合されてしまい、結果として画像がピンボケしてしまうという問題がありました。この問題を解決するため、本手法ではClassifier-Free Guidance(CFG)スコアを用いて画像の重要な部分を特定し、その部分を維持しながらToken Mergingを行うアプローチを採用しました。この工夫により、鮮明な画像を維持したまま高速化を実現することに成功しました。CFGスコアとは、プロンプトありで生成された画像と、プロンプトなしで生成された画像の差分を示すスコアです。このスコアの特性上、CFGスコアが高いということは、その部分がプロンプトの内容(例えば被写体や特定の要素)を再現するために必須であることを意味します。逆に、スコアが低い部分は背景領域になることが多いです。したがって、CFGスコアを基準とすることで、画像内で視覚的に重要度の高い「重要トークン」を正確に判定することが可能ということを見つけました。
CFGスコアを活用する最大の利点は、コスト効率の良さにあります。CFGは現在、大半の画像生成モデルでプロンプトに忠実な画像を作るために使用されているため、重要度判定のために追加の計算コストが一切かからないというメリットがあります。この追加の計算コストなしで画像の鮮明度を向上させられる点が、この論文の良いところだなと思いました。さらに、トークンをマージする際、重要度の高い順でトークンを選ぶのではなく、重要トークンの中でランダム性を導入する工夫も加えることで、より鮮明な画像生成が実現できたとのことです。
Removing Cost Volumes from Optical Flow Estimators
- セッション: Oral 1B: Structure and Motion
- 著者: Simon Kiefhaber, Stefan Roth, Simone Schaub-Meyer
- 論文リンク:https://arxiv.org/pdf/2510.13317
- 紹介者: 范 (機械学習エンジニア)


推しポイント
オプティカルフローは、多くのコンピュータビジョンタスクにおいて上流タスクとして活用されています。ディープラーニング発展以降、FlowNet、FlowNet2.0、PWCNet、そして RAFT は、オプティカルフロー分野における重要な技術的マイルストーンとして広く認識されています。2020 年に全ペア照合のコストボリューム(All-pair Cost-Volume )で大域的な対応を捉え、反復構造(recurrent architechture)でフロー推定を繰り返し精密に修正し、高精度とロバスト性を達成しました。
本研究では、「RAFT」 のようなパイプラインにおいて、修正ネットワーク (Refinement Network)とコンテキストネットワーク (Context Network)が十分に訓練された後にはコストボリュームの重要性が低下するという経験的知見を得ました。具体的には、訓練中期以降、コストボリュームを使用する特徴ネットワーク (Feature Network) で推定されたフローの EPE (End-point Error) が上昇しても、修正ネットワーク がそのフローを修正する能力を獲得するようになったのです。これに基づき、本論文は訓練プロセスを通じてオプティカルフロー推定器からコストボリュームを取り除くことを可能にする新しい訓練戦略を導入します。具体的には、初期簡単は全てのパーツで学習して、途中から特徴ネットワークを取り除き、学習を再開します。これにより、推論速度 (Inference Speed) が大幅に向上し、必要なメモリ使用量も削減しました。その上、ブロックを変更し、計算資源を大幅に削減しつつ同等の精度を達成しています。
個人的には、今後の研究において、この手法が基礎となり、さらに強力なモジュールや新しい設計が採用されることで、オプティカルフローの精度が再び大きくブレイクスルーする可能性が高いと考えており、このような将来性を感じたため、今回この論文を推し論文として選定させていただきました。
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
- セッション: Oral 4A: Vision + graphics
著者: Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu
- 紹介者: 髙橋 (機械学習エンジニア)

推しポイント
この論文ではプロンプトに応じて動く文字”Dynamic Typography”を生成する仕組みを提案しています。 数ある論文の中でも結果がおしゃれなことと綺麗にタスクを解きやすい形に分解したその妙味から選びました。
モデルは大きく分けてbase fieldとmotion fieldという2つのモジュールから構成されています。
第一ステップとしてBase fieldが文字を絵柄に変換し、次ステップでmotion fieldが生成された絵柄に対して差分を作成して最終的にアニメーションを出力します。
出力に対する損失関数としては 1. プロンプトとの一致 2. 可読性 3. 絵柄構造の3つから構成されています。
プロンプトとの一致: 最も重要なプロンプトに沿ったアニメーションを生成させるための損失関数として、Score Distillation Sampling (SDS)を採用しています。SDSはDreamFusionというテキストから3Dモデルを生成する手法の論文で提案されたものです。SDSでは事前学習済みのtext-to-video拡散モデルに対して「生成したアニメーションにノイズを付与したもの」とプロンプトを入力とし、付与されたノイズと拡散モデルが予測したノイズの誤差を損失として定義します。拡散モデルがノイズを正しく推定できる、ということはプロンプトの情報をもとにしてノイズ適用前がどのようなアニメーションであったか推測できていて、つまりプロンプトに沿った入力になっていることと期待できます。
可読性の維持: base fieldの入出力となる文字と絵柄に対してLPIPS (深層学習モデルを利用した画像類似度評価指標)を適用して類似度が維持されるように正則化しています。
絵柄構造の維持: はmotion fieldで生成した差分の前後フレームで三角メッシュ(Delaunay Triangulation)が急激に変化しないように、前後フレームでの角度変化に対してペナルティを与えるように設計されています。
ところで、文字はベクター画像ですが、diffvgというDifferentiable Rasterizer (微分可能なラスタライザ)を用いることで損失関数の計算ができるためend-to-endに学習が可能で、かつモデルはベクター画像を出力できます。
Dynamic Typographyではイラストレーションや文章と異なり膨大なリファレンスが無いですが、その中でもこのように高品質な生成物が作れるというのが、基盤モデル全盛のモダンさを感じます。今回の論文では、SDSによる基盤モデルの知識蒸留に加えて文字の可読性と絵柄構造に対して適切な損失関数を設計することで、生成物のクオリティを担保している点が素晴らしいと感じました。
We are hiring !!
ICCVの論文の面白さにワクワクする皆さん、エムスリーAI・機械学習チームで一緒に機械学習エンジニアやりましょう!また、学生の皆さん向けには機械学習・MLOpsインターンも募集してます。ぜひ一緒に論文を読みサービス開発していきましょう。
エムスリーでは、コンピュータビジョン・機械学習はもちろん、最新技術へのアンテナが高い仲間を歓迎しています。新卒・中途それぞれの採用、カジュアル面談やインターンも常時募集しています!