こんにちは。エンジニアリンググループのAI・機械学習チームに所属している鴨田 です。弊チームでは毎週1時間の技術共有会を実施しており、各自が担当するプロダクトの技術や、最近読んだ論文を紹介しています。今週はICLR2026が開催されていることもあり、同学会の論文読み会となりました。1セッションにつき1名が担当し、各自が選定した論文の詳細について解説しました。本ブログではその一部として、セッションごとの「推し論文」を紹介します。
まだ読んでいない方は前回のAAAI2026の輪読会ブログも是非ご覧になってください

- Is it Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
- AnyUp: Universal Feature Upsampling
- Neon: Negative Extrapolation From Self-Training Improves Image Generation
- RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data
- Invisible Safety Threat: Malicious Finetuning via Steganography
- We are hiring !!
Is it Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
- セッション: Oral Session 2D LLMs and Evaluation
- 著者: Xinpeng Wang, Nitish Joshi, Barbara Plank, Rico Angell, He He
- 論文リンク:https://openreview.net/forum?id=Gk7gLAtVDO
- 紹介者: 髙橋

論文中Figure 2から引用
推しポイント
はじめに
ある評価指標が目標に設定されると、その評価指標はもはや良い評価指標ではなくなる
これはよく知られた格言でKPIデザインなどでよく言及されますが、LLMにも当てはまります。
最近のコーディングエージェントなどのLLMは、多ステップの推論を経て複雑な問題を解きます。こうした推論能力の最適化には主に強化学習が用いられ、最終的な正解や、そこに至る正しい推論ステップ(過程)に対して報酬を与えることでモデルの学習が進められます。
報酬のハッキング
この学習の過程でモデルは設計者の期待から逸脱した行動によって報酬を「ハック」しようとすることがあります。
例えば、ユニットテストの通過のみを報酬として設定すると、モデルは要件から想定される実装の代わりに、テストの入出力をそのままハードコードして無理やりパスさせようとするケースがあります。
このような「明示的なハッキング」であれば、モデルの推論過程(CoT:Chain-of-Thought)を監視することで比較的容易に検知できます。なぜなら、モデルが抜け道を使おうとするプロセスや意図自体が、CoTのテキスト上にそのまま出力されてしまうためです。
暗黙のハッキング
今回の論文が問題提起しているのは、明示的なハッキングより巧妙な「暗黙のハッキング(Implicit Hacking)」と呼ばれる現象です。
暗黙のハッキングとは、モデルが実際には早期に抜け道を利用して答えを出しているにもかかわらず、CoT上では「いかにも正当な推論を順序立てて行っているかのような」もっともらしいテキストを生成して隠蔽している状態を指します。
暗黙のハッキングが行われていると、出力されたテキストを監視する従来の手法では見抜くことができなくなってしまいます。
Claude Codeを利用していても、実際には実行していないコマンドをあたかも実行したかのように報告することがあります。
論文の提案
論文中の実験ではタスクの中に意図的にLoophole(容易に報酬が得られる抜け道)が存在する環境を構築し、強化学習を通じてモデルがどのように振る舞うかを観察しています。
引用図のように特定の条件(問題のid番号や負の数を返せば報酬が得られる)を満たせば本来の推論をスキップして正答できる抜け道を与えた結果、モデルはその抜け道を利用して容易に正解を導き出しながらも、出力上はもっともらしく長い推論過程を生成し続けるという「暗黙のハッキング」を学習するモデルが実際に作られました。
論文ではこうした暗黙のハッキングを検出するための手法として、Truncated Reasoning AUC Evaluation (TRACE)を提案しています。 考え方としては、「ハッキングを利用していると推論のステップ数が少ない段階で本来解けないはずの問題を正解できてしまう」、という性質を逆に利用します。
具体的には、推論ステップの生成を10%、30%、50%といった任意の割合で強制的に打ち切り、その時点での文脈のみから最終解答を出力させます。 各打ち切り時点の推論ステップと正答率をグラフにプロットし、その曲線の下の面積(AUC: Area Under the Curve)を計算します。
暗黙のハッキングを行っているモデルは、推論の初期段階で打ち切られても高い正答率を保つため、AUCの値が大きくなる一方でハッキングを利用していないモデルでは、推論ステップ数に伴って正答率が向上するためAUCの値は比較して小さくとどまります。
この指標を用いることで、生成されたテキストのもっともらしさに騙されることなく、モデルの内部的な推論の早期終了を定量的に検知できる、と論文では主張されています。
感想
LLMの発展は常に目覚ましいもので、どうしてもモデルの規模に目が奪われがちですが、モデル能力の向上は評価側の発展に支えられているのだなと改めて感じさせてくれる論文でした。
AnyUp: Universal Feature Upsampling
- セッション: Oral Session 5E Learning in computer vision
- 著者: Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen
- 論文リンク:https://arxiv.org/pdf/2510.12764
- 紹介者: 鴨田

視覚基盤モデル(VFM)の発展により、画像全体の高度な意味理解が可能になりましたが、構造上出力される特徴量マップの空間解像度が劇的に低下してしまうため、ピクセル単位の精緻な予測(セグメンテーションや深度推定など)が難しいという根本的な課題があります。
この課題を解決し、低下した解像度を復元するアプローチとして特徴量アップサンプリングの研究がこれまでも盛んに行われてきました。しかし、既存の学習ベースの手法には、DINOやCLIPなどバックボーンとなるモデルを変更するたびに、アップサンプラー全体をゼロから再学習しなければならないという実用上の大きな壁がありました。
この論文の面白いところは、特定のモデルアーキテクチャに依存しない「特徴量非依存(Feature-Agnostic)」なアップサンプリングを推論時に実現している点です。
従来のように特定の特徴量に依存するのではなく、入力段に独自の「特徴量非依存レイヤー」を設け、画像のどこにエッジやテクスチャの境界があるかといったパターンを抽出するアプローチをとっています。これにより、未知の次元数や表現空間を持つ特徴量であっても、一度学習するだけで任意の解像度へ柔軟に拡張できるようになりました。
推しポイント
個人的に一番の推しなのは、「画像の解像度を復元(アップサンプリング)するには、わざわざ画像全体の特徴を計算しなくても、局所的(Local)な特徴を見るだけで十分ではないか」というアプローチです。
従来の手法は画像全体のクロスアテンションを計算しがちでしたが、AnyUpは局所的な構造変化さえ捉えられればよいと割り切り、ローカルなウィンドウアテンションを採用しています。さらに、複数の異なるモデル(DINOv2とSigLIPなど)でマルチバックボーン学習させることで、未知のモデルに対するゼロショット汎化性能を底上げしており、この直感的な設計と普遍性の組み合わせが見事です 。
課題
ただし、ウィンドウアテンションの副作用として、オブジェクトの境界分離能力(空間的識別性)が甘く、特徴量マップ全体が滑らかに一様化しやすい傾向があったり、アテンション計算の性質上、解像度が大きくなると計算コストとメモリ消費が二次関数的に爆発してしまうという構造的な弱点も抱えています。
このような課題が解決されていないので、計算の線形化を目指す「UPLiFT」や、学習効率と高倍率へのスケーリングに特化した「DiveUp」という論文が続々と登場しています。
感想
とはいえ、テーマ自体が「普遍的アップサンプリング」として面白いので後続の論文がたくさん出ている点と、この論文自体シンプルなアプローチで読みやすい点を考慮して推し論文としました!
後続の論文も読みやすいので合わせて読んでみてください!
Neon: Negative Extrapolation From Self-Training Improves Image Generation
- セッション: Oral Session 1B Generative models I
- 著者: Sina Alemohammad, Zhangyang Wang, Richard Baraniuk
- 論文リンク:https://openreview.net/pdf?id=kpLRYtPGt3
- 紹介者: 中村 伊吹

推しポイント
生成AIの性能向上には大量のデータが必要ですが、高品質な実データは今後ますます貴重になります。そこで期待されるのが、モデル自身が生成した「合成データ」を使った自己学習です。ただし、合成データだけでFine-Tuningすると、品質や多様性が急速に崩れる「モデル崩壊」が起きやすい、という難しさがあります。
論文では、合成データによる崩壊の原因を、モデルがもともと出しやすい画像をさらに出しやすくしてしまう mode seeking にあると説明しています。つまり、自己生成データにはどうしても偏りがあり、その偏りでさらに学習すると、よく出るパターンばかりが強化され、生成の多様性が失われていく、という見方です。
この論文の面白いところは、そのモデル崩壊を「避けるべき失敗」として扱うのではなく、あえて利用する発想にあります。合成データで少しだけ自己学習したときの更新方向を、「モデルが崩壊していく方向」だとみなし、その逆向きにモデルを動かすことで性能改善を狙います。タイトルの Negative Extrapolation という名前も、まさにこの操作を表しています。
Neon 自体の実装はかなりシンプルです。まずベースモデルで合成データを生成し、そのデータで短くFine-Tuningしたモデルを作ります。その後、Fine-Tuning後のモデルへそのまま進むのではなく、差分を反対向きにマージすることで最終モデルを作ります。
個人的に推しなのは、失敗をただ避けるのではなく、失敗する方向を観測して利用するという考え方です。普通なら「自己学習で壊れるならやめよう」となりそうなところを、「その壊れ方は、むしろ真の分布からのズレを教えてくれているのではないか」と読み替えており、その補正を単純な操作で実現しています。シンプルな式と実装で、ここまでストーリーが立っており、さらに結果が出ているのが見事です。
もちろん万能な方法というよりは、ある程度強いベースモデルがあり、自己生成データの偏りが問題になってくる場面で効く手法のようです。それでも、追加の実データなしで使えて、実装も比較的軽く、しかも発想にストーリーがあるという意味で、かなり「推したい論文」です。
RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data
- セッション: 6F AI for science III
- 著者: Peiyan Hu, Haodong Feng, Hongyuan Liu, Tongtong Yan, Wenhao Deng, Tianrun Gao, Rong Zheng, Haoren Zheng, Chenglei Yu, Chuanrui Wang, Kaiwen Li, Zhi-Ming Ma, Dezhi Zhou, Xingcai Lu, Dixia Fan, Tailin Wu
- 論文リンク: https://openreview.net/pdf?id=y3oHMcoItR
- 紹介者: 池嶋
推しポイント
数値シミュレーションを物理演算ベースから機械学習ベースへ移行させる試みは、計算コストの削減を目的に以前から行われてきました。しかし、学習に必要な実データの不足から数値シミュレーションの結果を代用せざるを得ず、数値誤差や実環境のノイズによって現実の挙動を再現できない「Sim-to-Real」のギャップが長年の課題でした 。
本論文「RealPDEBench」は、この課題を解決するために、現実の物理現象の計測データ、それに対応する数値シミュレーションデータ、および多角的な評価指標を統合したベンチマークを提案しています 。ベンチマークのデータを使い、既存の10種類のモデルを用いた現実データに対する予測性能の比較検証も合わせて行われています 。

マスク学習によるダイナミクスの獲得
本研究のモデル比較検証では、数値シミュレーションデータで事前学習を行い、その後に実データでファインチューニングを施す手法が最も高い性能を示しました 。事前学習では、数値シミュレーションで得られた「本来観測困難な全点での水圧」などのデータもランダムマスクを施して使用しています。これによりモデルは、現実に観測可能な流速情報から隠された水圧の影響を推論し、物理法則のダイナミクスを捉えることができました 。これにより、現実の予測をする際に避けられない微細な乱れや計測ノイズが混じったデータに対しても、物理法則に基づいた精度の高い予測が可能になったという点で、非常に面白く感じました。
U-Netの有用性とコストパフォーマンス
性能評価の結果、DPOTのような大規模な事前学習済み基盤モデルベースの手法が非常に高い精度を記録しました 。その一方で、比較的古典的なU-Netも多くの指標で優れた結果を残しています 。これは前述のマスク学習などの戦略によって、モデルが軽量であっても十分に物理法則の知識を内包できる可能性があることを論文では示しています 。U-Netのようなモデルが有力な選択肢となり得ることが示され、リソースに制約がある実運用の現場で活用できそうと感じました。
実データ収集における計測規模
本ベンチマークの信頼性を支えているのは、700以上に及ぶ実際の実験です 。具体的には、水と観測用粒子を満たした水槽を薄いレーザーで照らし、その照らされた層内の粒子の動きをハイスピードカメラで捉えて流速を算出するという実験を繰り返して流体全体の流速を計測しています。円柱周りの流れや翼の3D流動など、複雑な流体現象を大量に含んだ大規模データセットとなっています。現実の物理現象を機械学習で推論するために、ガッツリと実験をしているのがとてもおもしろく感じました。

Invisible Safety Threat: Malicious Finetuning via Steganography
- セッション: Oral Session 1F Privacy and security
- 著者: Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang∗
- 論文リンク:https://openreview.net/forum?id=6cEPDGaShH
- 紹介者: 氏家

推しポイント
みなさんLLMに「その質問には答えられません」と言われたことはないでしょうか。これはGPTやGeminiといったLLMサービスが倫理的に問題のある質問や、医学など特定の専門分野への回答を避けるように学習されている他、有害なプロンプトや出力を検知させているためです。 より堅牢に安全な回答をさせるため、悪意のあるプロンプトやファインチューニングでこれを突破する危険性を示す研究もありますが、それらはプロンプトや出力が明らかに有害であったり不自然であることが多く、有害かどうかの検出が比較的容易で防ぎやすいものでした。
ステガノグラフィによる攻撃
この論文では、LLMに不可視文字(ゼロ幅文字)を用いたステガノグラフィ(データ隠蔽)による会話を学習させ、表向きには完全に無害な日常会話を装いながら、その裏側でLLMに有害な情報を質問し回答させています。具体的には、ゼロ幅文字であるU+200BやU+200Cを用いてバイナリ列として情報をエンコードし、表面上は学習データに有害な言葉を一切含めないことでsafety alignmentを回避し、かつ推論時の監視も完全に素通りできる危険性を示しました。
ステガノグラフィでの学習、推論の工夫
直感的にはゼロ幅文字による会話は学習が難しそうですが、それを効率的に学習させるための工夫もされています。LLMが事前知識として持っている4進数(Base-4)での回答を補助タスクとして学習させる他、学習初期ではエンコード前の質問や回答を含めて段階的に学習させています。実際この手法により、オープンソースモデルだけでなく、OpenAIのfine tuning APIを用いてGPT4.1に悪意ある質問に回答させることに成功しています。 ただし、攻撃手法として完璧なわけではなく、エンコードする関係上トークン数は嵩んでしまい、1トークンでも生成を間違えるとデコードに失敗してしまいます。また、不可視文字による攻撃手法を認識していればフィルタリングにより防ぐといった対策も同時に論じられています。
感想
プライバシー保護の研究などと同じく、安全性の向上はその攻撃手法の高度化とセットでイタチごっこのような関係だと思います。このような研究が続くことで将来の堅牢なLLMへとつながっていくと思いますし、手法や発想にも工夫があるという意味でこの論文を推薦しました。
We are hiring !!
ICLR2026の論文の面白さにワクワクする皆さん、エムスリーAI・機械学習チームで一緒に機械学習エンジニアやりましょう! また、学生の皆さん向けには機械学習・MLOpsインターンも募集してます。ぜひ一緒にサービス開発していきましょう。
エムスリーでは、機械学習はもちろん、最新技術へのアンテナが高い仲間を歓迎しています。新卒・中途それぞれの採用、カジュアル面談やインターンも常時募集しています!