エムスリー・エンジニアリンググループで機械学習エンジニアをしている大瀧 (@329) です!
9/5 に、merpay×M3 機械学習 NIGHTに参加しました。 両社の機械学習に関する取り組み内容を共有する中で得た刺激を世界に発信したいと思います! mercari.connpass.com
イベント概要
merpay、エムスリー各社の機械学習の活用について共有し合うイベントです。 私大瀧は、業務でアルゴリズム開発/開発プロセスの改善/効率化を担っているので、 merpayの方とそれらのテーマに関して情報交換を行う目的で参加しました。
登壇者は全部で6人。 merpayから3人、エムスリーから3人という構成で、以下のようなテーマの発表がありました。
- @dama_yu: 開発体制について
- @sugar1023_: merpayでのML Ops
- @Hmj_kd: 守りたいデータがある
- sasakawa: エムスリーのデータ分析基盤
- @m_nishiba: ユーザー行動を加味した記事の類似度計算
(敬称略、事情により紹介できない方がいます)
各発表を軽く紹介していきます!
merpay MLチーム
merpay MLチームにおけるスクラム開発(@dama_yu)
スクラム導入して良かったことを3行でまとめると...
- いつ何をやればよいかが明確になった
- チームの問題点のリカバリーが速い
- タスク消化速度が可視化できた
merpayではML開発タスクを「モデリング」「基盤開発」の2つに分け、 モデリングは「EDA」「特徴量組み込み」の2つのサブタスクから成るものであると定義することでタスク状態の可視化を推進しているそうです。
merpayでのML Ops(@sugar1023_)
ML Ops基盤を作成して良かったことを3行でまとめると...
- チームでの分析がスケールするようになった
- チームでのモデリングがスケールするようになった
- 結果の再現性が担保されるようになった
機械学習エンジニアが行う作業は、特徴量追加のPull Requestを作るだけ!な素晴らしい世界を実現しているとのことです。 内製モジュールはscikit-learnに準拠するようなインターフェースにしているのだとか。
守りたいデータがある(@Hmj_kd)
以下の3点に関しての発表でした。
- クレジットスコアモデリングの一般論
- メルカリではどういったデータを分析に利用できるか
- メルペイクレジットスコアのこれからについて
発表にはプライバシー保護技術や安全性を定量的に議論する方法についての言及も含まれており、 全編通して興味深い発表でした。
エムスリーAI・機械学習チームの発表
(m3のデータ基盤の話)(sasakawa)
sasakawaは、エムスリーのデータ基盤周辺について話してくれました。 エムスリーのバッチ処理基盤をembulk + digdagに移行しようとしている話や、 digdagのプラクティスについて情報を共有しました。
Matrix Factorization と Text CNN による Cold Start Problem への取り組み(@m_nishiba)
エムスリー機械学習チームのリーダー西場は、 「ユーザーにとって似ている単語がベクトル空間上で距離が近くなる」ような埋め込みベクトルの学習方法を発表しました。
www.slideshare.net
まとめ
merpay×M3 機械学習 NIGHTではmerpay、エムスリーが機械学習についての様々な取り組みを発表し合いました。 懇親会でも濃密な知見の交換が行われ、良い刺激を得られたイベントであったと思います。
ここだけの話ですが、閉会後に「この会、定期的にやりましょう!」という言葉を耳にしております。 今回残念ながら参加できなかった方やこのブログを読んで参加したくなった方は、 エムスリーエンジニア公式ツイッター(@m3_engineering)をウォッチして頂けるとそのうち...?
We're Hiring!
最近はインターンとしてチームに参加してくださる方も多く、新たな風が吹き荒れ続けております。 1人あたりの影響力が大きくスピード感のあるAI・機械学習チームを体験したくなった方は、いますぐご応募頂ければと思います!
AI・機械学習チーム一同、あなたの参戦を心待ちにしております!