はじめに
はじめまして、エムスリー AI・機械学習チームの河合(@vaaaaanquish)です。
最近、以下機械学習コンペティションにて 182人中 2位 になりました。
Nishikaサービスローンチコンペ AIは芥川龍之介を見分けられるのか?
本記事は、コンペティションの解法の紹介をしつつ、3月7より開催されている技術書典 応援祭にて販売される、私も執筆に参加したエムスリーテックブック2を宣伝するものです。
- はじめに
- コンペティション概要
- 利用したfeatureとmodel
- コンペティション開催中の行動
- 機械学習パイプラインの選定としてgokartはどうだったか
- おわりに
- We are hiring !!
コンペティション概要
青空文庫に登録されている10作家の作品、計4732作品の中から芥川龍之介の作品を機械学習で見つけるものです。
答えとなるデータは青空文庫で公開されている訳ですが、こちらを利用するのはもちろんルール上で禁止されています。
データ内には以下のような文章データと著者が芥川龍之介であるか否かの情報が含まれている、シンプルな2値分類の問題です。
writing_id,body,author
3,"[#3字下げ]一[#「一」は中見出し]島々《しま/\》と云ふ町の宿屋へ着いたのは...",1
上記のデータサンプルは芥川龍之介 槍ヶ嶽紀行のデータの省略形です。
このような青空文庫内のほぼ生のデータが、trainとtestに分けられて提供されており、testデータ内のF値が高いモデルを作成する事を目的としています。
利用したfeatureとmodel
以下は機械学習コンペティションでよく見られる、少し分かった気になる図です。
図の通り、ルールベースの特徴に加えて、NLPにおいて一般的なBERTやTF-IDFといった特徴を使っていました。
分類もまたLightGBMやNeural Networkといった一般的なモデルをOptunaで最適化する形です。
続きを読む