gokartで実現する、ステートレスで低コストなLLMタグ付けバッチ

… Spotify製のLuigiをラップしており、タスク間の依存関係解決や並列実行といった基本機能に加え、入力データのハッシュ値に基づいた強力なキャッシュ管理機能や、パラメータ管理の容易さを特徴としています。実装アプローチ具体的な実装方針は以下の通りです。 1. タスク粒度の細分化通常、バッチ処理ではデータをまとめて処理することが一般的ですが、今回はあえて「1テキスト（記事等であれば1記事ごと、アンケート等であれば1回答ごと） = 1 gokartタスク」という粒度まで分…

2025-04-22

憧れのAI・機械学習チームでインターンをしたらOSS Contributionもして、OSSを自分で作ってリリースもした話

gokart OSS インターン

…構築フレームワーク Luigi のラッパーです。Luigi についても過去のテックブログで解説されています。 www.m3tech.blog 機械学習プロジェクトでは、実験の再現性を保証することが非常に困難という共通の課題があります。同じパラメータを使っても、様々な要因で同一の結果が得られないことが多々あります。MLOpsにおいてパイプラインの再現性担保は極めて重要です (参考文献)。 gokart や Luigi は、一連の処理を「Task」としてモジュール化し、Task間…

2024-12-22

はじめてのOSSコントリビュート

…ーがspotify/luigiの問題を特定し、コントリビュートの機会として共有してくれたことがきっかけでした。本ブログでは私がエンジニア人生で初めてOSSコントリビュートした話を書いていきます。初めてのコントリビュート系の記事は既にたくさんの人に掲載されていますので*1、この記事ではAIチームの文化も絡めてお伝えしたいと思います。趣味で行っているボルダリングの大会予選に出場したときの様子 OSSコントリビュートの動機コントリビュートの実施 Git forkってなんだ？ …

2024-12-03

Protocol を使って、ML パイプラインツール gokart のパラメーター拡張機能を作ってみた

…ーの再利用の仕組み luigi.Config の利用方法 run の中でグローバルなパラメーターとして呼び出す方法具体的な設定例課題継承でパラメーターを共通化する方法具体的な設定例課題 gokart.SerializableParameter を利用したパラメーターの共通化目指すべきパラメーターの共通化方法 gokart.SerializableParameter の使い方 gokart.SerializableParameter の仕組み Tips: 一部のパラ…

2024-12-02

MLOpsの「あるある」課題の解決と、そのためのライブラリgokart

…社が開発したツール luigi をベースにしたラッパーとして開発されました。機械学習における「あるある」な課題を解決するため、再現性の確保や処理の効率化などのノウハウが機能として組み込まれています。現在も、エムスリーのAI・機械学習チームのメンバーを中心に、OSSとして活発に開発が進められています。 AI・機械学習チームでは、ほぼすべてのPythonプロダクトにおいてgokartを採用しています。これにより、プロダクト間でノウハウを容易に共有できる環境が整っています。本…

2024-11-06

Genericやらoverloadやらを使って、MLパイプラインツールgokartを型安全にしてみた

gokart python

…askOnKart(luigi.Task, Generic[T]): def dump(self, obj: T) -> None: ... この状態ではT型は不定なのですが、ユーザーがHoge(TaskOnKart[str])と指定することによって、T型がstr型に固定されます。そのため、dumpメソッドにはstr型以外のものを引数に入れるとmypyに怒られるという仕組みになっています。もっと詳細な実装方法を見たい人は実際のPRを見てみてください。この型を定義すること…

2024-10-02

チームで培われたベストプラクティスをlintとして周知する

…モジュール（ここではluigi）のものである確認をする必要があります。visit_importなどでimportしたモジュールを状態として持つことで実現できますが、ここでは簡単のため省きます。また、次のようにテストもかけるため保守性も悪くなさそうです。 def test_list_parameters_with_assign(self) -> None: # @をコメントとして付記することで、その行のnodeを抽出する node = astroid.extract_node…

2024-08-09

mypy plugin に入門して社内 OSS である gokart を型安全にしてみた

…me: str = luigi.Parameter() MyTask(name="mytask") しかしながらPython 本来の文法を振り返って考えてみると、かなりの離れ業であることがわかります。というのも、本来 Python においてクラス直下の変数はクラス変数でありインスタンス変数ではないためです。例えば、次のようなコードを実行した場合、name をインスタンス変数として割り当てるというようなコンストラクタが存在しないため、エラーになってしまいます。 class …

2024-03-29

続・ムダな仕事を増やしてませんか？ ~ MLの実行パイプラインでworker間の重複作業をなくす ~

…askOnKart(luigi.Task): def __init__(self, *args, **kwargs): ... self.run = wrap_run_with_lock(run_func=self.run, task_lock_params=task_lock_params) run()メソッドの実行開始時には、タスクのパラメータから算出されるハッシュ値を基にした文字列キーを用いて、Redisサーバー上で排他ロックの取得を試みます。このプロセス中、もし他の…

2023-12-21

無駄な仕事を増やしてませんか？ ~ MLの実行パイプラインで重複作業をなくす ~

…いようにするためにはluigiのcentral schedulerを使う方法もあります。 central schedulerは、どのTaskを順に実行すべきかを中央集権的に管理する機能です。未実行のTaskを把握しながら次に実行すべきTaskを判断できるので、同一Taskを同時に重複して実行するようなことはありません。 luigi.readthedocs.io しかし、central schedulerには、単一障害点になりやすいという問題があります。 central sc…

2023-12-07

kannonを実プロダクトに組み込んで3倍高速化を達成した話

…terConfig(luigi.Config): param: str = luigi.Parameter() param2: str = luigi.Parameter() @inherits_config_params(MasterConfig) class SomeTask(gokart.TaskOnKart): param: str = luigi.Parameter() このconfigに含まれるパラメータは、以下のようなconfigファイル(ini形式)で指定しま…

2023-07-26

今日から使えるgokart小技集

…ifyが開発しているLuigiのwrapperであり、タスクと呼ばれるクラスを定義し、タスク同士の依存関係を元にパイプラインを管理するツールとなっています。 github.com gokartの特徴のひとつとして、強力なキャッシュ機能があります。 gokartではParameterや依存関係に応じてタスクごとに出力をキャッシュしており、パイプラインを再実行したとき設定が同じなら過去の実行結果を再利用できます。このキャッシュの利用はパイプライン実行時に自動で行われるため、ユー…

2023-07-25

ファイル競合を防ぐロック技術 in gokart

…om gokartはLuigiのラッパーとして開発されているのですが、キャッシュ周りの機能が大幅に強化されています。完了したタスクの結果をキャッシュファイルに保存する際に、gokartではパラメータや依存関係が変更になったらキャッシュファイルを作り直すようにしています。逆に言うと、設定が同一であれば、過去に完了済みのタスクのキャッシュファイルを安全に再利用できるというわけです。過去に完了済みのキャッシュファイルを再利用することで、改めてタスクを再実行する必要がなくなり、時…

2023-07-19

【Sansan x エムスリー】gokartで爆速開発！MLOps勉強会をSansan株式会社と共同開催しました！

…ifyが開発しているLuigiのwrapperであり、キャッシュなどを用いてパイプラインの再現性を担保しつつ実行を効率化できるのが特徴です。 gokartについては以下の記事が詳しいので、gokartの詳細はこちらをご参照ください。 www.m3tech.blog 勉強会開催のきっかけ以下のテックブログの紹介ツイートに、Sansan株式会社 VPoEであり元エムスリーAIチーム、gokartの生みの親である西場(@m_nishiba)さんが反応した事から始まりました。私達…

2023-06-13

Titanicで学ぶ、実務で使えるgokartの書き方

…す。 import luigi from titanickart.processing.download_data import DownloadData from titanickart.processing.make_features import MakeFeatures from titanickart.processing.model import PredictXGBoostModel from titanickart.processing.submit impo…

2023-03-14

gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話

…: param = luigi.Parameter() def run(self): self.dump(f"DONE: TaskA0 (param={self.param})") class TaskB(gokart.TaskOnKart): parent_0 = gokart.TaskInstanceParameter() def requires(self): return dict(parent_0=self.parent_0) def run(self): pare…

2021-12-16

数量を機械学習で当てる　モデル作成時の工夫と性能説明手法

機械学習

…インライブラリです。luigiのラッパーライブラリですが、luigiとの大きな差分として中間データをキャッシュするという点があります。同じ処理の結果を別の実験などで再利用したい場合、過去に実行した結果のキャッシュファイルを使い回すことで再度実行が不要になっています。特徴量作成など似たような処理の頻発する機械学習系タスクでは大幅な時間削減が実現しています。もちろん、元データが変わるような場面では処理が再実行され、キャッシュファイルが更新されます。モデル性能説明手法編機械学習…

2021-04-26

gokart 1.0.0 をリリースしました

python 機械学習

…：Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita 【gokart】Pipelineライブラリによる機械学習ワークフローの開発｜はやぶさの技術ノート Luigiで行うパイプライン処理をより円滑に！gokartについて紹介 - Qiita gokartの運用と課題について - Speaker Deck また、今回ドキュメントを拡充し、チュートリアルも作成しましたので、そちらを見て頂く形でも良いかもしれません。 …

2021-02-02

パイプラインツールgokartのキャッシュ競合を解消した話

…るパイプラインツールluigiのwrapperです。S3やGCSといったクラウドストレージとのデータ入出力をサポートしたり、中間ファイルをキャッシュとして保存することで実験を再現をしやすくしたりします。当ブログでは過去にも機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログなどで紹介されています。 Github上でOSSとして公開されており、AIチームのメンバーを中心に開発が進められています。 github.com g…

2021-01-18

GCS bucketの利用量をSlackに通知する

GCP python SRE

…レームワークとして、Luigi をラップし便利機能を追加したOSSである、Gokartを利用しています。 github.com Gokartでは、処理をTaskという単位に分け、Taskごとに、その処理結果をGCSなどのオブジェクトストレージに出力しています。こうすることで、リカバリなどの際にワークフローの途中からジョブを再開できたり、debug時の調査などでタスクの出力を確認できるメリットがあります。一方で、この記事などで述べられているように、途中結果のデータが嵩張る…

2021-01-13

Kaggle "Mechanisms of Action (MoA) Prediction" に参加し4位に入賞した話

…gokartどころかluigiさえもKaggle notebookのDocker imageには入っていないため、gokart (+ luigi) の機能を一部参考に、入力に応じてキャッシュしてくれるデコレータを書いてみました。 lishmoa/src/utils/cache.py import time @Cache('./cache_dir') def process(param_a: int, param_b: str): time.sleep(5) return f'…

2020-03-12

Nishika competitions 2nd solution

機械学習 python 技術書典

… library "luigi" redshells: GitHub - m3dev/redshells: Machine learning tasks which are used with data pipeline library "luigi" and its wrapper "gokart". gokartによって全てのパラメータと乱数シード値、CVの値の組み合わせを全て自動で保存、rerunを簡易に行えるようになっています。また、redshellsがパイプライン…

2020-03-03

エムスリー Advent Calendar 2019 まとめ！

…イプラインライブラリluigiのshell補完ツールを作った 12/22 blue0513 業務を効率化するためにツールを自作する ~ Emacs と時々 Electron ~ 12/23 ma2ge サーバサイドアプリケーションにおけるリリース時の不確実性を減らす 12/24 ittoki k8sハニーポットとログ出力の話 12/25 yamamuteki VPoEとしてこの2年間を振り返って過去のテックブログは以下の通りです。この機会にご一読してみてください。 2015…

2019-12-21

機械学習パイプラインライブラリluigiのshell補完ツールを作った

機械学習 python

…パイプラインとして「luigi」及び、そのwrapperである「gokart」を利用した開発、運用を行なっています。本記事は、エムスリーとluigiの繋がりと、私が作成したluigiのshell補完をサポートするmodule「luigi-completion」の概要、その使い方について示すものです。 luigi.readthedocs.ioより luigiロゴはじめに luigi_completion 処理の中身おわりに We are hiring ! はじめに前述の…

2019-09-30

機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用

機械学習 python

… Pipelineやluigiを代表に、クラウドや分散環境を意識したDigdagやAirflowといったツールの運用事例も耳にするようになっています。近年ではGoogle Cloud AutoML、Amazon SageMakerといったクラウドサービスとして、機械学習タスクの一部を自動化、Pipeline化する試みも出てきています*3。そんな中、エムスリー AIチームでもgokartというluigiのwrapperライブラリをOSSとして開発、運用しています。 githu…

2019-01-02

Factorization Machineの実装と数値検証

…だ整備中なのですが、今まで業務で使っていた徐々に公開していく予定です。今後はOSSとして開発していく部分を増やしていく予定です。実務で使っているニュースの推薦システム等を公開したら面白いのでは?と思っています。 gokart ... luigiをラップし、タスクの定義を簡単にしている。 redshells ... gokartを使って様々なタスクが定義されている。まぁこういうことですね。 We are hiring 機械学習エンジニアを募集中です！ jobs.m3.com

2018-11-19

luigiのtargetを自分で書くための解説

…でいます。なにやらluigiが流行っているらしいので、一部カスタマイズをしました。本記事はluigiの本家のコードのざっくりとした(Targetに必要な部分の)概要とやり方についてです。なお、本文中のコードはコメントの削除等いくつか加工しています。 luigiについて luigiはspotifyの開発しているワークフローフレームワークです。 github.com 詳細や使い方などは以前他の方が書いた記事を参照してください。 www.m3tech.blog luigiのフ…

2018-11-08

PowerPointファイルからのテキスト抽出

…々改良を加えている luigi をラップしたモジュールを用いて開発をしているのですが、処理フローがわかりやすくなるため結果の共有や互いのコードのレビューがしやすくなり、日々の業務が効率化されています。 (luigi についての記事はこちら) 最近、社内での業務プロセス改善の一環で、pptx形式のPowerPointファイルからテキスト抽出を自動化し解析を行いました。そこで今回は pptxファイルからテキストを抽出する方法について共有させていただきます。目次 1. ppt…

エムスリーテックブログ

エムスリー(m3)のエンジニア・開発メンバーによる技術ブログです

luigi の検索結果: