Autogluon、素晴らしいPythonライブラリ

今日は皆さんと超強力な Python ライブラリ、autogluon を共有します。

https://github.com/autogluon/autogluon
AutoGluon は、機械学習のための AutoML ツールキットであり、エンドツーエンドの機械学習タスクを自動化し、わずか数行のコードで強力な予測性能を実現することができます。
AutoGluon は「機械学習タスクを自動化する」ことで、アプリケーション内で簡単に強力な予測性能を実現できます。
初めての体験
AutoGluon のインストール
pip を使用して直接インストールすることができます。

pip install autogluon

データセットのロード
TabularDataset を使用してデータセットをロードすることができます。

from autogluon.tabular import TabularDataset, TabularPredictor
train_data = TabularDataset('https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv')
test_data = TabularDataset('https://autogluon.s3.amazonaws.com/datasets/Inc/test.csv')

モデルの構築
このモデルを使用するには、「評価指標、従属変数、および結果を保存するディレクトリ」を初期化する必要があります。

以下の例では、評価指標として f1 を使用しています。従属変数は「class」であり、モデルは「output_models」フォルダに配置されます。

evaluation_metric= "f1"
data_label= "class"
save_path= "output_models"

predictor = TabularPredictor(label='class').fit(train_data, time_limit=120)  # 120秒でモデルをフィットさせる
leaderboard = predictor.leaderboard(test_data)

#予測器の作成
predictor = TabularPredictor(label=data_label,path=save_path,eval_metric=evaluation_metric) 
predictor=predictor.fit(train_data)
predictor.leaderboard(silent=True)

以下の図は、「すべてのモデルの試行状況とそれらのモデルでのスコア」を示しています。

次に、特徴の重要性を見てみましょう。

X = train_data 
Predictor.feature_importance(X)

すべての構築済みモデルは、「output_models」という出力フォルダに保存されています。