今日は皆さんと超強力な Python ライブラリ、autogluon を共有します。
https://github.com/autogluon/autogluon
AutoGluon は、機械学習のための AutoML ツールキットであり、エンドツーエンドの機械学習タスクを自動化し、わずか数行のコードで強力な予測性能を実現することができます。
AutoGluon は「機械学習タスクを自動化する」ことで、アプリケーション内で簡単に強力な予測性能を実現できます。
初めての体験
AutoGluon のインストール
pip を使用して直接インストールすることができます。
pip install autogluon
データセットのロード
TabularDataset を使用してデータセットをロードすることができます。
from autogluon.tabular import TabularDataset, TabularPredictor
train_data = TabularDataset('https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv')
test_data = TabularDataset('https://autogluon.s3.amazonaws.com/datasets/Inc/test.csv')
モデルの構築
このモデルを使用するには、「評価指標、従属変数、および結果を保存するディレクトリ」を初期化する必要があります。
以下の例では、評価指標として f1 を使用しています。従属変数は「class」であり、モデルは「output_models」フォルダに配置されます。
evaluation_metric= "f1"
data_label= "class"
save_path= "output_models"
predictor = TabularPredictor(label='class').fit(train_data, time_limit=120) # 120秒でモデルをフィットさせる
leaderboard = predictor.leaderboard(test_data)
#予測器の作成
predictor = TabularPredictor(label=data_label,path=save_path,eval_metric=evaluation_metric)
predictor=predictor.fit(train_data)
predictor.leaderboard(silent=True)
以下の図は、「すべてのモデルの試行状況とそれらのモデルでのスコア」を示しています。
次に、特徴の重要性を見てみましょう。
X = train_data
Predictor.feature_importance(X)
すべての構築済みモデルは、「output_models」という出力フォルダに保存されています。