機械学習ワークフロー
メニューを表示するにはスワイプしてください
機械学習プロジェクトを成功させるために進めるワークフローについて説明。
ステップ1. データの取得
問題の定義、パフォーマンス指標の選定、良い結果の基準の決定。その後、利用可能なソースから必要なデータを収集し、Pythonで扱える形式に整形。 データがすでにCSVファイルとして存在する場合は、すぐに前処理を開始可能。
例
病院が患者記録と人口統計データをCSVファイルにまとめる。目標は再入院の予測であり、80%以上の精度を目指す。
ステップ2. データの前処理
このステップには以下が含まれる:
- データクリーニング:欠損値や非数値入力の処理;
- EDA:データの関係性を分析・可視化し、問題点を検出;
- 特徴量エンジニアリング:モデル性能を向上させる特徴量の選択や作成。
例
欠損値(例:血圧)は補完し、カテゴリカル特徴量(例:人種)は数値形式に変換。
ステップ3. モデリング
この段階には以下が含まれます:
- 問題の種類や実験に基づくモデルの選択;
- パフォーマンス向上のためのハイパーパラメータ調整;
- 未知データでのモデル評価。
ハイパーパラメータは、モデルの学習方法を定義する調整可能なコントロールのようなものであり、学習期間やモデルの複雑さなどが含まれます。
例
分類モデルは再入院(はい/いいえ)を予測するために選択されます。調整後、検証/テストセットで汎化性能が評価されます。
ステップ4. デプロイメント
モデルの性能が十分であれば、実際のシステムにデプロイされます。モデルは継続的に監視され、新しいデータで更新され、時間とともに改善されます。多くの場合、ステップ1からサイクルを再開します。
例
モデルは病院システムに統合され、入院時にハイリスク患者を特定し、スタッフが早期に対応できるよう支援します。
ここで紹介されている用語の中には馴染みのないものもあるかもしれませんが、本コースの後半で詳しく解説します。
データの前処理とモデリングは scikit-learn を使用して実施可能。次の章では、前処理ワークフローとパイプラインを紹介し、その後に k近傍法(KNeighborsClassifier)を用いたモデリング、学習、チューニング、評価について説明。
1. 機械学習プロジェクトにおける「データ取得」ステップの主な目的は何か?
2. 次のうち、機械学習プロジェクトのワークフローにおける「データ前処理」ステップの重要性を最もよく表しているものはどれか?
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください