Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 機械学習ワークフロー | 機械学習の概念
Pythonによる機械学習入門

book機械学習ワークフロー

メニューを表示するにはスワイプしてください

機械学習プロジェクトを成功させるために進めるワークフローについて説明。

ステップ1. データの取得

問題の定義、パフォーマンス指標の選定、良好な結果の基準の決定。その後、必要なデータを利用可能なソースから収集し、Pythonで扱える形式に整形。 データがすでにCSVファイルとして存在する場合は、すぐに前処理を開始可能。

病院が患者記録と人口統計データをCSVファイルにまとめる。目標は再入院の予測であり、80%以上の精度を目指す。

ステップ2. データの前処理

このステップには以下が含まれる:

  • データクリーニング:欠損値や非数値入力の処理;
  • EDA:データの関係性の分析や可視化による問題点の把握;
  • 特徴量エンジニアリング:モデル性能を向上させる特徴量の選択や作成。

欠損値(例:血圧)を補完し、カテゴリカル特徴量(例:人種)を数値形式に変換。

ステップ3. モデリング

この段階には以下が含まれます:

  • 問題の種類や実験に基づくモデルの選択
  • パフォーマンス向上のためのハイパーパラメータ調整
  • 未知データによるモデル評価
Note
さらに学ぶ

ハイパーパラメータは、モデルの学習方法を定義する調整可能なコントロールのようなものであり、学習期間やモデルの複雑さなどが含まれます。

分類モデルは再入院(はい/いいえ)を予測するために選択されます。調整後、検証/テストセットで汎化性能が評価されます。

ステップ4. デプロイメント

モデルの性能が十分であれば、実際のシステムにデプロイされる。モデルは継続的に監視され、新しいデータで更新・改善される必要があり、多くの場合、ステップ1からサイクルを再開する。

モデルは病院システムに統合され、入院時にハイリスク患者を特定し、スタッフが早期に対応できるよう支援する。

Note
ノート

ここで紹介されている用語の中には馴染みのないものもあるかもしれませんが、本コースの後半で詳しく解説します。

データ前処理やモデリングは scikit-learn で実施可能。次の章では前処理ワークフローやパイプラインを紹介し、その後、k-近傍法KNeighborsClassifier)を用いたモデリング、学習、チューニング、評価について解説する。

1. 機械学習プロジェクトにおける「データの取得」ステップの主な目的は何ですか?

2. 次のうち、「データ前処理」ステップの重要性を最もよく表しているものはどれですか?

question mark

機械学習プロジェクトにおける「データの取得」ステップの主な目的は何ですか?

正しい答えを選んでください

question mark

次のうち、「データ前処理」ステップの重要性を最もよく表しているものはどれですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  5

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  5
some-alt