学ぶモデルのトレーニング | ニューラルネットワークをゼロから構築

メニューを表示するにはスワイプしてください

ニューラルネットワークのトレーニングは、反復的なプロセスであり、モデルが重みとバイアスを調整して損失関数を最小化することで徐々に改善される。このプロセスは勾配に基づく最適化と呼ばれ、体系的なアルゴリズムに従う。

一般的なアルゴリズム

データセットはネットワークに複数回ループで入力され、それぞれの完全な通過はエポックと呼ばれる。各エポックの間、モデルが訓練例の順序に基づくパターンを学習しないように、データはシャッフルされる。シャッフルはランダム性を導入し、より堅牢なモデルにつながる。

各訓練例ごとに、モデルは順伝播を行い、入力がネットワークを層ごとに通過して出力を生成する。この出力は実際のターゲット値と比較され、損失が計算される。

次に、モデルは逆伝播を適用し、各層の重みとバイアスを更新して損失を減少させる。

このプロセスは複数のエポックにわたって繰り返され、ネットワークはパラメータを徐々に洗練させる。トレーニングが進むにつれて、ネットワークはより正確な予測を行うようになる。ただし、学習率などのハイパーパラメータの慎重な調整が、安定かつ効率的なトレーニングには不可欠である。

学習率（ $\alpha$ ）は、重み更新時のステップサイズを決定。値が大きすぎると、モデルが最適値を飛び越えて収束しない可能性がある。値が小さすぎると、学習が遅くなり、局所的な最適解にとどまる場合がある。適切な学習率の選択は、学習の速度と安定性のバランスを取るために重要。一般的な値は0.001から0.1の範囲で、問題やネットワークの規模によって異なる。

下のグラフは、適切な学習率が損失を最適なペースで着実に減少させる様子を示している。

最後に、確率的勾配降下法（SGD）は学習効率において重要な役割を果たす。データセット全体を処理した後に重みを更新するのではなく、SGDは各サンプルごとにパラメータを更新する。これにより学習が高速化され、更新にわずかな変動が加わることで、モデルが局所最小値から抜け出し、より良い解に到達しやすくなる。

fit() メソッド

fit() クラスの Perceptron メソッドは、確率的勾配降下法を用いてモデルを学習する役割を持つ。

def fit(self, training_data, labels, epochs, learning_rate):
    # Iterating over multiple epochs
    for epoch in range(epochs):
        # Shuffling the data  
        indices = np.random.permutation(training_data.shape[0])
        training_data = training_data[indices]
        labels = labels[indices]
        # Iterating through each training example
        for i in range(training_data.shape[0]):
            inputs = training_data[i, :].reshape(-1, 1)
            target = labels[i, :].reshape(-1, 1)

            # Forward propagation
            output = ...

            # Computing the gradient of the loss function w.r.t. output
            da = ...

            # Backward propagation through all layers
            for layer in self.layers[::-1]:
                da = ...

すべて明確でしたか？

フィードバックありがとうございます！

セクション 2. 章 9

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2. 章 9