Огляд базової нейронної мережі

Ви вже досягли етапу, коли володієте необхідними знаннями TensorFlow для самостійного створення нейронних мереж. Хоча більшість реальних нейронних мереж є складними і зазвичай створюються за допомогою вискорівневих бібліотек, таких як Keras, ми побудуємо базову мережу, використовуючи фундаментальні інструменти TensorFlow. Такий підхід надає практичний досвід роботи з низькорівневими операціями над тензорами, що допомагає зрозуміти внутрішні процеси.

У попередніх курсах, таких як Вступ до нейронних мереж, ви можете згадати, скільки часу та зусиль вимагало створення навіть простої нейронної мережі, опрацьовуючи кожен нейрон окремо.

TensorFlow значно спрощує цей процес. Використовуючи тензори, можна інкапсулювати складні обчислення, зменшуючи потребу у складному кодуванні. Основне завдання — налаштувати послідовний ланцюжок операцій над тензорами.

Коротке нагадування про етапи запуску процесу навчання нейронної мережі:

Підготовка даних і створення моделі

Початковий етап навчання нейронної мережі включає підготовку даних, що охоплює як вхідні, так і вихідні дані, на яких мережа буде навчатися. Додатково встановлюються гіперпараметри моделі — це параметри, які залишаються незмінними протягом усього процесу навчання. Ваги ініціалізуються, зазвичай вони беруться з нормального розподілу, а зміщення часто встановлюються в нуль.

Пряме поширення

Під час прямого поширення кожен шар мережі зазвичай виконує такі кроки:

Множення вхідних даних шару на його ваги.
Додавання зміщення до результату.
Застосування функції активації до цієї суми.

Після цього можна обчислити втрати.

Зворотне поширення

Наступний крок — зворотне поширення, під час якого коригуються ваги та зміщення залежно від їхнього впливу на втрати. Цей вплив визначається градієнтом, який автоматично обчислюється Gradient Tape у TensorFlow. Оновлення ваг і зміщень відбувається шляхом віднімання градієнта, помноженого на швидкість навчання.

Цикл навчання

Для ефективного навчання нейронної мережі кроки тренування повторюються багаторазово з одночасним відстеженням продуктивності моделі. Ідеально, якщо втрата зменшується з кожною епохою.

Завдання

Swipe to start coding

Створення нейронної мережі для прогнозування результатів операції XOR. Мережа повинна містити 2 вхідних нейрони, прихований шар із 2 нейронами та 1 вихідний нейрон.

Почати з ініціалізації початкових ваг і зсувів. Ваги слід ініціалізувати за допомогою нормального розподілу, а всі зсуви — ініціалізувати нулями. Використовуйте гіперпараметри input_size, hidden_size та output_size для визначення відповідних форм цих тензорів.
Використати декоратор функції для перетворення функції train_step() у граф TensorFlow.
Виконати пряме поширення через прихований і вихідний шари мережі. Застосувати сигмоїдальну функцію активації.
Визначити градієнти для розуміння впливу кожної ваги та зсуву на функцію втрат. Переконайтеся, що градієнти обчислюються у правильному порядку, відповідно до назв вихідних змінних.
Оновити ваги та зсуви на основі їх відповідних градієнтів. Враховуйте learning_rate у цьому процесі для контролю величини кожного оновлення.

Рішення

Висновок

Оскільки функція XOR є відносно простою задачею, на цьому етапі немає потреби у використанні складних технік, таких як налаштування гіперпараметрів, розподіл датасету чи побудова складних конвеєрів обробки даних. Ця вправа є лише кроком до створення більш складних нейронних мереж для реальних застосувань.

Опанування цих основ є важливим перед переходом до розробки складніших нейронних мереж у наступних курсах, де ми будемо використовувати бібліотеку Keras та досліджувати методи покращення якості моделей за допомогою розширених можливостей TensorFlow.

Перейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 4

single

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат