Розбиття даних на частини
Свайпніть щоб показати меню
Обробка великих наборів даних, які не можуть повністю поміститися в оперативній пам'яті, вимагає іншого підходу, ніж просте завантаження всього файлу. Якщо спробувати завантажити величезний CSV-файл у pandas за допомогою стандартної функції read_csv, можна зіткнутися з помилками пам'яті або значним уповільненням роботи. Щоб цього уникнути, дані можна розбити на менші, зручні для обробки частини та опрацьовувати кожну окремо. Ця техніка особливо корисна у таких випадках:
- Аналіз великих лог-файлів;
- Обробка експортованих даних із баз даних;
- Робота з часовими рядами, зібраними протягом тривалого періоду.
Розбиття даних на частини дозволяє обробляти лише невелику частину набору даних за раз, що знижує використання пам'яті та дає змогу ефективно працювати навіть на простому обладнанні. Наприклад, якщо потрібно обчислити статистику або відфільтрувати рядки з файлу з мільйонами записів, читання частинами дозволяє обробити кожну частину та, за потреби, агрегувати результати поступово. Такий підхід також корисний, якщо потрібно передавати дані у конвеєр машинного навчання або виконувати поступове очищення даних.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат