セクション 1. 章 5
single
チャレンジ:大規模データセットのフィルタリング
メニューを表示するにはスワイプしてください
数百万件のレコードを含む巨大なCSVファイルを分析する課題を想定。ファイル全体を一度にメモリに読み込むことはできません。特定の列の値が指定した閾値を超える行のみを抽出し、フィルタリングした結果を新しいファイルに保存することが目標です。このような状況は大規模データ分析で一般的であり、効率的かつメモリに優しい処理が不可欠です。
タスク
スワイプしてコーディングを開始
指定された列の値が与えられた閾値より大きい行のみを新しいファイルに書き出す、大規模なCSVファイルをチャンクごとに処理する関数の実装。
- 入力CSVファイルを
chunk_sizeごとのチャンクで読み込む。 - 各チャンクについて、
columnで指定された列の値がthresholdより大きい行をフィルタリングする。 - フィルタリングされたすべての行をヘッダー行とともに出力CSVファイルに書き込む。
- 条件に一致する行がない場合は、ヘッダーのみを出力ファイルに書き込む。
解答
すべて明確でしたか?
フィードバックありがとうございます!
セクション 1. 章 5
single
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください