Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Очищення тексту | Рядки, дати, відсутні дані
Обробка Даних з Polars

Очищення тексту

Свайпніть щоб показати меню

Під час роботи з реальними даними текстові стовпці часто містять небажані пробіли, зайві символи або неконсистентне форматування. У Polars можна використовувати простір імен .str для ефективного очищення та трансформації таких стовпців. Припустимо, у вас є DataFrame зі стовпцем name, який іноді містить пробіли або розділові знаки на початку чи в кінці, а також стовпцем genres, де жанри зберігаються як один рядок, розділений слешами, наприклад, "Drama / Comedy".

Для очищення стовпця name можна використати .str.strip_chars(), щоб видалити пробіли та певні символи з обох кінців кожного рядка. Для стовпця genres можна застосувати .str.split() з регулярним виразом для розділення рядка на список жанрів.

Нижче наведено скрипт, що демонструє ці техніки:

123456789101112131415161718
import polars as pl df = pl.DataFrame({ "name": [" Alice! ", "Bob.", " Carol ", "David-"], "genres": ["Drama / Comedy", "Action/Thriller", "Sci-Fi / Adventure", "Romance"] }) # Strip whitespace and symbols from 'name' cleaned_df = df.with_columns([ pl.col("name").str.strip_chars().str.strip_chars("!.-").alias("name_clean") ]) # Use regex to split genres into a list cleaned_df = cleaned_df.with_columns([ pl.col("genres").str.replace_all(r"\s*/\s*", ",").str.split(",").alias("genres_list") ]) print(cleaned_df)
question mark

Який метод .str ви б використали, щоб перевірити, чи містить стовпець жанру слово "Comedy"?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 3. Розділ 1
some-alt