Pandas дубликаты.

Вопросы из собеседований по теме "Pandas".

Дубликаты в Pandas – это строки в DataFrame(df), которые имеют абсолютно одинаковые значения во всех столбцах. При работе с данными в Pandas важно уметь обрабатывать дубликаты для поддержания корректности и точности данных.

Есть несколько способов удаления дубликатов в Pandas:

  • drop_duplicates(): Метод drop_duplicates() позволяет удалить дублирующиеся строки из DataFrame. По умолчанию оставляется первая встреченная строка, но можно настроить этот метод для изменения поведения.
  • duplicated(): Метод duplicated() позволяет определить, какие строки являются дубликатами. Он возвращает булеву серию, где True обозначает дубликаты.

Для удаления дубликатов строк в Pandas можно использовать метод drop_duplicates() с параметром subset, чтобы указать столбцы, по которым нужно проверять дубликаты. Например, чтобы удалить дубликаты по всем столбцам, можно использовать df.drop_duplicates(). Если же нужно удалить дубликаты только по определенным столбцам, можно указать их в subset, например, df.drop_duplicates(subset=[‘col1’, ‘col2’]).

Примеры использования методов для удаления дубликатов в Pandas:

  1. Удаление всех дубликатов из DataFrame:
import pandas as pd

# Создание DataFrame с дублирующими строками
data = {'A': [1, 1, 2, 2, 3],
        'B': ['a', 'a', 'b', 'b', 'c']}
df = pd.DataFrame(data)

# Удаление всех дубликатов
df_no_duplicates = df.drop_duplicates()

print(df_no_duplicates)

2. Удаление дубликатов по определенным столбцам:

# Удаление дубликатов только по столбцу 'A'
df_no_duplicates_colA = df.drop_duplicates(subset=['A'])

print(df_no_duplicates_colA)
Вопросы из собеседований по теме "Pandas".