Вопросы из собеседований по теме "Pandas".
Дубликаты в Pandas – это строки в DataFrame(df), которые имеют абсолютно одинаковые значения во всех столбцах. При работе с данными в Pandas важно уметь обрабатывать дубликаты для поддержания корректности и точности данных.
Есть несколько способов удаления дубликатов в Pandas:
- drop_duplicates(): Метод drop_duplicates() позволяет удалить дублирующиеся строки из DataFrame. По умолчанию оставляется первая встреченная строка, но можно настроить этот метод для изменения поведения.
- duplicated(): Метод duplicated() позволяет определить, какие строки являются дубликатами. Он возвращает булеву серию, где True обозначает дубликаты.
Для удаления дубликатов строк в Pandas можно использовать метод drop_duplicates() с параметром subset, чтобы указать столбцы, по которым нужно проверять дубликаты. Например, чтобы удалить дубликаты по всем столбцам, можно использовать df.drop_duplicates(). Если же нужно удалить дубликаты только по определенным столбцам, можно указать их в subset, например, df.drop_duplicates(subset=[‘col1’, ‘col2’]).
Примеры использования методов для удаления дубликатов в Pandas:
- Удаление всех дубликатов из DataFrame:
import pandas as pd
# Создание DataFrame с дублирующими строками
data = {'A': [1, 1, 2, 2, 3],
'B': ['a', 'a', 'b', 'b', 'c']}
df = pd.DataFrame(data)
# Удаление всех дубликатов
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)
2. Удаление дубликатов по определенным столбцам:
# Удаление дубликатов только по столбцу 'A'
df_no_duplicates_colA = df.drop_duplicates(subset=['A'])
print(df_no_duplicates_colA)
Вопросы из собеседований по теме "Pandas".