Πώς να καθαρίσετε δεδομένα σε pandas με τη συνάρτηση dropna()

Contents

Η συνάρτηση Python pandas DataFrame.dropna() χρησιμοποιείται για την αφαίρεση όλων των σειρών ή στηλών που περιέχουν ελλείπουσες τιμές (NaN) από ένα DataFrame. Αυτό την καθιστά ιδιαίτερα σημαντική για την προετοιμασία και τον καθαρισμό των δεδομένων.

Ποια είναι η σύνταξη για το pandas `dropna()`;

Η συνάρτηση dropna() δέχεται έως και πέντε παραμέτρους. Ακολουθεί η σύνταξή της:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False, ignore_index=False)

python

Σημαντικές παράμετροι για `dropna()`

Μπορείτε να χρησιμοποιήσετε παραμέτρους για να επηρεάσετε τη συμπεριφορά της συνάρτησης pandas DataFrame.dropna(). Ακολουθεί μια επισκόπηση των πιο σημαντικών παραμέτρων:

Παράμετρος	Περιγραφή	Προεπιλεγμένη τιμή
`axis`	Καθορίζει αν θα αφαιρεθούν σειρές (0 ή `index`) ή στήλες (1 ή `columns`)	0
`how`	Καθορίζει αν όλες (`all`) ή μόνο μερικές (`any`) τιμές πρέπει να είναι NaN.	`any`
`thresh`	Καθορίζει τον ελάχιστο αριθμό τιμών που δεν είναι NaN που πρέπει να έχει μια σειρά ή στήλη για να μην αφαιρεθεί. Δεν μπορεί να συνδυαστεί με `how`.	προαιρετικό
`subset`	Καθορίζει ποιες σειρές ή στήλες πρέπει να θεωρούνται	προαιρετικές
`inplace`	Καθορίζει εάν η λειτουργία εκτελείται στο αρχικό DataFrame	`False`
`ignore_index`	Εάν `True`, ο υπόλοιπος άξονας επισημαίνεται από 0 έως n-1	`False`

Πώς να χρησιμοποιήσετε pandas `DataFrame.dropna()`

Το Pandas dropna() χρησιμοποιείται για τον καθαρισμό των δεδομένων πριν από την ανάλυσή τους. Η αφαίρεση σειρών ή στηλών με ελλείπουσες τιμές βοηθά στην αποφυγή μεροληψιών στις στατιστικές αξιολογήσεις. Δεδομένου ότι οι ελλείπουσες τιμές μπορούν επίσης να οδηγήσουν σε προβλήματα με την οπτικοποίηση των δεδομένων, η χρήση της λειτουργίας είναι επίσης επωφελής κατά τη δημιουργία γραφημάτων και αναφορών.

Αφαίρεση σειρών με ελλείπουσες τιμές

Στο παρακάτω παράδειγμα, θα εξετάσουμε ένα DataFrame που περιέχει τιμές NaN:

import pandas as pd
import numpy as np
# Creating a DataFrame with sample data
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df)

python

Το DataFrame έχει την εξής μορφή:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

Στη συνέχεια, θα εφαρμόσουμε τη συνάρτηση pandas dropna():

## Remove all rows that contain at least one NaN value
df_cleaned = df.dropna()
print(df_cleaned)

python

Η εκτέλεση του παραπάνω κώδικα παράγει το ακόλουθο αποτέλεσμα:

A    B  C
0  1.0  5.0  9
3  4.0  8.0 12

Δεδομένου ότι όλες οι άλλες σειρές περιέχουν τιμές NaN, παραμένουν μόνο η μηδενική και η τρίτη σειρά.

Αφαίρεση στηλών με ελλείπουσες τιμές

Ομοίως, μπορείτε να αφαιρέσετε στήλες με ελλείπουσες τιμές ρυθμίζοντας την παράμετρο axis σε 1:

## Remove all columns that contain at least one NaN value
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)

python

Η στήλη C είναι η μόνη στήλη που παραμένει, καθώς είναι η μόνη που δεν περιέχει τιμές NaN:

Χρήση `thresh`

Εάν θέλετε να καταργήσετε σειρές που περιέχουν λιγότερες από δύο τιμές που δεν είναι NaN, μπορείτε να χρησιμοποιήσετε την παράμετρο thresh:

## Only keeps rows that have 2 or more non-NaN values
df_thresh = df.dropna(thresh=2)
print(df_thresh)

python

Η εκτέλεση του κώδικα παράγει το ακόλουθο αποτέλεσμα:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Η σειρά 1 δεν αφαιρείται από την έξοδο επειδή περιέχει 2 τιμές που δεν είναι NaN (2,0 και 10).

Χρήση `subset`

Η παράμετρος subset σας επιτρέπει να καθορίσετε τις στήλες στις οποίες το πρόγραμμα θα αναζητήσει τις ελλείπουσες τιμές. Μόνο οι σειρές που περιέχουν ελλείπουσες τιμές στις στήλες που έχουν καθοριστεί θα αφαιρεθούν.

## Removes all rows where column A contains a NaN value
df_subset = df.dropna(subset=['A'])
print(df_subset)

python

Εδώ, αφαιρείται μόνο η δεύτερη σειρά. Η τιμή NaN στην πρώτη σειρά αγνοείται λόγω της παραμέτρου υποσύνολου, η οποία λαμβάνει υπόψη μόνο τη στήλη Α:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Πώς να κάνετε βρόχο σε DataFrames με pandas iterrows()

Η συνάρτηση DataFrame.iterrows() του Pandas είναι μια χρήσιμη συνάρτηση για την επανάληψη σειρών σε ένα DataFrame, ειδικά όταν χρειάζεται να επεξεργαστείτε δεδομένα σειρά προς σειρά. Αυτό είναι ιδιαίτερα χρήσιμο για υπολογισμούς ή λογική υπό όρους. Σε αυτό το άρθρο, θα καλύψουμε…

Mr. Kosalshutterstock

Πώς να ευρετηριάσετε τα DataFrames του pandas

Η ευρετηρίαση του Pandas DataFrame είναι ένα ισχυρό εργαλείο για την αποτελεσματική και αποδοτική διαχείριση δεδομένων. Με διάφορες μεθόδους, μπορείτε να στοχεύσετε συγκεκριμένα δεδομένα και υποσύνολα του DataFrame σας. Σε αυτό το άρθρο, θα εξερευνήσουμε τι είναι ο δείκτης pandas…

Mr. Kosalshutterstock

Τι είναι το Python pandas any() και πώς λειτουργεί;

Στο pandas, η μέθοδος DataFrame any() είναι ένα αποτελεσματικό εργαλείο για να ελέγξετε γρήγορα αν υπάρχει τουλάχιστον μία αληθής τιμή κατά μήκος ενός άξονα ενός DataFrame. Αυτή η μέθοδος είναι ιδιαίτερα χρήσιμη για την ανάλυση και την επικύρωση δεδομένων. Σε αυτό το άρθρο, θα…

ESB Professionalshutterstock

Πώς να χρησιμοποιήσετε το Pandas DataFrame για να χειριστείτε γρήγορα πίνακες στο Python

Το module Pandas είναι ένα από τα πιο ισχυρά εργαλεία για τη χειραγώγηση δεδομένων στην Python. Μία από τις κεντρικές δομές δεδομένων στο Pandas είναι το DataFrame. Τα DataFrames μπορούν να χρησιμοποιηθούν για την αποτελεσματική χειραγώγηση δισδιάστατων, δομημένων δεδομένων.…

UndreyShutterstock

Τι είναι η ιδιότητα iloc[] της Python pandas;

Όταν εργάζεστε με DataFrames στο Python pandas, δεν είναι πάντα όλες οι σειρές ή στήλες ενός DataFrame σχετικές για την ανάλυση δεδομένων. Η ιδιότητα iloc[] του pandas DataFrame είναι ένα χρήσιμο εργαλείο για την επιλογή σειρών ή στηλών χρησιμοποιώντας τους δείκτες τους. Σε αυτό…

REDPIXEL.PLShutterstock

Πώς να υπολογίσετε μέσους όρους με τη συνάρτηση mean() της pandas

Η συνάρτηση `DataFrame.mean()` της pandas υπολογίζει τους μέσους όρους σε ένα DataFrame. Μπορεί να χρησιμοποιηθεί για τον υπολογισμό των μέσων τιμών για σειρές ή στήλες και προσφέρει ευελιξία όσον αφορά τη διαχείριση των τιμών NaN. Σε αυτό το άρθρο, θα εξετάσουμε τη σύνταξη της…

Πώς να καθαρίσετε δεδομένα σε pandas με τη συνάρτηση dropna()

Ποια είναι η σύνταξη για το pandas dropna();

Σημαντικές παράμετροι για dropna()

Πώς να χρησιμοποιήσετε pandas DataFrame.dropna()

Αφαίρεση σειρών με ελλείπουσες τιμές

Αφαίρεση στηλών με ελλείπουσες τιμές

Χρήση thresh

Χρήση subset

Ποια είναι η σύνταξη για το pandas `dropna()`;

Σημαντικές παράμετροι για `dropna()`

Πώς να χρησιμοποιήσετε pandas `DataFrame.dropna()`

Χρήση `thresh`

Χρήση `subset`