Τι είναι η μέθοδος describe() του DataFrame των pandas;
Η συνάρτηση Python pandas DataFrame.describe() χρησιμοποιείται για τη δημιουργία μιας στατιστικής σύνοψης των αριθμητικών στηλών σε ένα DataFrame. Αυτή η σύνοψη περιλαμβάνει βασικές στατιστικές μετρήσεις όπως μέση τιμή, τυπική απόκλιση, ελάχιστο, μέγιστο και διάφορα εκατοστημόρια.
Ποια είναι η σύνταξη της συνάρτησης describe() του pandas;
Η βασική σύνταξη του describe() για DataFrames είναι απλή. Έχει την εξής μορφή:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonΣημαντικές παράμετροι για τις πανδες DataFrame.describe()
Χρησιμοποιώντας τις ακόλουθες παραμέτρους, μπορείτε να ρυθμίσετε την έξοδο του describe():
| Παράμετρος | Περιγραφή | Προεπιλεγμένη τιμή |
|---|---|---|
percentiles
|
Παραθέτει τα εκατοστημόρια που πρέπει να περιλαμβάνονται στην περίληψη | [.25, .5, .75]
|
include
|
Καθορίζει τους τύπους δεδομένων που πρέπει να συμπεριληφθούν στην περιγραφή. Οι πιθανές τιμές είναι numpy.number, numpy.object, all ή None.
|
None
|
exclude
|
Καθορίζει τους τύπους δεδομένων που θα εξαιρούνται από την περιγραφή. Λειτουργεί όπως η παράμετρος include.
|
None
|
Παραδείγματα χρήσης του pandas describe()
Εάν χρειάζεστε μια γρήγορη επισκόπηση των βασικών στατιστικών μετρήσεων ενός συνόλου δεδομένων, η συνάρτηση pandas DataFrame.describe() είναι εξαιρετικά χρήσιμη.
Παράδειγμα 1: Στατιστική σύνοψη αριθμητικών δεδομένων
Στο παρακάτω παράδειγμα, εξετάζουμε το DataFrame df, το οποίο περιέχει διαφορετικούς τύπους δεδομένων πωλήσεων.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonΤώρα, μπορείτε να χρησιμοποιήσετε το pandas describe() για να λάβετε μια στατιστική σύνοψη των αριθμητικών δεδομένων στις στήλες:
summary = df.describe()
print(summary)pythonΗ έξοδος της συνάρτησης pandas DataFrame.describe() έχει ως εξής:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Οι βασικοί δείκτες που εμφανίζονται στην έξοδο είναι:
count: Αριθμός μη NaN (Not a Number) καταχωρήσεωνmean: Μέσος όρος των τιμών (προσβάσιμος επίσης μέσω DataFrame.mean())std: Τυπική απόκλιση των τιμώνmin,25%,50%,75%,max: Ελάχιστες, 25ο εκατοστημόριο, διάμεσος (50ο εκατοστημόριο), 75ο εκατοστημόριο και μέγιστες τιμές
Παράδειγμα 2: Προσαρμογή εκατοστημορίων
Μπορείτε να προσαρμόσετε τα εκατοστημόρια στην έξοδο του pandas DataFrame.describe() με την παράμετρο percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonΑυτή η κλήση συνάρτησης παρέχει την ακόλουθη έξοδο:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Στην έξοδο, περιλαμβάνονται 10%, 50% και 90% αντί για τα τυπικά εκατοστημόρια που εμφανίζονται στο προηγούμενο παράδειγμα.