Η συνάρτηση Python pandas DataFrame.describe() χρησιμοποιείται για τη δημιουργία μιας στατιστικής σύνοψης των αριθμητικών στηλών σε ένα DataFrame. Αυτή η σύνοψη περιλαμβάνει βασικές στατιστικές μετρήσεις όπως μέση τιμή, τυπική απόκλιση, ελάχιστο, μέγιστο και διάφορα εκατοστημόρια.

Ποια είναι η σύνταξη της συνάρτησης describe() του pandas;

Η βασική σύνταξη του describe() για DataFrames είναι απλή. Έχει την εξής μορφή:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Σημαντικές παράμετροι για τις πανδες DataFrame.describe()

Χρησιμοποιώντας τις ακόλουθες παραμέτρους, μπορείτε να ρυθμίσετε την έξοδο του describe():

Παράμετρος Περιγραφή Προεπιλεγμένη τιμή
percentiles Παραθέτει τα εκατοστημόρια που πρέπει να περιλαμβάνονται στην περίληψη [.25, .5, .75]
include Καθορίζει τους τύπους δεδομένων που πρέπει να συμπεριληφθούν στην περιγραφή. Οι πιθανές τιμές είναι numpy.number, numpy.object, all ή None. None
exclude Καθορίζει τους τύπους δεδομένων που θα εξαιρούνται από την περιγραφή. Λειτουργεί όπως η παράμετρος include. None

Παραδείγματα χρήσης του pandas describe()

Εάν χρειάζεστε μια γρήγορη επισκόπηση των βασικών στατιστικών μετρήσεων ενός συνόλου δεδομένων, η συνάρτηση pandas DataFrame.describe() είναι εξαιρετικά χρήσιμη.

Παράδειγμα 1: Στατιστική σύνοψη αριθμητικών δεδομένων

Στο παρακάτω παράδειγμα, εξετάζουμε το DataFrame df, το οποίο περιέχει διαφορετικούς τύπους δεδομένων πωλήσεων.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Τώρα, μπορείτε να χρησιμοποιήσετε το pandas describe() για να λάβετε μια στατιστική σύνοψη των αριθμητικών δεδομένων στις στήλες:

summary = df.describe()
print(summary)
python

Η έξοδος της συνάρτησης pandas DataFrame.describe() έχει ως εξής:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Οι βασικοί δείκτες που εμφανίζονται στην έξοδο είναι:

  • count: Αριθμός μη NaN (Not a Number) καταχωρήσεων
  • mean: Μέσος όρος των τιμών (προσβάσιμος επίσης μέσω DataFrame.mean())
  • std: Τυπική απόκλιση των τιμών
  • min, 25%, 50%, 75%, max: Ελάχιστες, 25ο εκατοστημόριο, διάμεσος (50ο εκατοστημόριο), 75ο εκατοστημόριο και μέγιστες τιμές

Παράδειγμα 2: Προσαρμογή εκατοστημορίων

Μπορείτε να προσαρμόσετε τα εκατοστημόρια στην έξοδο του pandas DataFrame.describe() με την παράμετρο percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Αυτή η κλήση συνάρτησης παρέχει την ακόλουθη έξοδο:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Στην έξοδο, περιλαμβάνονται 10%, 50% και 90% αντί για τα τυπικά εκατοστημόρια που εμφανίζονται στο προηγούμενο παράδειγμα.

Go to Main Menu