Kaj je metoda describe() v pandas DataFrame?
Funkcija Python pandas DataFrame.describe() se uporablja za ustvarjanje statističnega povzetka številčnih stolpcev v DataFrame. Ta povzetek vključuje ključne statistične metrike, kot so povprečje, standardni odmik, minimum, maksimum in različni percentili.
Kakšna je sintaksa za funkcijo describe() v pandas?
Osnovna sintaksa describe() za DataFrames je preprosta. Izgleda takole:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonPomembni parametri za pandas DataFrame.describe()
Z naslednjimi parametri lahko nastavite izhod describe():
| Parameter | Opis | Privzeta vrednost |
|---|---|---|
percentiles
|
Seznam percentilov, ki naj bi bili vključeni v povzetek | [.25, .5, .75]
|
include
|
Določa, katere vrste podatkov naj se vključijo v opis; možne vrednosti so numpy.number, numpy.object, all ali None
|
None
|
exclude
|
Določa, katere vrste podatkov naj se izključijo iz opisa; deluje podobno kot parameter include.
|
None
|
Primeri uporabe pandas describe()
Če potrebujete hiter pregled ključnih statističnih kazalnikov podatkovnega niza, je funkcija pandas DataFrame.describe() izredno uporabna.
Primer 1: Statistični povzetek numeričnih podatkov
V naslednjem primeru si ogledamo DataFrame df, ki vsebuje različne vrste podatkov o prodaji.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonSedaj lahko uporabite pandas describe(), da dobite statistični povzetek numeričnih podatkov v stolpcih:
summary = df.describe()
print(summary)pythonIzhod funkcije pandas DataFrame.describe() je naslednji:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Ključni kazalniki, prikazani v izhodnih podatkih, so:
count: Število vnosov, ki niso NaN (ni število)mean: Povprečje vrednosti (dostopno tudi prek DataFrame.mean())std: Standardni odmik vrednostimin,25%,50%,75%,max: Najmanjša, 25. percentil, mediana (50. percentil), 75. percentil in največja vrednost
Primer 2: Prilagajanje percentilov
V izhodu pandas DataFrame.describe() lahko odstotke prilagodite s parametrom percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonTa klic funkcije zagotavlja naslednji izhod:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000V izhodnih podatkih so namesto standardnih percentilov iz prejšnjega primera vključeni 10%, 50 % in 90 %.