Mis on pandas DataFrame describe() meetod?
Python pandas funktsiooni DataFrame.describe() kasutatakse DataFrame’i numbriliste veergude statistilise kokkuvõtte genereerimiseks. See kokkuvõte sisaldab olulisi statistilisi näitajaid, nagu keskmine, standardhälve, miinimum, maksimum ja erinevad protsentiilid.
Mis on pandas’i describe() funktsiooni süntaks?
DataFrames’i describe() põhiline süntaks on lihtne. See näeb välja järgmine:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonPanda DataFrame.describe() jaoks olulised parameetrid
Järgmiste parameetrite abil saate reguleerida väljundit describe():
| Parameeter | Kirjeldus | Vaikimisi väärtus |
|---|---|---|
percentiles
|
Loetleb protsentiilid, mis peaksid olema kokkuvõttes esitatud. | [.25, .5, .75]
|
include
|
Määrab, millised andmetüübid lisada kirjeldusse; võimalikud väärtused on numpy.number, numpy.object, all või None.
|
None
|
exclude
|
Määrab, millised andmetüübid kirjeldusest välja jätta; toimib sarnaselt parameetriga include.
|
None
|
Näited pandas describe() kasutamise kohta
Kui vajate kiiret ülevaadet andmekogumi peamistest statistilistest näitajatest, on pandas DataFrame.describe() funktsioon äärmiselt kasulik.
Näide 1: Numbriliste andmete statistiline kokkuvõte
Järgmises näites vaatame DataFrame df, mis sisaldab erinevat tüüpi müügiandmeid.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNüüd saate kasutada pandas describe(), et saada statistiline kokkuvõte veergudes olevatest numbrilistest andmetest:
summary = df.describe()
print(summary)pythonFunktsiooni pandas DataFrame.describe() väljund on järgmine:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Väljundis kuvatavad peamised näitajad on järgmised:
count: Mitte-NaN (ei ole number) kirjeidmean: väärtuste keskmine (kättesaadav ka DataFrame.mean() kaudu)std: väärtuste standardhälvemin,25%,50%,75%,max: Minimaalne, 25. percentiil, mediaan (50. percentiil), 75. percentiil ja maksimaalne väärtus
Näide 2: Protsentuaalide kohandamine
Saate pandas DataFrame.describe() väljundi protsentiileid kohandada parameetriga percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonSee funktsioonikõne annab järgmise väljundi:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Väljundis on eelmise näite standardprotsentide asemel kasutatud 10%, 50% ja 90%.