Python pandas funkt­siooni DataFrame.describe() ka­su­ta­takse DataFrame’i numb­ri­liste veergude sta­tis­ti­lise kok­ku­võtte ge­ne­ree­ri­miseks. See kokkuvõte sisaldab olulisi sta­tis­tilisi näitajaid, nagu keskmine, stan­dard­hälve, miinimum, maksimum ja erinevad prot­sen­tii­lid.

Mis on pandas’i describe() funkt­siooni süntaks?

Da­taF­ra­mes’i describe() põhiline süntaks on lihtne. See näeb välja järgmine:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Panda DataFrame.describe() jaoks olulised pa­ra­meet­rid

Järgmiste pa­ra­meet­rite abil saate re­gu­lee­rida väljundit describe():

Pa­ra­mee­ter Kirjeldus Vaikimisi väärtus
percentiles Loetleb prot­sen­tii­lid, mis peaksid olema kok­ku­võt­tes esitatud. [.25, .5, .75]
include Määrab, millised and­me­tüü­bid lisada kir­jel­dusse; või­ma­li­kud väärtused on numpy.number, numpy.object, all või None. None
exclude Määrab, millised and­me­tüü­bid kir­jel­du­sest välja jätta; toimib sarnaselt pa­ra­meet­riga include. None

Näited pandas describe() ka­su­ta­mise kohta

Kui vajate kiiret ülevaadet and­me­ko­gumi pea­mis­test sta­tis­ti­lis­test näi­ta­ja­test, on pandas DataFrame.describe() funkt­sioon äärmiselt kasulik.

Näide 1: Numb­ri­liste andmete sta­tis­ti­line kokkuvõte

Järgmises näites vaatame DataFrame df, mis sisaldab erinevat tüüpi müü­gi­and­meid.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nüüd saate kasutada pandas describe(), et saada sta­tis­ti­line kokkuvõte veergudes olevatest numb­ri­lis­test andmetest:

summary = df.describe()
print(summary)
python

Funkt­siooni pandas DataFrame.describe() väljund on järgmine:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Väljundis kuvatavad peamised näitajad on järgmised:

  • count: Mitte-NaN (ei ole number) kirjeid
  • mean: väärtuste keskmine (kät­te­saa­dav ka DataFrame.mean() kaudu)
  • std: väärtuste stan­dard­hälve
  • min, 25%, 50%, 75%, max: Mi­ni­maalne, 25. pe­rcen­tiil, mediaan (50. pe­rcen­tiil), 75. pe­rcen­tiil ja mak­si­maalne väärtus

Näide 2: Prot­sen­tuaalide ko­han­da­mine

Saate pandas DataFrame.describe() väljundi prot­sen­tii­leid kohandada pa­ra­meet­riga percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

See funkt­sioo­ni­kõne annab järgmise väljundi:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Väljundis on eelmise näite stan­dard­prot­sen­tide asemel kasutatud 10%, 50% ja 90%.

Go to Main Menu