Funkcija Python pandas DataFrame.describe() se uporablja za ustvar­ja­nje sta­ti­stič­ne­ga povzetka šte­vilč­nih stolpcev v DataFrame. Ta povzetek vključuje ključne sta­ti­stič­ne metrike, kot so povprečje, stan­dar­dni odmik, minimum, maksimum in različni per­cen­ti­li.

Kakšna je sintaksa za funkcijo describe() v pandas?

Osnovna sintaksa describe() za Da­ta­Fra­mes je preprosta. Izgleda takole:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Pomembni parametri za pandas DataFrame.describe()

Z na­sle­dnji­mi parametri lahko nastavite izhod describe():

Parameter Opis Privzeta vrednost
percentiles Seznam per­cen­ti­lov, ki naj bi bili vključeni v povzetek [.25, .5, .75]
include Določa, katere vrste podatkov naj se vključijo v opis; možne vrednosti so numpy.number, numpy.object, all ali None None
exclude Določa, katere vrste podatkov naj se iz­klju­či­jo iz opisa; deluje podobno kot parameter include. None

Primeri uporabe pandas describe()

Če po­tre­bu­je­te hiter pregled ključnih sta­ti­stič­nih ka­zal­ni­kov po­dat­kov­ne­ga niza, je funkcija pandas DataFrame.describe() izredno uporabna.

Primer 1: Sta­ti­stič­ni povzetek nu­me­rič­nih podatkov

V na­sle­dnjem primeru si ogledamo DataFrame df, ki vsebuje različne vrste podatkov o prodaji.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Sedaj lahko uporabite pandas describe(), da dobite sta­ti­stič­ni povzetek nu­me­rič­nih podatkov v stolpcih:

summary = df.describe()
print(summary)
python

Izhod funkcije pandas DataFrame.describe() je naslednji:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Ključni kazalniki, prikazani v izhodnih podatkih, so:

  • count: Število vnosov, ki niso NaN (ni število)
  • mean: Povprečje vrednosti (dostopno tudi prek DataFrame.mean())
  • std: Stan­dar­dni odmik vrednosti
  • min, 25%, 50%, 75%, max: Najmanjša, 25. percentil, mediana (50. percentil), 75. percentil in največja vrednost

Primer 2: Pri­la­ga­ja­nje per­cen­ti­lov

V izhodu pandas DataFrame.describe() lahko odstotke pri­la­go­di­te s pa­ra­me­trom percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Ta klic funkcije za­go­ta­vlja naslednji izhod:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

V izhodnih podatkih so namesto stan­dar­dnih per­cen­ti­lov iz prej­šnje­ga primera vključeni 10%, 50 % in 90 %.

Go to Main Menu