Python pandas funkcija DataFrame.describe() naudojama sta­tis­ti­nei DataFrame skait­me­ni­nių stulpelių san­t­rau­kai generuoti. Ši santrauka apima pag­rin­di­nius sta­tis­ti­nius rodiklius, pvz., vidurkį, stan­dar­ti­nį nuokrypį, minimumą, maksimumą ir įvairius pro­cen­ti­lius.

Kokia yra pandas describe() funkcijos sintaksė?

Pag­rin­di­nė describe() sintaksė Da­taF­ra­mes yra paprasta. Ji atrodo taip:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Svarbūs pandų pa­ra­met­rai DataFrame.describe()

Naudodami šiuos pa­ra­met­rus, galite re­gu­liuo­ti describe() išėjimą:

Pa­ra­met­ras Aprašymas Nu­ma­ty­ta­sis vertė
percentiles Išvardija pro­cen­ti­les, kurios turėtų būti įtrauktos į santrauką. [.25, .5, .75]
include Nurodo, kokie duomenų tipai turi būti įtraukti į aprašymą; galimos reikšmės yra numpy.number, numpy.object, all arba None. None
exclude Nurodo, kokie duomenų tipai turi būti ne­įt­rauk­ti į aprašymą; funkcijos, pvz., include pa­ra­met­ras. None

Pa­vyz­džiai, kaip naudoti pandas describe()

Jei jums reikia greitai per­žiū­rė­ti pag­rin­di­nius duomenų rinkinio sta­tis­ti­nius rodiklius, pandas DataFrame.describe() funkcija yra ypač naudinga.

1 pavyzdys: Skait­me­ni­nių duomenų sta­tis­ti­nė santrauka

Šiame pavyzdyje pa­žvelg­si­me į DataFrame df, kuriame yra įvairių tipų pardavimo duomenys.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Dabar galite naudoti pandas describe(), kad gautumėte sta­tis­ti­nę stul­pe­liuo­se esančių skait­me­ni­nių duomenų santrauką:

summary = df.describe()
print(summary)
python

Pandas DataFrame.describe() funkcijos re­zul­ta­tas yra toks:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Pag­rin­di­niai rodikliai, rodomi išvestyje, yra:

  • count: Ne NaN (ne skaičius) įrašų skaičius
  • mean: Vidutinė verčių reikšmė (taip pat prieinama per DataFrame.mean())
  • std: verčių stan­dar­ti­nis nuokrypis
  • min, 25%, 50%, 75%, max: Mažiausia, 25-oji pro­cen­ti­lė, mediana (50-oji pro­cen­ti­lė), 75-oji pro­cen­ti­lė ir di­džiau­sia reikšmės

2 pavyzdys: Pro­cen­ti­lių pri­tai­ky­mas

Galite pri­tai­ky­ti pro­cen­ti­les pandas DataFrame.describe() išvestyje naudodami percentiles parametrą:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Šis funkcijos iš­kvie­ti­mas pateikia šiuos re­zul­ta­tus:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Re­zul­ta­tuo­se pa­tei­kia­mi 10%, 50 % ir 90 %, o ne stan­dar­ti­niai pro­cen­ti­liai, kaip anks­tes­nia­me pavyzdyje.

Go to Main Menu