Kas yra pandas DataFrame describe() metodas?
Python pandas funkcija DataFrame.describe() naudojama statistinei DataFrame skaitmeninių stulpelių santraukai generuoti. Ši santrauka apima pagrindinius statistinius rodiklius, pvz., vidurkį, standartinį nuokrypį, minimumą, maksimumą ir įvairius procentilius.
Kokia yra pandas describe() funkcijos sintaksė?
Pagrindinė describe() sintaksė DataFrames yra paprasta. Ji atrodo taip:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonSvarbūs pandų parametrai DataFrame.describe()
Naudodami šiuos parametrus, galite reguliuoti describe() išėjimą:
| Parametras | Aprašymas | Numatytasis vertė |
|---|---|---|
percentiles
|
Išvardija procentiles, kurios turėtų būti įtrauktos į santrauką. | [.25, .5, .75]
|
include
|
Nurodo, kokie duomenų tipai turi būti įtraukti į aprašymą; galimos reikšmės yra numpy.number, numpy.object, all arba None.
|
None
|
exclude
|
Nurodo, kokie duomenų tipai turi būti neįtraukti į aprašymą; funkcijos, pvz., include parametras.
|
None
|
Pavyzdžiai, kaip naudoti pandas describe()
Jei jums reikia greitai peržiūrėti pagrindinius duomenų rinkinio statistinius rodiklius, pandas DataFrame.describe() funkcija yra ypač naudinga.
1 pavyzdys: Skaitmeninių duomenų statistinė santrauka
Šiame pavyzdyje pažvelgsime į DataFrame df, kuriame yra įvairių tipų pardavimo duomenys.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonDabar galite naudoti pandas describe(), kad gautumėte statistinę stulpeliuose esančių skaitmeninių duomenų santrauką:
summary = df.describe()
print(summary)pythonPandas DataFrame.describe() funkcijos rezultatas yra toks:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Pagrindiniai rodikliai, rodomi išvestyje, yra:
count: Ne NaN (ne skaičius) įrašų skaičiusmean: Vidutinė verčių reikšmė (taip pat prieinama per DataFrame.mean())std: verčių standartinis nuokrypismin,25%,50%,75%,max: Mažiausia, 25-oji procentilė, mediana (50-oji procentilė), 75-oji procentilė ir didžiausia reikšmės
2 pavyzdys: Procentilių pritaikymas
Galite pritaikyti procentiles pandas DataFrame.describe() išvestyje naudodami percentiles parametrą:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonŠis funkcijos iškvietimas pateikia šiuos rezultatus:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Rezultatuose pateikiami 10%, 50 % ir 90 %, o ne standartiniai procentiliai, kaip ankstesniame pavyzdyje.