Kas yra pandas DataFrame describe() metodas?

Contents

Python pandas funkcija DataFrame.describe() naudojama statistinei DataFrame skaitmeninių stulpelių santraukai generuoti. Ši santrauka apima pagrindinius statistinius rodiklius, pvz., vidurkį, standartinį nuokrypį, minimumą, maksimumą ir įvairius procentilius.

Kokia yra pandas `describe()` funkcijos sintaksė?

Pagrindinė describe() sintaksė DataFrames yra paprasta. Ji atrodo taip:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Svarbūs pandų parametrai `DataFrame.describe()`

Naudodami šiuos parametrus, galite reguliuoti describe() išėjimą:

Parametras	Aprašymas	Numatytasis vertė
`percentiles`	Išvardija procentiles, kurios turėtų būti įtrauktos į santrauką.	`[.25, .5, .75]`
`include`	Nurodo, kokie duomenų tipai turi būti įtraukti į aprašymą; galimos reikšmės yra `numpy.number`, `numpy.object`, `all` arba `None`.	`None`
`exclude`	Nurodo, kokie duomenų tipai turi būti neįtraukti į aprašymą; funkcijos, pvz., `include` parametras.	`None`

Pavyzdžiai, kaip naudoti pandas `describe()`

Jei jums reikia greitai peržiūrėti pagrindinius duomenų rinkinio statistinius rodiklius, pandas DataFrame.describe() funkcija yra ypač naudinga.

1 pavyzdys: Skaitmeninių duomenų statistinė santrauka

Šiame pavyzdyje pažvelgsime į DataFrame df, kuriame yra įvairių tipų pardavimo duomenys.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Dabar galite naudoti pandas describe(), kad gautumėte statistinę stulpeliuose esančių skaitmeninių duomenų santrauką:

summary = df.describe()
print(summary)

python

Pandas DataFrame.describe() funkcijos rezultatas yra toks:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Pagrindiniai rodikliai, rodomi išvestyje, yra:

count: Ne NaN (ne skaičius) įrašų skaičius
mean: Vidutinė verčių reikšmė (taip pat prieinama per DataFrame.mean())
std: verčių standartinis nuokrypis
min, 25%, 50%, 75%, max: Mažiausia, 25-oji procentilė, mediana (50-oji procentilė), 75-oji procentilė ir didžiausia reikšmės

2 pavyzdys: Procentilių pritaikymas

Galite pritaikyti procentiles pandas DataFrame.describe() išvestyje naudodami percentiles parametrą:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Šis funkcijos iškvietimas pateikia šiuos rezultatus:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Rezultatuose pateikiami 10%, 50 % ir 90 %, o ne standartiniai procentiliai, kaip ankstesniame pavyzdyje.

Kaip įkelti failus į Python su pandas read_csv()

Python pandas read_csv() yra galinga funkcija, leidžianti greitai ir efektyviai pasiekti CSV failų turinį Python. Funkcija yra lanksti ir siūlo daugybę parametrų, todėl galite pritaikyti įkėlimo procesą pagal savo poreikius. Pandas read_csv() supratimas yra būtinas dirbant su…

Mr. Kosalshutterstock

Kaip indeksuoti pandas DataFrames

Pandas DataFrame indeksavimas yra galingas įrankis efektyviam ir veiksmingam duomenų tvarkymui. Naudodami įvairius metodus, galite nukreipti dėmesį į konkrečius duomenis ir DataFrame pogrupius. Šiame straipsnyje išnagrinėsime, kas yra pandas DataFrame indeksas, kaip pasiekti…

BEST-BACKGROUNDSShutterstock

Kaip valyti duomenis pandas naudojant dropna()

Pandas DataFrame.dropna() funkcija yra galingas įrankis duomenų rinkinių valymui. Ši funkcija efektyviai pašalina trūkstamas reikšmes ir gali būti naudojama su įvairiais parametrais, leidžiančiais programuotojams nurodyti skirtingus duomenų valymo reikalavimus. Sužinokite apie…

ESB Professionalshutterstock

Kaip naudoti Pandas DataFrame, kad greitai tvarkytumėte lenteles Python kalba

Pandas modulis yra vienas iš galingiausių duomenų tvarkymo įrankių Python kalboje. Viena iš pagrindinių Pandas duomenų struktūrų yra DataFrame. DataFrames gali būti naudojami efektyviam dvimatės struktūros duomenų tvarkymui. Mes paaiškiname duomenų struktūros sandarą, savybes ir…

BEST-BACKGROUNDSShutterstock

Kaip kartoti DataFrames su pandas iterrows()

Pandas DataFrame.iterrows() yra naudinga funkcija, skirta kartoti eilutes DataFrame, ypač kai reikia apdoroti duomenis eilutė po eilutės. Tai ypač naudinga skaičiavimams ar sąlyginei logikai. Šiame straipsnyje aptarsime panda iterrows() sintaksę ir parodysime, kaip sudėti…

UndreyShutterstock

Kas yra Python pandas savybė iloc[]?

Dirbant su DataFrames Python pandas, ne visos DataFrame eilutės ar stulpeliai visada yra svarbūs duomenų analizei. Pandas DataFrame savybė iloc[] yra naudinga priemonė eilutėms ar stulpeliams atrinkti pagal jų indeksus. Šiame straipsnyje apžvelgsime iloc[] sintaksę ir įvairius…

Kas yra pandas DataFrame describe() metodas?

Kokia yra pandas describe() funkcijos sintaksė?

Svarbūs pandų pa­ra­met­rai DataFrame.describe()

Pa­vyz­džiai, kaip naudoti pandas describe()

1 pavyzdys: Skait­me­ni­nių duomenų sta­tis­ti­nė santrauka

2 pavyzdys: Pro­cen­ti­lių pri­tai­ky­mas

Kokia yra pandas `describe()` funkcijos sintaksė?

Svarbūs pandų parametrai `DataFrame.describe()`

Pavyzdžiai, kaip naudoti pandas `describe()`

1 pavyzdys: Skaitmeninių duomenų statistinė santrauka

2 pavyzdys: Procentilių pritaikymas