Mis on pandas DataFrame describe() meetod?

Contents

Python pandas funktsiooni DataFrame.describe() kasutatakse DataFrame’i numbriliste veergude statistilise kokkuvõtte genereerimiseks. See kokkuvõte sisaldab olulisi statistilisi näitajaid, nagu keskmine, standardhälve, miinimum, maksimum ja erinevad protsentiilid.

Mis on pandas’i `describe()` funktsiooni süntaks?

DataFrames’i describe() põhiline süntaks on lihtne. See näeb välja järgmine:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Panda `DataFrame.describe()` jaoks olulised parameetrid

Järgmiste parameetrite abil saate reguleerida väljundit describe():

Parameeter	Kirjeldus	Vaikimisi väärtus
`percentiles`	Loetleb protsentiilid, mis peaksid olema kokkuvõttes esitatud.	`[.25, .5, .75]`
`include`	Määrab, millised andmetüübid lisada kirjeldusse; võimalikud väärtused on `numpy.number`, `numpy.object`, `all` või `None`.	`None`
`exclude`	Määrab, millised andmetüübid kirjeldusest välja jätta; toimib sarnaselt parameetriga `include`.	`None`

Näited pandas `describe()` kasutamise kohta

Kui vajate kiiret ülevaadet andmekogumi peamistest statistilistest näitajatest, on pandas DataFrame.describe() funktsioon äärmiselt kasulik.

Näide 1: Numbriliste andmete statistiline kokkuvõte

Järgmises näites vaatame DataFrame df, mis sisaldab erinevat tüüpi müügiandmeid.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nüüd saate kasutada pandas describe(), et saada statistiline kokkuvõte veergudes olevatest numbrilistest andmetest:

summary = df.describe()
print(summary)

python

Funktsiooni pandas DataFrame.describe() väljund on järgmine:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Väljundis kuvatavad peamised näitajad on järgmised:

count: Mitte-NaN (ei ole number) kirjeid
mean: väärtuste keskmine (kättesaadav ka DataFrame.mean() kaudu)
std: väärtuste standardhälve
min, 25%, 50%, 75%, max: Minimaalne, 25. percentiil, mediaan (50. percentiil), 75. percentiil ja maksimaalne väärtus

Näide 2: Protsentuaalide kohandamine

Saate pandas DataFrame.describe() väljundi protsentiileid kohandada parameetriga percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

See funktsioonikõne annab järgmise väljundi:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Väljundis on eelmise näite standardprotsentide asemel kasutatud 10%, 50% ja 90%.

Kuidas laadida faile Pythonisse pandas read_csv() abil

Python pandas read_csv() on võimas funktsioon, mis võimaldab kiiresti ja tõhusalt juurdepääsu CSV-failide sisule Pythonis. Funktsioon on paindlik ja pakub mitmeid parameetreid, mis võimaldavad laadimisprotsessi oma vajadustele kohandada. Pandas read_csv() mõistmine on oluline…

Mr. Kosalshutterstock

Kuidas indekseerida pandas DataFrames

Pandas DataFrame indekseerimine on võimas vahend tõhusaks ja efektiivseks andmete töötlemiseks. Erinevate meetodite abil saate suunata oma DataFrame'i konkreetsetele andmetele ja alamhulkadele. Selles artiklis uurime, mis on pandas DataFrame indeks, kuidas pääseda juurde veergude…

BEST-BACKGROUNDSShutterstock

Kuidas puhastada andmeid pandas'es dropna() abil

Pandas DataFrame.dropna() funktsioon on võimas vahend andmekogumite puhastamiseks. Funktsioon eemaldab tõhusalt puuduvad väärtused ja seda saab kasutada mitmesuguste parameetritega, võimaldades programmeerijatel määrata andmete puhastamiseks erinevaid nõudeid. Tutvuge siin selle…

ESB Professionalshutterstock

Kuidas kasutada Pandas DataFrame'i tabelite kiireks töötlemiseks Pythonis

Pandas-moodul on üks võimsamaid andmete töötlemise vahendeid Pythonis. Üks Pandase keskseid andmestruktuure on DataFrame. DataFrame'i abil saab tõhusalt töödelda kahemõõtmelisi struktureeritud andmeid. Selgitame andmestruktuuri ülesehitust, omadusi ja meetodeid lihtsasti…

BEST-BACKGROUNDSShutterstock

Kuidas läbida DataFrames'i pandas iterrows() abil

Pandas DataFrame.iterrows() on kasulik funktsioon DataFrame'i ridade läbivaatamiseks, eriti kui on vaja töödelda andmeid rida haaval. See on eriti kasulik arvutuste või tingimusloogika puhul. Käesolevas artiklis käsitletakse panda iterrows() süntaksit ja näidatakse, kuidas liita…

UndreyShutterstock

Mis on Python pandas omadus iloc[]?

Python pandas'is DataFrames'iga töötades ei ole kõik DataFrame'i read või veerud alati andmete analüüsimiseks olulised. Pandas DataFrame'i omadus iloc[] on kasulik vahend ridade või veergude valimiseks nende indeksite abil. Selles artiklis vaatame iloc[] süntaksit ja erinevaid…

Mis on pandas DataFrame describe() meetod?

Mis on pandas’i describe() funkt­siooni süntaks?

Panda DataFrame.describe() jaoks olulised pa­ra­meet­rid

Näited pandas describe() ka­su­ta­mise kohta

Näide 1: Numb­ri­liste andmete sta­tis­ti­line kokkuvõte

Näide 2: Prot­sen­tuaalide ko­han­da­mine

Mis on pandas’i `describe()` funktsiooni süntaks?

Panda `DataFrame.describe()` jaoks olulised parameetrid

Näited pandas `describe()` kasutamise kohta

Näide 1: Numbriliste andmete statistiline kokkuvõte

Näide 2: Protsentuaalide kohandamine