Kaj je metoda describe() v pandas DataFrame?

Contents

Funkcija Python pandas DataFrame.describe() se uporablja za ustvarjanje statističnega povzetka številčnih stolpcev v DataFrame. Ta povzetek vključuje ključne statistične metrike, kot so povprečje, standardni odmik, minimum, maksimum in različni percentili.

Kakšna je sintaksa za funkcijo `describe()` v pandas?

Osnovna sintaksa describe() za DataFrames je preprosta. Izgleda takole:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Pomembni parametri za pandas `DataFrame.describe()`

Z naslednjimi parametri lahko nastavite izhod describe():

Parameter	Opis	Privzeta vrednost
`percentiles`	Seznam percentilov, ki naj bi bili vključeni v povzetek	`[.25, .5, .75]`
`include`	Določa, katere vrste podatkov naj se vključijo v opis; možne vrednosti so `numpy.number`, `numpy.object`, `all` ali `None`	`None`
`exclude`	Določa, katere vrste podatkov naj se izključijo iz opisa; deluje podobno kot parameter `include`.	`None`

Primeri uporabe pandas `describe()`

Če potrebujete hiter pregled ključnih statističnih kazalnikov podatkovnega niza, je funkcija pandas DataFrame.describe() izredno uporabna.

Primer 1: Statistični povzetek numeričnih podatkov

V naslednjem primeru si ogledamo DataFrame df, ki vsebuje različne vrste podatkov o prodaji.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Sedaj lahko uporabite pandas describe(), da dobite statistični povzetek numeričnih podatkov v stolpcih:

summary = df.describe()
print(summary)

python

Izhod funkcije pandas DataFrame.describe() je naslednji:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Ključni kazalniki, prikazani v izhodnih podatkih, so:

count: Število vnosov, ki niso NaN (ni število)
mean: Povprečje vrednosti (dostopno tudi prek DataFrame.mean())
std: Standardni odmik vrednosti
min, 25%, 50%, 75%, max: Najmanjša, 25. percentil, mediana (50. percentil), 75. percentil in največja vrednost

Primer 2: Prilagajanje percentilov

V izhodu pandas DataFrame.describe() lahko odstotke prilagodite s parametrom percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Ta klic funkcije zagotavlja naslednji izhod:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

V izhodnih podatkih so namesto standardnih percentilov iz prejšnjega primera vključeni 10%, 50 % in 90 %.

Kako naložiti datoteke v Python z pandas read_csv()

Python pandas read_csv() je zmogljiva funkcija za hiter in učinkovit dostop do vsebine CSV datotek v Pythonu. Funkcija je prilagodljiva in ponuja številne parametre, tako da lahko prilagodite proces nalaganja svojim potrebam. Razumevanje pandas read_csv() je bistveno za delo s…

Mr. Kosalshutterstock

Kako indeksirati pandas DataFrames

Indeksiranje Pandas DataFrame je močno orodje za učinkovito in uspešno ravnanje s podatki. Z različnimi metodami lahko ciljate na določene podatke in podskupine vašega DataFrame. V tem članku bomo raziskali, kaj je indeks Pandas DataFrame, kako dostopati do podatkov v stolpcih in…

BEST-BACKGROUNDSShutterstock

Kako očistiti podatke v pandas z dropna()

Funkcija DataFrame.dropna() v pandas je močno orodje za čiščenje podatkovnih nizov. Funkcija učinkovito odstrani manjkajoče vrednosti in se lahko uporablja z različnimi parametri, kar programerjem omogoča, da določijo različne zahteve za čiščenje podatkov. Tukaj se lahko…

ESB Professionalshutterstock

Kako uporabljati Pandas DataFrame za hitro manipulacijo tabel v Pythonu

Modul Pandas je eno najmočnejših orodij za manipulacijo podatkov v Pythonu. Ena od osrednjih podatkovnih struktur v Pandasu je DataFrame. DataFrames se lahko uporabljajo za učinkovito manipulacijo dvodimenzionalnih, strukturiranih podatkov. Strukturo podatkovne strukture ter…

BEST-BACKGROUNDSShutterstock

Kako z pandas iterrows() prehoditi skozi DataFrames

Pandas DataFrame.iterrows() je uporabna funkcija za ponavljanje vrstic v DataFrame, še posebej kadar morate obdelati podatke vrstico po vrstico. To je še posebej koristno za izračune ali pogojno logiko. V tem članku bomo obravnavali sintakso panda iterrows() in vam pokazali, kako…

UndreyShutterstock

Kaj je lastnost iloc[] v Python pandas?

Pri delu z DataFrames v Python pandas niso vedno vse vrstice ali stolpci DataFrame pomembni za analizo podatkov. Lastnost pandas DataFrame iloc[] je uporabno orodje za izbiranje vrstic ali stolpcev z uporabo njihovih indeksov. V tem članku si bomo ogledali sintakso iloc[] in…

Kaj je metoda describe() v pandas DataFrame?

Kakšna je sintaksa za funkcijo describe() v pandas?

Pomembni parametri za pandas DataFrame.describe()

Primeri uporabe pandas describe()

Primer 1: Sta­ti­stič­ni povzetek nu­me­rič­nih podatkov

Primer 2: Pri­la­ga­ja­nje per­cen­ti­lov

Kakšna je sintaksa za funkcijo `describe()` v pandas?

Pomembni parametri za pandas `DataFrame.describe()`

Primeri uporabe pandas `describe()`

Primer 1: Statistični povzetek numeričnih podatkov

Primer 2: Prilagajanje percentilov