Python pandas -funktiota DataFrame.describe() käytetään tuot­ta­maan ti­las­tol­li­nen yh­teen­ve­to DataFrame-taulukon nu­mee­ri­sis­ta sa­rak­keis­ta. Tämä yh­teen­ve­to sisältää keskeisiä ti­las­tol­li­sia mit­ta­rei­ta, kuten kes­kiar­von, kes­ki­ha­jon­nan, minimin, maksimin ja erilaisia pro­sent­ti­pis­tei­tä.

Mikä on pandas-kirjaston describe() syntaksi?

DataFrame-tau­lu­koi­den describe() pe­rus­ra­ken­teet ovat yk­sin­ker­tai­sia. Ne näyttävät tältä:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Pandas-kirjaston tärkeät pa­ra­met­rit DataFrame.describe()

Seu­raa­vien pa­ra­met­rien avulla voit säätää describe():n ulostuloa:

Parametri Kuvaus Ole­tusar­vo
percentiles Luettelee yh­teen­ve­toon si­säl­ly­tet­tä­vät pro­sent­ti­pis­teet. [.25, .5, .75]
include Määrittää, mitkä tie­to­tyy­pit si­säl­ly­te­tään ku­vauk­seen; mah­dol­li­set arvot ovat numpy.number, numpy.object, all tai None. None
exclude Määrittää, mitkä tie­to­tyy­pit jätetään pois ku­vauk­ses­ta; toimii kuten parametri include. None

Esi­merk­ke­jä pandas describe():n käytöstä

Jos tarvitset nopean yleis­kat­sauk­sen tie­to­jou­kon tär­keim­mis­tä ti­las­tol­li­sis­ta mit­ta­reis­ta, pandas DataFrame.describe() -funktio on erittäin hyö­dyl­li­nen.

Esimerkki 1: Nu­me­raa­lis­ten tietojen ti­las­tol­li­nen yh­teen­ve­to

Seu­raa­vas­sa esi­mer­kis­sä tar­kas­te­lem­me DataFrame dfää, joka sisältää erilaisia myyn­ti­tie­to­ja.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nyt voit käyttää pandas describe() saa­dak­se­si ti­las­tol­li­sen yh­teen­ve­don sa­rak­kei­den nu­mee­ri­sis­ta tiedoista:

summary = df.describe()
print(summary)
python

Pandas DataFrame.describe() -funktion tulos on seuraava:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Tu­lok­ses­sa esitetyt keskeiset mittarit ovat:

  • count: Ei-NaN (ei luku) -mer­kin­tö­jen lukumäärä
  • mean: Arvojen keskiarvo (saa­ta­vil­la myös DataFrame.mean()-funk­tiol­la)
  • std: Arvojen kes­ki­ha­jon­ta
  • min, 25%, 50%, 75%, max: Minimi-, 25. pro­sent­ti­pis­te-, mediaani- (50. pro­sent­ti­pis­te), 75. pro­sent­ti­pis­te- ja mak­si­miar­vot

Esimerkki 2: Pro­sent­ti­pis­tei­den mu­kaut­ta­mi­nen

Voit mukauttaa pandas DataFrame.describe() -tuloksen pro­sent­ti­pis­tei­tä percentiles -pa­ra­met­ril­la:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Tämä funk­tio­kut­su tuottaa seuraavan tuloksen:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Tu­lok­ses­sa on mukana 10%, 50 % ja 90 % edellisen esimerkin va­kiopro­sent­ti­pis­tei­den sijaan.

Siirry pää­va­lik­koon