Python pandas-funk­tio­nen DataFrame.describe() bruges til at generere en sta­ti­stisk oversigt over de numeriske kolonner i en DataFrame. Denne oversigt in­de­hol­der vigtige sta­ti­sti­ske målinger som gen­nem­snit, stan­dard­af­vi­gel­se, minimum, maksimum og for­skel­li­ge per­cen­ti­ler.

Hvad er syntaksen for pandas’ describe() -funktion?

Den grund­læg­gen­de syntaks for describe() for Da­ta­F­ra­mes er enkel. Den ser således ud:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Vigtige parametre for pandas’ DataFrame.describe()

Ved hjælp af følgende parametre kan du justere outputtet på describe():

Parameter Be­skri­vel­se Stan­dard­vær­di
percentiles Viser de per­cen­ti­ler, der skal medtages i over­sig­ten. [.25, .5, .75]
include Angiver, hvilke datatyper der skal medtages i be­skri­vel­sen; mulige værdier er numpy.number, numpy.object, all eller None None
exclude Angiver, hvilke datatyper der skal udelades fra be­skri­vel­sen; fungerer som pa­ra­me­te­ren include. None

Eksempler på brug af pandas describe()

Hvis du har brug for et hurtigt overblik over de vigtigste sta­ti­sti­ske målinger i et datasæt, er pandas DataFrame.describe() -funk­tio­nen yderst nyttig.

Eksempel 1: Sta­ti­stisk oversigt over numeriske data

I det følgende eksempel ser vi på DataFrame df, som in­de­hol­der for­skel­li­ge typer salgsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nu kan du bruge pandas describe() til at få et sta­ti­stisk resumé af de numeriske data i ko­lon­ner­ne:

summary = df.describe()
print(summary)
python

Outputtet fra pandas DataFrame.describe() -funk­tio­nen er som følger:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De vigtigste målinger, der vises i outputtet, er:

  • count: Antal ikke-NaN-poster (Not a Number)
  • mean: Gen­nem­snit af værdierne (kan også tilgås via DataFrame.mean())
  • std: Stan­dard­af­vi­gel­se for værdierne
  • min, 25%, 50%, 75%, max: Minimum, 25. percentil, median (50. percentil), 75. percentil og mak­si­mums­vær­di­er

Eksempel 2: Til­pas­ning af per­cen­ti­ler

Du kan tilpasse per­cen­ti­ler­ne i DataFrame.describe() 35-outputtet med pa­ra­me­te­ren percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Dette funk­tions­kald giver følgende output:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I outputtet er 10%, 50 % og 90 % in­klu­de­ret i stedet for stan­dard­per­cen­ti­ler­ne i det fo­re­gå­en­de eksempel.

Gå til ho­ved­me­nu­en