Python pandas-funksjonen DataFrame.describe() brukes til å generere en statistisk oppsummering av de numeriske kolonnene i en DataFrame. Denne oppsummeringen inkluderer viktige statistiske målinger som gjennomsnitt, standardavvik, minimum, maksimum og forskjellige persentiler.

Hva er syntaksen for pandas’ describe() -funksjon?

Den grunnleggende syntaksen til describe() for DataFrames er enkel. Den ser slik ut:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Viktige parametere for pandas’ DataFrame.describe()

Ved hjelp av følgende parametere kan du justere utgangen på describe():

Parameter Beskrivelse Standardverdi
percentiles Viser prosentilene som skal inkluderes i sammendraget [.25, .5, .75]
include Angir hvilke datatyper som skal inkluderes i beskrivelsen; mulige verdier er numpy.number, numpy.object, all eller None None
exclude Angir hvilke datatyper som skal ekskluderes fra beskrivelsen; fungerer som parameteren include. None

Eksempler på hvordan du bruker pandas describe()

Hvis du trenger en rask oversikt over de viktigste statistiske målingene i et datasett, er pandas DataFrame.describe() -funksjonen svært nyttig.

Eksempel 1: Statistisk oppsummering av numeriske data

I det følgende eksemplet ser vi på DataFrame df, som inneholder forskjellige typer salgsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nå kan du bruke pandas describe() til å få en statistisk oversikt over de numeriske dataene i kolonnene:

summary = df.describe()
print(summary)
python

Utgangen fra pandas DataFrame.describe() -funksjonen er som følger:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De viktigste måleparametrene som vises i utdataene er:

  • count: Antall ikke-NaN-oppføringer (Not a Number)
  • mean: Gjennomsnitt av verdiene (også tilgjengelig via DataFrame.mean())
  • std: Standardavvik for verdiene
  • min, 25%, 50%, 75%, max: Minimum, 25. persentil, median (50. persentil), 75. persentil og maksimumsverdier

Eksempel 2: Tilpasse prosentiler

Du kan tilpasse prosentilene i pandas DataFrame.describe() -utdataene med parameteren percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Denne funksjonskallen gir følgende utdata:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I utdataene er 10%, 50 % og 90 % inkludert i stedet for standardprosentene i forrige eksempel.

Go to Main Menu