Hvad er pandas DataFrame describe()-metoden?

Indhold

Python pandas-funktionen DataFrame.describe() bruges til at generere en statistisk oversigt over de numeriske kolonner i en DataFrame. Denne oversigt indeholder vigtige statistiske målinger som gennemsnit, standardafvigelse, minimum, maksimum og forskellige percentiler.

Hvad er syntaksen for pandas’ `describe()` -funktion?

Den grundlæggende syntaks for describe() for DataFrames er enkel. Den ser således ud:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Vigtige parametre for pandas’ `DataFrame.describe()`

Ved hjælp af følgende parametre kan du justere outputtet på describe():

Parameter	Beskrivelse	Standardværdi
`percentiles`	Viser de percentiler, der skal medtages i oversigten.	`[.25, .5, .75]`
`include`	Angiver, hvilke datatyper der skal medtages i beskrivelsen; mulige værdier er `numpy.number`, `numpy.object`, `all` eller `None`	`None`
`exclude`	Angiver, hvilke datatyper der skal udelades fra beskrivelsen; fungerer som parameteren `include`.	`None`

Eksempler på brug af pandas `describe()`

Hvis du har brug for et hurtigt overblik over de vigtigste statistiske målinger i et datasæt, er pandas DataFrame.describe() -funktionen yderst nyttig.

Eksempel 1: Statistisk oversigt over numeriske data

I det følgende eksempel ser vi på DataFrame df, som indeholder forskellige typer salgsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nu kan du bruge pandas describe() til at få et statistisk resumé af de numeriske data i kolonnerne:

summary = df.describe()
print(summary)

python

Outputtet fra pandas DataFrame.describe() -funktionen er som følger:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De vigtigste målinger, der vises i outputtet, er:

count: Antal ikke-NaN-poster (Not a Number)
mean: Gennemsnit af værdierne (kan også tilgås via DataFrame.mean())
std: Standardafvigelse for værdierne
min, 25%, 50%, 75%, max: Minimum, 25. percentil, median (50. percentil), 75. percentil og maksimumsværdier

Eksempel 2: Tilpasning af percentiler

Du kan tilpasse percentilerne i DataFrame.describe() 35-outputtet med parameteren percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Dette funktionskald giver følgende output:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I outputtet er 10%, 50 % og 90 % inkluderet i stedet for standardpercentilerne i det foregående eksempel.

Populære artikler

Domænehandel: Sådan sælger du et domænenavn

Køb og salg af domæner kan være en god forretning – hvis man ved, hvordan man gør. Vi vil…

Læs mere

Relaterede artikler

OhSuratShutterstock

Sådan indlæses filer i Python med pandas read_csv()

Python pandas read_csv() er en kraftfuld funktion til hurtigt og effektivt at få adgang til indholdet af CSV-filer i Python. Funktionen er fleksibel og tilbyder adskillige parametre, så du kan tilpasse indlæsningsprocessen til dine behov. Det er vigtigt at forstå pandas…

Læs mere

Mr. Kosalshutterstock

Sådan indekseres pandas DataFrames

Pandas DataFrame-indeksering er et kraftfuldt værktøj til effektiv datahåndtering. Med forskellige metoder kan du målrette mod specifikke data og delmængder af din DataFrame. I denne artikel vil vi undersøge, hvad pandas DataFrame-indekset er, hvordan man får adgang til kolonne-…

Læs mere

BEST-BACKGROUNDSShutterstock

Sådan renser du data i pandas med dropna()

Pandas-funktionen DataFrame.dropna() er et effektivt værktøj til rensning af datasæt. Funktionen fjerner effektivt manglende værdier og kan bruges med forskellige parametre, så programmører kan angive forskellige krav til datarensning. Læs mere om syntaksen, parametrene og de…

Læs mere

ESB Professionalshutterstock

Sådan bruges Pandas DataFrame til hurtigt at manipulere tabeller i Python

Pandas-modulet er et af de mest kraftfulde værktøjer til databehandling i Python. En af de centrale datastrukturer i Pandas er DataFrame. DataFrames kan bruges til at behandle todimensionelle, strukturerede data effektivt. Vi forklarer datastrukturens opbygning samt dens…

Læs mere

BEST-BACKGROUNDSShutterstock

Sådan gennemløber du DataFrames med pandas iterrows()

Pandas DataFrame.iterrows() er en nyttig funktion til at gennemløbe rækker i en DataFrame, især når du skal behandle data række for række. Dette er især nyttigt til beregninger eller betinget logik. I denne artikel gennemgår vi syntaksen for panda iterrows() og viser dig, hvordan…

Læs mere

UndreyShutterstock

Hvad er Python pandas-egenskaben iloc[]?

Når man arbejder med DataFrames i Python pandas, er det ikke alle rækker eller kolonner i en DataFrame, der altid er relevante for dataanalysen. Pandas DataFrame-egenskaben iloc[] er et nyttigt værktøj til at vælge rækker eller kolonner ved hjælp af deres indekser. I denne…

Læs mere

Hvad er pandas DataFrame describe()-metoden?

Hvad er syntaksen for pandas’ describe() -funktion?

Vigtige parametre for pandas’ DataFrame.describe()

Eksempler på brug af pandas describe()

Eksempel 1: Sta­ti­stisk oversigt over numeriske data

Eksempel 2: Til­pas­ning af per­cen­ti­ler

Hvad er syntaksen for pandas’ `describe()` -funktion?

Vigtige parametre for pandas’ `DataFrame.describe()`

Eksempler på brug af pandas `describe()`

Eksempel 1: Statistisk oversigt over numeriske data

Eksempel 2: Tilpasning af percentiler