Hva er pandas DataFrame describe()-metoden?

Contents

Python pandas-funksjonen DataFrame.describe() brukes til å generere en statistisk oppsummering av de numeriske kolonnene i en DataFrame. Denne oppsummeringen inkluderer viktige statistiske målinger som gjennomsnitt, standardavvik, minimum, maksimum og forskjellige persentiler.

Hva er syntaksen for pandas’ `describe()` -funksjon?

Den grunnleggende syntaksen til describe() for DataFrames er enkel. Den ser slik ut:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Viktige parametere for pandas’ `DataFrame.describe()`

Ved hjelp av følgende parametere kan du justere utgangen på describe():

Parameter	Beskrivelse	Standardverdi
`percentiles`	Viser prosentilene som skal inkluderes i sammendraget	`[.25, .5, .75]`
`include`	Angir hvilke datatyper som skal inkluderes i beskrivelsen; mulige verdier er `numpy.number`, `numpy.object`, `all` eller `None`	`None`
`exclude`	Angir hvilke datatyper som skal ekskluderes fra beskrivelsen; fungerer som parameteren `include`.	`None`

Eksempler på hvordan du bruker pandas `describe()`

Hvis du trenger en rask oversikt over de viktigste statistiske målingene i et datasett, er pandas DataFrame.describe() -funksjonen svært nyttig.

Eksempel 1: Statistisk oppsummering av numeriske data

I det følgende eksemplet ser vi på DataFrame df, som inneholder forskjellige typer salgsdata.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nå kan du bruke pandas describe() til å få en statistisk oversikt over de numeriske dataene i kolonnene:

summary = df.describe()
print(summary)

python

Utgangen fra pandas DataFrame.describe() -funksjonen er som følger:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De viktigste måleparametrene som vises i utdataene er:

count: Antall ikke-NaN-oppføringer (Not a Number)
mean: Gjennomsnitt av verdiene (også tilgjengelig via DataFrame.mean())
std: Standardavvik for verdiene
min, 25%, 50%, 75%, max: Minimum, 25. persentil, median (50. persentil), 75. persentil og maksimumsverdier

Eksempel 2: Tilpasse prosentiler

Du kan tilpasse prosentilene i pandas DataFrame.describe() -utdataene med parameteren percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Denne funksjonskallen gir følgende utdata:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

I utdataene er 10%, 50 % og 90 % inkludert i stedet for standardprosentene i forrige eksempel.

Hvordan laste inn filer i Python med pandas read_csv()

Python pandas read_csv() er en kraftig funksjon for rask og effektiv tilgang til innholdet i CSV-filer i Python. Funksjonen er fleksibel og tilbyr en rekke parametere, slik at du kan tilpasse lastingsprosessen etter dine behov. Det er viktig å forstå pandas read_csv() for å kunne…

Mr. Kosalshutterstock

Hvordan indeksere pandas DataFrames

Pandas DataFrame-indeksering er et kraftig verktøy for effektiv og produktiv datahåndtering. Med ulike metoder kan du målrette mot spesifikke data og delmengder av DataFrame. I denne artikkelen skal vi se nærmere på hva pandas DataFrame-indeksen er, hvordan du får tilgang til…

BEST-BACKGROUNDSShutterstock

Hvordan rense data i pandas med dropna()

Funksjonen DataFrame.dropna() i pandas er et kraftig verktøy for rensing av datasett. Funksjonen fjerner effektivt manglende verdier og kan brukes med ulike parametere, slik at programmerere kan spesifisere ulike krav til datarensing. Her kan du lære om syntaksen, parametrene og…

ESB Professionalshutterstock

Hvordan bruke Pandas DataFrame til å manipulere tabeller raskt i Python

Pandas-modulen er et av de kraftigste verktøyene for datamanipulering i Python. En av de sentrale datastrukturene i Pandas er DataFrame. DataFrames kan brukes til å manipulere todimensjonale, strukturerte data på en effektiv måte. Vi forklarer strukturen i datastrukturen samt…

BEST-BACKGROUNDSShutterstock

Hvordan løpe gjennom DataFrames med pandas iterrows()

Pandas DataFrame.iterrows() er en nyttig funksjon for å løpe gjennom rader i en DataFrame, spesielt når du trenger å behandle data rad for rad. Dette er spesielt nyttig for beregninger eller betinget logikk. I denne artikkelen vil vi gå gjennom syntaksen til panda iterrows() og…

UndreyShutterstock

Hva er Python pandas-egenskapen iloc[]?

Når du arbeider med DataFrames i Python pandas, er ikke alle rader eller kolonner i en DataFrame alltid relevante for dataanalyse. Pandas DataFrame-egenskapen iloc[] er et nyttig verktøy for å velge rader eller kolonner ved hjelp av indeksene deres. I denne artikkelen skal vi se…

Hva er pandas DataFrame describe()-metoden?

Hva er syntaksen for pandas’ describe() -funksjon?

Viktige parametere for pandas’ DataFrame.describe()

Eksempler på hvordan du bruker pandas describe()

Eksempel 1: Statistisk oppsummering av numeriske data

Eksempel 2: Tilpasse prosentiler

Hva er syntaksen for pandas’ `describe()` -funksjon?

Viktige parametere for pandas’ `DataFrame.describe()`

Eksempler på hvordan du bruker pandas `describe()`