Hvad er pandas groupby(), og hvordan bruges det?

Indhold

Med Python pandas DataFrame.groupby() -funktionen kan du gruppere data baseret på specifikke kriterier og udføre forskellige aggregeringer og transformationer af dataene.

Hvad er syntaksen for pandas `DataFrame.groupby()`?

Pandas groupby() accepterer op til fire parametre. Den grundlæggende syntaks er som følger:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Vigtige parametre for `groupby`

Parameter	Beskrivelse	Standardværdi
`by`	Nøgle eller Python-liste over nøgler, der skal grupperes efter; må ikke kombineres med `level`	`None`
`level`	Bruges til MultiIndex til at angive et eller flere niveauer for gruppering.	`None`
`as_index`	Hvis `True`, indstilles gruppekoderne som indeks for den resulterende DataFrame.	`True`
`group_keys`	Hvis `True`, inkluderes gruppekoderne i indeks for grupperne.	`True`
`dropna`	Angiver, om grupper med NaN-værdier skal udelades.	`True`

Sådan bruges pandas `DataFrame.groupby()`

Funktionen pandas groupby() er særligt nyttig til analyse og sammenfatning af store datasæt, da den hjælper med at identificere mønstre eller afvigelser.

Gruppering og aggregering

Nedenfor ses et eksempel på et salgsdatasæt, der indeholder oplysninger om salgsdato, solgt produkt og solgt mængde:

import pandas as pd
# Sample sales dataset
data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

Den resulterende DataFrame ser således ud:

Date Product  Quantity
0  2021-01-01       A       10
1  2021-01-01       B       20
2  2021-01-02       A       15
3  2021-01-02       B       25
4  2021-01-03       A       10

Dernæst grupperer vi datasættet efter produkt ved hjælp af pandas groupby(). Derefter beregner vi det samlede solgte antal for hvert produkt ved hjælp af funktionen sum():

# Group by product and calculate the sum of the quantity sold
summe = df.groupby('Product')['Quantity'].sum()
print(total)

Resultatet viser det samlede antal solgte enheder for hvert produkt:

Product
A    35
B    45
Name: Quantity, dtype: int64

Flere aggregeringer

I det følgende eksempel bruger vi et udvidet datasæt, der også indeholder indtægter:

data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10],
    'Revenue': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

DataFrame ser således ud:

Date Product  Quantity  Revenue
0  2021-01-01       A       10      100
1  2021-01-01       B       20      200
2  2021-01-02       A       15      150
3  2021-01-02       B       25      250
4  2021-01-03       A       10      100

Ved hjælp af pandas DataFrame.groupby() grupperer vi dataene efter produkt og bruger derefter funktionen agg() til at beregne den samlede mængde og omsætning samt den gennemsnitlige omsætning pr. produkt.

# Group by product and apply multiple aggregations
groups = df.groupby('Product').agg({
    'Quantity': 'sum',
    'Revenue': ['sum', 'mean']
})
print(groups)

Her er resultatet:

Quantity Revenue        
          sum    sum    mean
Product                  
A          35    350  116.666667
B          45    450  225.000000

Populære artikler

Domænehandel: Sådan sælger du et domænenavn

Køb og salg af domæner kan være en god forretning – hvis man ved, hvordan man gør. Vi vil…

Læs mere

Relaterede artikler

UndreyShutterstock

Sådan filtreres der efter unikke værdier med pandas DataFrame[].unique()

Med pandas DataFrame[].unique() kan du identificere unikke værdier i en kolonne i en DataFrame. Den returnerer en numpy-matrix, som hjælper dig med at håndtere store datasæt mere effektivt. Metoden er især nyttig, hvis du ønsker at få et overblik over oplysningerne i en kolonne…

Læs mere

Gorodenkoffshutterstock

Sådan anvendes betingelser i pandas DataFrames med where()

Med pandas DataFrame.where() kan du ændre data i din DataFrame ved hjælp af betingelser. Ved at oprette betingelser for at bestemme, hvilke værdier der skal bevares, og hvilke der skal erstattes, kan du effektivt rense, udtrække eller transformere data i en DataFrame. I denne…

Læs mere

GaudiLabShutterstock

Sådan vælges data fra pandas DataFrames med loc[]

Pandas DataFrame-funktionen loc[] giver dig en nem måde at udtrække data ved hjælp af labels. Det er især nyttigt, når du arbejder med data, hvor placeringen af rækker og kolonner ikke altid er forudsigelig. I denne artikel gennemgår vi syntaksen for pandas loc[], hvordan du…

Læs mere

Ranjit Karmakarshutterstock

Hvad er pandas DataFrame describe()-metoden?

Pandas DataFrame.describe()-metoden tilbyder en hurtig måde at generere en omfattende statistisk oversigt over numeriske data i en DataFrame. Med muligheden for at justere percentiler og specificere datatyper er den meget fleksibel og velegnet til en bred vifte af analyser. I…

Læs mere

OhSuratShutterstock

Sådan indlæses filer i Python med pandas read_csv()

Python pandas read_csv() er en kraftfuld funktion til hurtigt og effektivt at få adgang til indholdet af CSV-filer i Python. Funktionen er fleksibel og tilbyder adskillige parametre, så du kan tilpasse indlæsningsprocessen til dine behov. Det er vigtigt at forstå pandas…

Læs mere

Hvad er pandas groupby(), og hvordan bruges det?

Hvad er syntaksen for pandas DataFrame.groupby()?

Vigtige parametre for groupby

Sådan bruges pandas DataFrame.groupby()

Grup­pe­ring og ag­gre­ge­ring

Flere ag­gre­ge­rin­ger

Hvad er syntaksen for pandas `DataFrame.groupby()`?

Vigtige parametre for `groupby`

Sådan bruges pandas `DataFrame.groupby()`

Gruppering og aggregering

Flere aggregeringer