Kaj je pandas groupby() in kako ga uporabljati

Contents

S funkcijo Python pandas DataFrame.groupby() lahko podatke razvrstite po določenih merilih in izvedete različne agregacije in preoblikovanja podatkov.

Kakšna je sintaksa za pandas `DataFrame.groupby()`?

Pandas groupby() sprejema do štiri parametre. Osnovna sintaksa je naslednja:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Pomembni parametri za `groupby`

Parameter	Opis	Privzeta vrednost
`by`	Ključ ali Pythonov seznam ključev za združevanje v skupine; ne sme se kombinirati s `level`	`None`
`level`	Uporablja se za MultiIndex za določitev ene ali več ravni za združevanje.	`None`
`as_index`	Če je `True`, so ključi skupine nastavljeni kot indeks končnega DataFrame-a.	`True`
`group_keys`	Če je `True`, so ključi skupin vključeni v indeks skupin.	`True`
`dropna`	Določa, ali naj se izključijo skupine z vrednostmi NaN.	`True`

Kako uporabljati pandas `DataFrame.groupby()`

Funkcija pandas groupby() je še posebej uporabna za analizo in povzemanje velikih podatkovnih nizov, saj pomaga pri prepoznavanju vzorcev ali anomalij.

Razvrščanje in združevanje

Spodaj je primer podatkovnega niza o prodaji, ki vsebuje informacije o datumu prodaje, prodanem izdelku in prodani količini:

import pandas as pd
# Sample sales dataset
data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

Rezultatni DataFrame izgleda takole:

Date Product  Quantity
0  2021-01-01       A       10
1  2021-01-01       B       20
2  2021-01-02       A       15
3  2021-01-02       B       25
4  2021-01-03       A       10

Nato bomo podatkovni niz razvrstili po izdelkih z uporabo pandas groupby(). Nato bomo izračunali skupno prodano količino za vsak izdelek z uporabo funkcije sum():

# Group by product and calculate the sum of the quantity sold
summe = df.groupby('Product')['Quantity'].sum()
print(total)

Rezultat prikazuje skupno število prodanih enot za vsak izdelek:

Product
A    35
B    45
Name: Quantity, dtype: int64

Večkratne agregacije

V naslednjem primeru bomo uporabili razširjen niz podatkov, ki vključuje tudi prihodke:

data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10],
    'Revenue': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

DataFrame izgleda takole:

Date Product  Quantity  Revenue
0  2021-01-01       A       10      100
1  2021-01-01       B       20      200
2  2021-01-02       A       15      150
3  2021-01-02       B       25      250
4  2021-01-03       A       10      100

Z uporabo pandas DataFrame.groupby() bomo podatke razvrstili po izdelkih in nato s funkcijo agg() izračunali skupno količino in prihodek ter povprečni prihodek na izdelek.

# Group by product and apply multiple aggregations
groups = df.groupby('Product').agg({
    'Quantity': 'sum',
    'Revenue': ['sum', 'mean']
})
print(groups)

Tukaj je rezultat:

Quantity Revenue        
          sum    sum    mean
Product                  
A          35    350  116.666667
B          45    450  225.000000

Kako filtrirati različne vrednosti s pandas DataFrame[].unique()

S pandas DataFrame[].unique() lahko identificirate različne vrednosti v stolpcu DataFrame. Vrne numpy niz, ki vam pomaga učinkoviteje obdelovati velike podatkovne nize. Metoda je še posebej koristna, če želite imeti pregled nad informacijami v stolpcu brez podvojenih vrednosti.…

Gorodenkoffshutterstock

Kako uporabiti pogoje v pandas DataFrames s where()

S funkcijo pandas DataFrame.where() lahko spreminjate podatke v DataFrame z uporabo pogojev. Z ustvarjanjem pogojev, ki določajo, katere vrednosti ohraniti in katere nadomestiti, lahko učinkovito očistite, izvlečete ali preoblikujete podatke v DataFrame. V tem članku si bomo…

GaudiLabShutterstock

Kako izbrati podatke iz pandas DataFrames z loc[]

Funkcija DataFrame pandas loc[] ponuja preprost način za izpisovanje podatkov z uporabo oznak. To je še posebej koristno pri delu s podatki, kjer položaji vrstic in stolpcev niso vedno predvidljivi. V tem članku bomo pregledali sintakso za pandas loc[], kako jo uporabljati in v…

Ranjit Karmakarshutterstock

Kaj je metoda describe() v pandas DataFrame?

Metoda pandas DataFrame.describe() ponuja hiter način za ustvarjanje celovitega statističnega povzetka numeričnih podatkov v DataFrame. Z možnostjo prilagajanja percentilov in določanja tipov podatkov je zelo prilagodljiva in primerna za širok spekter analiz. V tem članku bomo…

OhSuratShutterstock

Kako naložiti datoteke v Python z pandas read_csv()

Python pandas read_csv() je zmogljiva funkcija za hiter in učinkovit dostop do vsebine CSV datotek v Pythonu. Funkcija je prilagodljiva in ponuja številne parametre, tako da lahko prilagodite proces nalaganja svojim potrebam. Razumevanje pandas read_csv() je bistveno za delo s…

Kaj je pandas groupby() in kako ga upo­ra­blja­ti

Kakšna je sintaksa za pandas DataFrame.groupby()?

Pomembni parametri za groupby

Kako upo­ra­blja­ti pandas DataFrame.groupby()

Raz­vr­šča­nje in zdru­že­va­nje

Večkratne agre­ga­ci­je

Kaj je pandas groupby() in kako ga uporabljati

Kakšna je sintaksa za pandas `DataFrame.groupby()`?

Pomembni parametri za `groupby`

Kako uporabljati pandas `DataFrame.groupby()`

Razvrščanje in združevanje

Večkratne agregacije