Kas ir pandas groupby() un kā to lietot

Contents

Izmantojot Python pandas DataFrame.groupby() funkciju, varat grupēt datus pēc konkrētiem kritērijiem un veikt dažādas datu apkopojumus un pārveidojumus.

Kāda ir pandas `DataFrame.groupby()` sintakse?

Pandas groupby() pieņem līdz četriem parametriem. Pamata sintakse ir šāda:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Svarīgi parametri `groupby`

Parametrs	Apraksts	Noklusējuma vērtība
`by`	Atslēga vai Python atslēgu saraksts, pēc kura grupēt; nedrīkst kombinēt ar `level`	`None`
`level`	Izmanto MultiIndex, lai norādītu vienu vai vairākus grupēšanas līmeņus.	`None`
`as_index`	Ja `True`, grupas atslēgas tiek iestatītas kā rezultātā iegūtā DataFrame indekss	`True`
`group_keys`	Ja `True`, grupu atslēgas tiek iekļautas grupu indeksā.	`True`
`dropna`	Norāda, vai izslēgt grupas ar NaN vērtībām	`True`

Kā lietot pandas `DataFrame.groupby()`

Funkcija pandas groupby() ir īpaši noderīga lielu datu kopu analīzei un apkopošanai, palīdzot identificēt modeļus vai anomālijas.

Grupēšana un apkopojums

Zemāk ir piemērs pārdošanas datu kopai, kas satur informāciju par pārdošanas datumu, pārdotajiem produktiem un pārdotajiem daudzumiem:

import pandas as pd
# Sample sales dataset
data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

Rezultātā iegūtais DataFrame izskatās šādi:

Date Product  Quantity
0  2021-01-01       A       10
1  2021-01-01       B       20
2  2021-01-02       A       15
3  2021-01-02       B       25
4  2021-01-03       A       10

Tālāk mēs grupēsim datu kopu pēc produkta, izmantojot pandas groupby(). Tad aprēķināsim katra produkta kopējo pārdotā daudzumu, izmantojot funkciju sum():

# Group by product and calculate the sum of the quantity sold
summe = df.groupby('Product')['Quantity'].sum()
print(total)

Rezultāts parāda kopējo pārdotā skaitu katram produktam:

Product
A    35
B    45
Name: Quantity, dtype: int64

Vairāki apkopojumi

Šajā piemērā izmantosim paplašinātu datu kopu, kas ietver arī ieņēmumus:

data = {
    'Date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Product': ['A', 'B', 'A', 'B', 'A'],
    'Quantity': [10, 20, 15, 25, 10],
    'Revenue': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

DataFrame izskatās šādi:

Date Product  Quantity  Revenue
0  2021-01-01       A       10      100
1  2021-01-01       B       20      200
2  2021-01-02       A       15      150
3  2021-01-02       B       25      250
4  2021-01-03       A       10      100

Izmantojot pandas DataFrame.groupby(), mēs grupēsim datus pēc produkta un pēc tam izmantosim agg() funkciju, lai aprēķinātu kopējo daudzumu un ieņēmumus, kā arī vidējos ieņēmumus par produktu.

# Group by product and apply multiple aggregations
groups = df.groupby('Product').agg({
    'Quantity': 'sum',
    'Revenue': ['sum', 'mean']
})
print(groups)

Šeit ir rezultāts:

Quantity Revenue        
          sum    sum    mean
Product                  
A          35    350  116.666667
B          45    450  225.000000

Kā filtrēt atšķirīgas vērtības ar pandas DataFrame[].unique()

Izmantojot pandas DataFrame[].unique(), varat identificēt atšķirīgas vērtības DataFrame kolonnā. Tā atgriež numpy masīvu, palīdzot efektīvāk apstrādāt lielus datu kopumus. Šī metode ir īpaši noderīga, ja vēlaties iegūt pārskatu par informāciju kolonnā bez dublētiem vērtībām.…

Gorodenkoffshutterstock

Kā piemērot nosacījumus pandas DataFrames ar where()

Izmantojot pandas DataFrame.where(), varat modificēt datus savā DataFrame, izmantojot nosacījumus. Izveidojot nosacījumus, lai noteiktu, kuras vērtības saglabāt un kuras aizstāt, varat efektīvi attīrīt, izgūt vai pārveidot datus DataFrame. Šajā rakstā apskatīsim pandas where()…

GaudiLabShutterstock

Kā atlasīt datus no pandas DataFrames ar loc[]

Pandas DataFrame funkcija loc[] piedāvā vienkāršu veidu, kā izgūt datus, izmantojot marķierus. Tas ir īpaši noderīgi, strādājot ar datiem, kur rindu un kolonnu pozīcijas ne vienmēr ir paredzamas. Šajā rakstā mēs apskatīsim pandas loc[] sintaksi, kā to lietot un kā tā atšķiras no…

Ranjit Karmakarshutterstock

Kas ir pandas DataFrame describe() metode?

Pandas DataFrame.describe() metode piedāvā ātru veidu, kā izveidot visaptverošu statistisko kopsavilkumu par skaitliskajiem datiem DataFrame. Ar iespēju pielāgot procentiles un norādīt datu tipus, tā ir ļoti elastīga un piemērota plašam analīzes spektram. Šajā rakstā mēs…

OhSuratShutterstock

Kā ielādēt failus Python ar pandas read_csv()

Python pandas read_csv() ir jaudīga funkcija, kas ļauj ātri un efektīvi piekļūt CSV failu saturam Python. Funkcija ir elastīga un piedāvā daudzveidīgus parametrus, tādējādi jūs varat pielāgot ielādes procesu savām vajadzībām. Pandas read_csv() izpratne ir būtiska, lai strādātu ar…

Kas ir pandas groupby() un kā to lietot

Kāda ir pandas DataFrame.groupby() sintakse?

Svarīgi parametri groupby

Kā lietot pandas DataFrame.groupby()

Grupēšana un ap­ko­po­jums

Vairāki ap­ko­po­ju­mi

Kāda ir pandas `DataFrame.groupby()` sintakse?

Svarīgi parametri `groupby`

Kā lietot pandas `DataFrame.groupby()`

Grupēšana un apkopojums

Vairāki apkopojumi