Hoe pandas DataFrames te indexeren

Inhoudsopgave

De indexering van Python pandas DataFrames maakt efficiënte en directe toegang tot gegevens mogelijk. Het maakt het gemakkelijker om specifieke rijen en kolommen te selecteren, wat gegevensanalysetaken vereenvoudigt.

Wat is indexering in pandas?

Indexering in pandas verwijst naar verschillende methoden die u kunt gebruiken om rijen of kolommen te selecteren. Met behulp van labels van rijen en kolommen of hun numerieke positie binnen het DataFrame kunt u eenvoudig elementen in een DataFrame selecteren. Een index fungeert als een soort adrestsysteem voor uw gegevens, waardoor u uw gegevens efficiënter kunt lokaliseren en beheren.

Wat is pandas `DataFrame.index`?

Je kunt de indexlabels van een DataFrame in pandas bekijken met behulp van het index. De syntaxis ziet er als volgt uit:

DataFrame.index

python

Wat is de syntaxis voor het indexeren van DataFrames in pandas?

Er zijn verschillende manieren om pandas DataFrames te indexeren, en de syntaxis varieert afhankelijk van de bewerking die u wilt uitvoeren.

Indexeren met labels (kolomlabels)

Je kunt kolomnamen gebruiken om pandas DataFrames te indexeren. Hier is een voorbeeld van hoe je een voorbeeld DataFrame kunt maken:

import pandas as pd
# Creating a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['Nottingham', 'London', 'Cardiff']
}
df = pd.DataFrame(data)
print(df)

python

Zo ziet het DataFrame eruit:

Name  Age       City
0    Alice   25     Nottingham
1    Bob   30  	London
2  Charlie   35    Cardiff

Om toegang te krijgen tot alle waarden in een kolom, kunt u de kolomnaam samen met de indexeringsoperator [] gebruiken. Voer gewoon de kolomnaam als een Python-string in binnen de indexeringsoperator:

# Access the Age column
print(df['Age'])

python

De uitvoer is een lijst met leeftijden:

0    25
1    30
2    35
Name: Age, dtype: int64

Om de gegevens van meer dan één kolom op te halen, schrijft u de kolomnamen in de indexeringsoperator en plaatst u komma’s tussen de kolomnamen om ze te scheiden.

Indexering met `loc[]` (rijlabels)

Als u toegang wilt tot een specifieke rij in uw DataFrame, kunt u de pandas loc-indexer gebruiken. U kunt het rijlabel of rijnummer doorgeven aan de indexer. In dit voorbeeld gebruiken we dezelfde DataFrame als hierboven en halen we de waarden uit de eerste rij (rij 0):

print(df.loc[0])

python

De bovenstaande code geeft de waarden voor Alice weer, die in de eerste rij van het DataFrame staan:

Name        Alice
Age            25
City      Nottingham
Name: 0, dtype: object

Indexering met `iloc[]` (rij- en kolomnummers)

Een andere manier om toegang te krijgen tot specifieke elementen in uw DataFrame is via rij- en kolomnummers. Dit is waarschijnlijk de meest populaire manier om elementen in een DataFrame te lokaliseren. Om de numerieke index te gebruiken, hebt u het DataFrame-attribuut iloc nodig.

# Access the first row
print(df.iloc[0])
# Access the value in the first row and second column
print(df.iloc[0, 1])

python

Dit is het resultaat bij het werken met iloc[]:

Name        Alice
Age            25
City      Nottingham
Name: 0, dtype: object
25

Toegang tot individuele waarden

Als u slechts één waarde wilt opvragen, is de at een snelle, eenvoudige manier om dat te doen. Met deze indexer kunt u rijen en kolommen definiëren aan de hand van hun labels. Als u bijvoorbeeld wilt weten waar Bob woont, typt u ‘1’ voor de rij en ‘City’ voor de kolom:

print(df.at[1, 'City'])

python

Hier krijgen we de uitvoer Londen.

Als alternatief kunt u de 20-indexer gebruiken, die op dezelfde manier werkt als at, maar de op gehele getallen gebaseerde kolompositie gebruikt in plaats van de naam. De onderstaande code levert hetzelfde resultaat op als het vorige voorbeeld:

print(df.iat[1, 2])

python

Booleaanse indexering

U kunt ook subsets van een DataFrame maken op basis van een voorwaarde. Dit staat bekend als Booleaanse indexering. De voorwaarde moet uitkomen op True of False en wordt rechtstreeks in de indexeringsoperator geplaatst. Als u bijvoorbeeld rijen wilt selecteren die personen bevatten die ouder zijn dan 30 jaar, kunt u de volgende code gebruiken:

# Select rows where Age is greater than 30
print(df[df['Age'] > 30])

python

De enige persoon die ouder is dan 30 is Charlie, wat resulteert in de volgende uitvoer:

Name  Age     City
2  Charlie   35    Cardiff

Populaire artikelen

Domeinhandel: hoe verkoop je een domeinnaam?

Het kopen en verkopen van domeinen kan lucratief zijn – als je weet hoe je het moet…

Lees meer

Gerelateerde artikelen

BEST-BACKGROUNDSShutterstock

Hoe DataFrames doorlopen met pandas iterrows()

Pandas DataFrame.iterrows() is een handige functie om door rijen in een DataFrame te lopen, vooral wanneer u gegevens rij voor rij moet verwerken. Dit is vooral handig voor berekeningen of voorwaardelijke logica. In dit artikel bespreken we de syntaxis van panda iterrows() en…

Lees meer

Mr. Kosalshutterstock

Wat is Python pandas any() en hoe werkt het?

In pandas is de DataFrame any()-methode een efficiënt hulpmiddel om snel te controleren of er ten minste één ware waarde langs een as van een DataFrame aanwezig is. Deze methode is vooral nuttig voor gegevensanalyse en validatie. In dit artikel laten we u zien wat de syntaxis…

Lees meer

ESB Professionalshutterstock

Hoe je Pandas DataFrame kunt gebruiken om tabellen snel te bewerken in Python

De Pandas-module is een van de krachtigste tools voor gegevensmanipulatie in Python. Een van de centrale gegevensstructuren in Pandas is het DataFrame. DataFrames kunnen worden gebruikt om tweedimensionale, gestructureerde gegevens efficiënt te manipuleren. We leggen de structuur…

Lees meer

UndreyShutterstock

Wat is de Python pandas-eigenschap iloc[]?

Bij het werken met DataFrames in Python pandas zijn niet alle rijen of kolommen van een DataFrame altijd relevant voor data-analyse. De pandas DataFrame-eigenschap iloc[] is een handig hulpmiddel voor het selecteren van rijen of kolommen op basis van hun indexen. In dit artikel…

Lees meer

REDPIXEL.PLShutterstock

Hoe gemiddelden berekenen met pandas mean()

De functie `DataFrame.mean()` van pandas berekent gemiddelden in een DataFrame. Deze functie kan worden gebruikt om gemiddelde waarden voor rijen of kolommen te vinden en biedt flexibiliteit bij het omgaan met NaN-waarden. In dit artikel bekijken we de syntaxis van de functie, de…

Lees meer

Hoe pandas Da­taF­ra­mes te indexeren

Wat is in­dexe­ring in pandas?

Wat is pandas DataFrame.index?

Wat is de syntaxis voor het indexeren van Da­taF­ra­mes in pandas?

Indexeren met labels (ko­lom­la­bels)

In­dexe­ring met loc[] (rijlabels)

In­dexe­ring met iloc[] (rij- en ko­lom­num­mers)

Toegang tot in­di­vi­du­e­le waarden

Boole­aan­se in­dexe­ring

Hoe pandas DataFrames te indexeren

Wat is indexering in pandas?

Wat is pandas `DataFrame.index`?

Wat is de syntaxis voor het indexeren van DataFrames in pandas?

Indexeren met labels (kolomlabels)

Indexering met `loc[]` (rijlabels)

Indexering met `iloc[]` (rij- en kolomnummers)

Toegang tot individuele waarden

Booleaanse indexering