Kuinka tunnistaa puuttuvat arvot pandas-kirjaston isna()-funktiolla
Python pandas -funktio DataFrame.isna() auttaa käyttäjiä tunnistamaan puuttuvat tiedot (NaN tai None) DataFrame-kehyksessä. Tämä voi olla erityisen hyödyllistä, kun halutaan selvittää, onko tiedot puhdistettava ennen analyysin aloittamista.
Mikä on pandas isna():n syntaksi?
Koska pandas isna() ei ota vastaan parametreja, sen syntaksi on melko suoraviivainen:
DataFrame.isna()pythonKuinka käyttää pandas isna() -funktiota
Kun isna() sovelletaan DataFrame-kehykseen, se luo uuden DataFrame-kehyksen, jossa on boolenisia arvoja. Jos alkuperäisessä DataFrame-kehyksessä on puuttuva arvo (esim. merkitty NaN tai None), isna() näyttää True arvon sijainnin. Muussa tapauksessa funktio näyttää False.
Jos haluat NaN tai None arvon tunnistamisen lisäksi myös poistaa ne, tutustu pandas-funktioon dropna(). Jos et halua poistaa näitä arvoja, vaan korvata ne järjestelmällisesti, fillna()-funktio on hyödyllinen työkalu tähän tarkoitukseen.
Puuttuvien arvojen tunnistaminen DataFrame-kehyksessä
Seuraavassa esimerkissä käytetään DataFrame-taulukkoa, joka sisältää tietoja eri henkilöistä, joista osa on puutteellisia.
import pandas as pd
# Create DataFrame example
data = {
'Name': ['Alice', 'Bob', None, 'David'],
'Age': [25, None, 35, 40],
'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)pythonDataFrame näyttää tältä:
Name Age City
0 Alice 25.0 Nottingham
1 Bob NaN London
2 None 35.0 Cardiff
3 David 40.0 NonePuuttuvat tiedot on merkitty numerolla None tai NaN. Jos haluat nähdä tarkasti, mitkä arvot puuttuvat, voit kutsua DataFrame-kehyksessä isna().
# Applying pandas isna()
missing_values = df.isna()
print(missing_values)pythonFunktiokutsu palauttaa uuden DataFrame-kehyksen, jossa alkuperäisten tietojen puuttuvat arvot on merkitty numerolla True ja olemassa olevat arvot numerolla False. Tässä on tulos:
Name Age City
0 False False False
1 False True False
2 True False False
3 False False TruePuuttuvien arvojen määrän laskeminen sarakkeittain
Voi myös olla hyödyllistä tietää, kuinka monta arvoa puuttuu kustakin sarakkeesta, jotta voit päättää, miten niitä käsitellään. Voit käyttää isna() yhdessä Pythonin sum() kanssa laskeaksesi puuttuvien arvojen määrän kustakin sarakkeesta.
# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)pythonTämä näyttää puuttuvien arvojen määrän kussakin sarakkeessa:
Name 1
Age 1
City 1
dtype: int64