Kaip nustatyti trūkstamas reikšmes naudojant pandas isna() funkciją
Python pandas funkcija DataFrame.isna() padeda vartotojams identifikuoti trūkstamus duomenis (NaN arba None) DataFrame. Tai gali būti ypač naudinga norint pamatyti, ar prieš pradedant analizę reikia išvalyti duomenis.
Kokia yra pandas isna() sintaksė?
Kadangi pandas isna() nepriima jokių parametrų, jo sintaksė yra gana paprasta:
DataFrame.isna()pythonKaip naudoti pandas isna() funkciją
Kai isna() taikoma DataFrame, ji sukuria naują DataFrame su Būlio reikšmėmis. Jei originalioje DataFrame trūksta reikšmės (pvz., pažymėta kaip NaN arba None), isna() parodys True, kur yra reikšmė. Kitais atvejais funkcija parodys False.
Jei, be NaN ar None verčių identifikavimo, norite jas ir pašalinti, išbandykite pandas dropna() funkciją. Jei nenorite pašalinti šių verčių, bet sistemingai jas pakeisti, fillna() funkcija yra naudinga priemonė tai padaryti.
Trūkstamų verčių nustatymas duomenų rėmelio
Šiame pavyzdyje naudojamas duomenų rėmelis su duomenimis apie skirtingus asmenis, kuriuose trūksta tam tikros informacijos.
import pandas as pd
# Create DataFrame example
data = {
'Name': ['Alice', 'Bob', None, 'David'],
'Age': [25, None, 35, 40],
'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)pythonDuomenų rėmelis atrodo taip:
Name Age City
0 Alice 25.0 Nottingham
1 Bob NaN London
2 None 35.0 Cardiff
3 David 40.0 NoneTrūkstama informacija pažymėta kaip None arba NaN. Norėdami pamatyti, kokios tiksliai reikšmės trūksta, galite iškviesti isna() duomenų rėmelį.
# Applying pandas isna()
missing_values = df.isna()
print(missing_values)pythonFunkcijos iškvietimas grąžina naują duomenų rėmelį (DataFrame), kuriame trūkstamos pradinių duomenų reikšmės pažymėtos kaip True, o esančios reikšmės pažymėtos kaip False. Štai rezultatas:
Name Age City
0 False False False
1 False True False
2 True False False
3 False False TrueTrūkstamų verčių skaičiavimas pagal stulpelius
Taip pat gali būti naudinga žinoti, kiek verčių trūksta kiekvienoje skiltyje, kad galėtumėte nuspręsti, kaip elgtis. Galite naudoti isna() kartu su Python sum() funkcija, kad suskaičiuotumėte trūkstamų verčių skaičių kiekvienoje skiltyje.
# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)pythonČia matote trūkstamų verčių skaičių kiekvienoje skiltyje:
Name 1
Age 1
City 1
dtype: int64