Kaip valyti duomenis pandas naudojant dropna()

Contents

Python pandas DataFrame.dropna() funkcija naudojama pašalinti visas eilutes ar stulpelius, kuriuose yra trūkstamų verčių (NaN), iš DataFrame. Tai ypač svarbu ruošiant ir valant duomenis.

Kokia yra pandas `dropna()` sintaksė?

dropna() funkcija priima iki penkių parametrų. Štai jos sintaksė:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False, ignore_index=False)

python

Svarbūs parametrai `dropna()`

Parametrus galite naudoti, kad paveiktumėte pandas DataFrame.dropna() funkcijos veikimą. Čia pateikiama svarbiausių parametrų apžvalga:

Parametras	Aprašymas	Numatytasis vertė
`axis`	Nustato, ar bus pašalintos eilutės (0 arba `index`) ar stulpeliai (1 arba `columns`)	0
`how`	Nurodo, ar visos (`all`) ar tik kai kurios (`any`) reikšmės turi būti NaN.	`any`
`thresh`	Nurodo mažiausią ne NaN verčių skaičių, kurį turi turėti eilutė arba stulpelis, kad nebūtų pašalintas; negali būti derinamas su `how`	pasirinktinai
`subset`	Nurodo, kurios eilutės ar stulpeliai turėtų būti laikomi	pasirinktinai
`inplace`	Nustato, ar operacija atliekama su originalia DataFrame	`False`
`ignore_index`	Jei `True`, likusi ašis pažymima nuo 0 iki n-1.	`False`

Kaip naudoti pandas `DataFrame.dropna()`

Pandas dropna() naudojamas duomenims valyti prieš juos analizuojant. Trūkstamų verčių eilučių ar stulpelių pašalinimas padeda išvengti statistinių vertinimų iškraipymų. Kadangi trūkstamos vertės taip pat gali sukelti problemų vizualizuojant duomenis, šią funkciją naudinga taikyti ir kuriant diagramas bei ataskaitas.

Eilučių su trūkstamomis reikšmėmis pašalinimas

Šiame pavyzdyje pažvelgsime į DataFrame, kuriame yra NaN reikšmės:

import pandas as pd
import numpy as np
# Creating a DataFrame with sample data
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df)

python

Duomenų rėmelis atrodo taip:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

Toliau taikysime pandas dropna() funkciją:

## Remove all rows that contain at least one NaN value
df_cleaned = df.dropna()
print(df_cleaned)

python

Vykdant aukščiau pateiktą kodą gaunamas toks rezultatas:

A    B  C
0  1.0  5.0  9
3  4.0  8.0 12

Kadangi visos kitos eilutės turi NaN reikšmes, lieka tik nulinė ir trečioji eilutės.

Stulpelių su trūkstamomis reikšmėmis pašalinimas

Panašiai, galite pašalinti stulpelius su trūkstamomis reikšmėmis, nustatydami parametrą axis į 1:

## Remove all columns that contain at least one NaN value
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)

python

C stulpelis yra vienintelis likęs stulpelis, nes jis yra vienintelis, kuriame nėra NaN verčių:

Naudojant `thresh`

Jei norite pašalinti eilutes, kuriose yra mažiau nei dvi ne NaN reikšmės, galite naudoti parametrą thresh:

## Only keeps rows that have 2 or more non-NaN values
df_thresh = df.dropna(thresh=2)
print(df_thresh)

python

Vykdant kodą gaunamas toks rezultatas:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

1 eilutė nėra pašalinta iš išvesties, nes joje yra 2 ne NaN reikšmės (2,0 ir 10).

Naudojant `subset`

subset parametras leidžia nurodyti stulpelius, kuriuose programa turi ieškoti trūkstamų verčių. Bus pašalintos tik tos eilutės, kurių nurodytuose stulpeliuose yra trūkstamų verčių.

## Removes all rows where column A contains a NaN value
df_subset = df.dropna(subset=['A'])
print(df_subset)

python

Čia pašalinama tik antra eilutė. Pirmoje eilutėje esanti NaN reikšmė ignoruojama dėl parametro subset, kuris atsižvelgia tik į A stulpelį:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Kaip kartoti DataFrames su pandas iterrows()

Pandas DataFrame.iterrows() yra naudinga funkcija, skirta kartoti eilutes DataFrame, ypač kai reikia apdoroti duomenis eilutė po eilutės. Tai ypač naudinga skaičiavimams ar sąlyginei logikai. Šiame straipsnyje aptarsime panda iterrows() sintaksę ir parodysime, kaip sudėti…

Mr. Kosalshutterstock

Kaip indeksuoti pandas DataFrames

Pandas DataFrame indeksavimas yra galingas įrankis efektyviam ir veiksmingam duomenų tvarkymui. Naudodami įvairius metodus, galite nukreipti dėmesį į konkrečius duomenis ir DataFrame pogrupius. Šiame straipsnyje išnagrinėsime, kas yra pandas DataFrame indeksas, kaip pasiekti…

Mr. Kosalshutterstock

Kas yra Python pandas any() ir kaip jis veikia?

Pandose DataFrame any() metodas yra veiksminga priemonė, leidžianti greitai patikrinti, ar DataFrame ašyje yra bent viena teisinga reikšmė. Šis metodas ypač naudingas duomenų analizei ir patvirtinimui. Šiame straipsnyje parodysime, kokia yra šios funkcijos sintaksė, kaip ją…

ESB Professionalshutterstock

Kaip naudoti Pandas DataFrame, kad greitai tvarkytumėte lenteles Python kalba

Pandas modulis yra vienas iš galingiausių duomenų tvarkymo įrankių Python kalboje. Viena iš pagrindinių Pandas duomenų struktūrų yra DataFrame. DataFrames gali būti naudojami efektyviam dvimatės struktūros duomenų tvarkymui. Mes paaiškiname duomenų struktūros sandarą, savybes ir…

UndreyShutterstock

Kas yra Python pandas savybė iloc[]?

Dirbant su DataFrames Python pandas, ne visos DataFrame eilutės ar stulpeliai visada yra svarbūs duomenų analizei. Pandas DataFrame savybė iloc[] yra naudinga priemonė eilutėms ar stulpeliams atrinkti pagal jų indeksus. Šiame straipsnyje apžvelgsime iloc[] sintaksę ir įvairius…

REDPIXEL.PLShutterstock

Kaip apskaičiuoti vidurkius naudojant pandas mean()

Pandas funkcija „DataFrame.mean()“ apskaičiuoja vidurkius DataFrame. Ji gali būti naudojama vidutinių verčių eilutėms ar stulpeliams rasti ir yra lanksti tvarkant NaN vertes. Šiame straipsnyje aptarsime funkcijos sintaksę, jos parametrus ir naudojimo būdus. Skaitykite toliau, kad…

Kaip valyti duomenis pandas naudojant dropna()

Kokia yra pandas dropna() sintaksė?

Svarbūs pa­ra­met­rai dropna()

Kaip naudoti pandas DataFrame.dropna()

Eilučių su trūks­ta­mo­mis reikš­mė­mis pa­ša­li­ni­mas

Stulpelių su trūks­ta­mo­mis reikš­mė­mis pa­ša­li­ni­mas

Naudojant thresh

Naudojant subset

Kokia yra pandas `dropna()` sintaksė?

Svarbūs parametrai `dropna()`

Kaip naudoti pandas `DataFrame.dropna()`

Eilučių su trūkstamomis reikšmėmis pašalinimas

Stulpelių su trūkstamomis reikšmėmis pašalinimas

Naudojant `thresh`

Naudojant `subset`