Kako naložiti datoteke v Python z pandas read_csv()

Contents

Python pandas read_csv() je ena najpogosteje uporabljanih metod za branje CSV datotek v pandas in njihovo shranjevanje kot DataFrames. CSV datoteke (vrednosti, ločene z vejico) so široko uporabljana oblika za shranjevanje tabelaričnih podatkov in jih podpirajo številne aplikacije.

Kakšna je sintaksa za Python pandas `read_csv()`?

pandas.read_csv() ustvari pandas DataFrame iz CSV datoteke. Osnovna sintaksa funkcije je naslednja:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Kateri so najpomembnejši parametri za `pandas.read_csv()`?

pandas.read_csv() lahko sprejme široko paleto parametrov. Da bi stvari poenostavili, se bomo osredotočili na najpomembnejše argumente. Tukaj je pregled ključnih parametrov, ki jih lahko uporabite za določitev, kako naj se funkcija obnaša:

Parameter	Pomen	Privzeta vrednost
`filepath_or_buffer`	To je niz v jeziku Python, ki predstavlja pot do datoteke CSV ali podatkovnega pomnilnika, na primer URL.
`sep`	To določa ločilo med vrednostmi.	`,`
`header`	Označuje, katero vrstico uporabiti kot glavo.	`infer` (prva vrstica)
`names`	Če je nastavljeno `header=None`, lahko uporabite `names` za zagotovitev seznama imen stolpcev v Pythonu.
`index_col`	Določa, kateri stolpec se uporabi kot indeks.	`None`
`usecols`	Ta parameter vam omogoča, da izberete stolpce, ki jih želite naložiti v DataFrame.	`None`
`dtype`	Določa vrsto podatkov stolpcev.	`None`

Celoten seznam parametrov za to funkcijo najdete v dokumentaciji pandas.

Kako dostopati do CSV datotek korak za korakom

Z uporabo pandas.read_csv() lahko v nekaj korakih enostavno prenesete podatke iz CSV datotek v Python.

V naslednjih primerih bomo delali s CSV datoteko, ki je strukturirana takole:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Korak 1: Uvoz pandas

Najprej uvozite knjižnico pandas v svoj Python skript.

import pandas as pd

python

Korak 2: Naložite CSV datoteko

Sedaj lahko CSV datoteko naložite v Python pandas s pomočjo funkcije read_csv(). Preprosto prenesite pot do datoteke v funkcijo. V naslednjem kodeksu bomo uporabili datoteko z imenom data.csv, ki je shranjena v istem imeniku kot skript:

df = pd.read_csv('data.csv')

python

Zgornja koda shrani datoteko v objekt DataFrame (df), s katerim bomo lahko nato delali. Pandas bo prvo vrstico samodejno razlagal kot naslove stolpcev, če ne določite drugače.

Korak 3: Prikaži CSV datoteko

Priporočljivo je, da si ogledate prvih nekaj vrstic DataFrame, da se prepričate, da je bila datoteka pravilno naložena. Za to lahko uporabite funkcijo DataFrame.head(). Privzeto prikaže prvih pet vrstic DataFrame, kar vam omogoča hiter pregled strukture podatkov:

print(df.head())

python

Izhod je videti takole:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Korak 4: Spremenite imena stolpcev (neobvezno)

Če vaša CSV datoteka nima vrstice z glavo, lahko imena stolpcev določite ročno:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

V tem primeru smo stolpce poimenovali ID, Ime, Starost, Mesto in Plača. Izhod je videti takole:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Kako z pandas iterrows() prehoditi skozi DataFrames

Pandas DataFrame.iterrows() je uporabna funkcija za ponavljanje vrstic v DataFrame, še posebej kadar morate obdelati podatke vrstico po vrstico. To je še posebej koristno za izračune ali pogojno logiko. V tem članku bomo obravnavali sintakso panda iterrows() in vam pokazali, kako…

Mr. Kosalshutterstock

Kako indeksirati pandas DataFrames

Indeksiranje Pandas DataFrame je močno orodje za učinkovito in uspešno ravnanje s podatki. Z različnimi metodami lahko ciljate na določene podatke in podskupine vašega DataFrame. V tem članku bomo raziskali, kaj je indeks Pandas DataFrame, kako dostopati do podatkov v stolpcih in…

BEST-BACKGROUNDSShutterstock

Kako očistiti podatke v pandas z dropna()

Funkcija DataFrame.dropna() v pandas je močno orodje za čiščenje podatkovnih nizov. Funkcija učinkovito odstrani manjkajoče vrednosti in se lahko uporablja z različnimi parametri, kar programerjem omogoča, da določijo različne zahteve za čiščenje podatkov. Tukaj se lahko…

Mr. Kosalshutterstock

Kaj je Python pandas any() in kako deluje?

V pandah je metoda DataFrame any() učinkovito orodje za hitro preverjanje, ali obstaja vsaj ena prava vrednost vzdolž osi DataFrame. Ta metoda je še posebej koristna za analizo in validacijo podatkov. V tem članku vam bomo pokazali, kakšna je sintaksa te funkcije, kako jo…

ESB Professionalshutterstock

Kako uporabljati Pandas DataFrame za hitro manipulacijo tabel v Pythonu

Modul Pandas je eno najmočnejših orodij za manipulacijo podatkov v Pythonu. Ena od osrednjih podatkovnih struktur v Pandasu je DataFrame. DataFrames se lahko uporabljajo za učinkovito manipulacijo dvodimenzionalnih, strukturiranih podatkov. Strukturo podatkovne strukture ter…

UndreyShutterstock

Kaj je lastnost iloc[] v Python pandas?

Pri delu z DataFrames v Python pandas niso vedno vse vrstice ali stolpci DataFrame pomembni za analizo podatkov. Lastnost pandas DataFrame iloc[] je uporabno orodje za izbiranje vrstic ali stolpcev z uporabo njihovih indeksov. V tem članku si bomo ogledali sintakso iloc[] in…

Kako naložiti datoteke v Python z pandas read_csv()

Kakšna je sintaksa za Python pandas read_csv()?

Kateri so naj­po­memb­nej­ši parametri za pandas.read_csv()?

Kako dostopati do CSV datotek korak za korakom

Korak 1: Uvoz pandas

Korak 2: Naložite CSV datoteko

Korak 3: Prikaži CSV datoteko

Korak 4: Spre­me­ni­te imena stolpcev (neobvezno)

Kakšna je sintaksa za Python pandas `read_csv()`?

Kateri so najpomembnejši parametri za `pandas.read_csv()`?

Korak 4: Spremenite imena stolpcev (neobvezno)