Kako naložiti datoteke v Python z pandas read_csv()
Python pandas read_csv() je ena najpogosteje uporabljanih metod za branje CSV datotek v pandas in njihovo shranjevanje kot DataFrames. CSV datoteke (vrednosti, ločene z vejico) so široko uporabljana oblika za shranjevanje tabelaričnih podatkov in jih podpirajo številne aplikacije.
Kakšna je sintaksa za Python pandas read_csv()?
pandas.read_csv() ustvari pandas DataFrame iz CSV datoteke. Osnovna sintaksa funkcije je naslednja:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonKateri so najpomembnejši parametri za pandas.read_csv()?
pandas.read_csv() lahko sprejme široko paleto parametrov. Da bi stvari poenostavili, se bomo osredotočili na najpomembnejše argumente. Tukaj je pregled ključnih parametrov, ki jih lahko uporabite za določitev, kako naj se funkcija obnaša:
| Parameter | Pomen | Privzeta vrednost |
|---|---|---|
filepath_or_buffer
|
To je niz v jeziku Python, ki predstavlja pot do datoteke CSV ali podatkovnega pomnilnika, na primer URL. | |
sep
|
To določa ločilo med vrednostmi. | ,
|
header
|
Označuje, katero vrstico uporabiti kot glavo. | infer (prva vrstica)
|
names
|
Če je nastavljeno header=None, lahko uporabite names za zagotovitev seznama imen stolpcev v Pythonu.
|
|
index_col
|
Določa, kateri stolpec se uporabi kot indeks. | None
|
usecols
|
Ta parameter vam omogoča, da izberete stolpce, ki jih želite naložiti v DataFrame. | None
|
dtype
|
Določa vrsto podatkov stolpcev. | None
|
Celoten seznam parametrov za to funkcijo najdete v dokumentaciji pandas.
Kako dostopati do CSV datotek korak za korakom
Z uporabo pandas.read_csv() lahko v nekaj korakih enostavno prenesete podatke iz CSV datotek v Python.
V naslednjih primerih bomo delali s CSV datoteko, ki je strukturirana takole:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Korak 1: Uvoz pandas
Najprej uvozite knjižnico pandas v svoj Python skript.
import pandas as pdpythonKorak 2: Naložite CSV datoteko
Sedaj lahko CSV datoteko naložite v Python pandas s pomočjo funkcije read_csv(). Preprosto prenesite pot do datoteke v funkcijo. V naslednjem kodeksu bomo uporabili datoteko z imenom data.csv, ki je shranjena v istem imeniku kot skript:
df = pd.read_csv('data.csv')pythonZgornja koda shrani datoteko v objekt DataFrame (df), s katerim bomo lahko nato delali. Pandas bo prvo vrstico samodejno razlagal kot naslove stolpcev, če ne določite drugače.
Korak 3: Prikaži CSV datoteko
Priporočljivo je, da si ogledate prvih nekaj vrstic DataFrame, da se prepričate, da je bila datoteka pravilno naložena. Za to lahko uporabite funkcijo DataFrame.head(). Privzeto prikaže prvih pet vrstic DataFrame, kar vam omogoča hiter pregled strukture podatkov:
print(df.head())pythonIzhod je videti takole:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Korak 4: Spremenite imena stolpcev (neobvezno)
Če vaša CSV datoteka nima vrstice z glavo, lahko imena stolpcev določite ročno:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonV tem primeru smo stolpce poimenovali ID, Ime, Starost, Mesto in Plača. Izhod je videti takole:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000