Python pandas read_csv() on yksi ylei­sim­min käy­te­tyis­tä me­ne­tel­mis­tä CSV-tie­dos­to­jen lu­ke­mi­seen pandasiin ja niiden tal­len­ta­mi­seen Da­taFra­mes-muodossa. CSV-tiedostot (komalla erotetut arvot) ovat laajalti käytetty muoto tau­luk­ko­muo­tois­ten tietojen tal­len­ta­mi­seen, ja monet so­vel­luk­set tukevat niitä.

Mikä on Python pandas read_csv():n syntaksi?

pandas.read_csv() luo pandas DataFrame -kehyksen CSV-tie­dos­tos­ta. Funktion pe­rus­ra­ken­te on seu­raa­van­lai­nen:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)
python

Mitkä ovat tär­keim­mät pa­ra­met­rit pandas.read_csv():lle?

pandas.read_csv() voi hyväksyä mo­nen­lai­sia pa­ra­met­re­ja. Yk­sin­ker­tai­suu­den vuoksi kes­ki­tym­me tär­keim­piin ar­gu­ment­tei­hin. Tässä on yleis­kat­saus tär­keim­mis­tä pa­ra­met­reis­ta, joita voit käyttää mää­rit­tä­mään, miten funktio toimii:

Parametri Merkitys Ole­tusar­vo
filepath_or_buffer Tämä on Python-merk­ki­jo­no, joka edustaa CSV-tiedoston polkua tai da­ta­pus­ku­riin, kuten URL-osoitetta.
sep Tämä määrittää arvojen välisen erottimen. ,
header Ilmaisee, mitä riviä käytetään otsikkona. infer (en­sim­mäi­nen rivi)
names Jos header=None on asetettu, voit käyttää names sa­rak­kei­den nimien Python-luettelon an­ta­mi­seen.
index_col Määrittää, mitä saraketta käytetään indeksinä. None
usecols Tämän pa­ra­met­rin avulla voit valita, mitkä sarakkeet haluat ladata DataFrame-kehykseen. None
dtype Määrittää sa­rak­kei­den tie­to­tyy­pin. None

Tämän toiminnon pa­ra­met­rien kattava luettelo löytyy pandas-do­ku­men­taa­tios­ta.

CSV-tie­dos­to­jen avaaminen vaihe vaiheelta

pandas.read_csv() avulla voit helposti siirtää tietoja CSV-tie­dos­tois­ta Python-ohjelmaan vain muu­ta­mal­la vaiheella.

Seu­raa­vis­sa esi­mer­keis­sä käytämme CSV-tiedostoa, jonka rakenne on seuraava:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Vaihe 1: Tuo pandas

En­sin­nä­kin, tuo pandas-kirjasto Python-sk­rip­tii­si.

import pandas as pd
python

Vaihe 2: Lataa CSV-tiedosto

Nyt voit ladata CSV-tiedoston Python pandasiin käyt­tä­mäl­lä read_csv(). Syötä vain tiedoston polku funk­tiol­le. Seu­raa­vas­sa koodissa käytämme tiedostoa nimeltä data.csv, joka on tal­len­net­tu samaan ha­ke­mis­toon kuin skripti:

df = pd.read_csv('data.csv')
python

Yllä oleva koodi tallentaa tiedoston DataFrame-objektiin (df), jota voimme sitten käyttää. Pandas tulkitsee en­sim­mäi­sen rivin au­to­maat­ti­ses­ti sa­rak­kei­den ot­si­koik­si, ellet määritä toisin.

Vaihe 3: Näytä CSV-tiedosto

On hyvä tarkistaa DataFrame-taulukon en­sim­mäi­set rivit var­mis­taak­se­si, että tiedosto on ladattu oikein. Voit käyttää tähän DataFrame.head(). Ole­tusar­voi­ses­ti se näyttää DataFrame-taulukon viisi en­sim­mäis­tä riviä, jolloin saat nopeasti yleis­ku­van tietojen ra­ken­tees­ta:

print(df.head())
python

Tulostus näyttää tältä:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Vaihe 4: Muuta sa­rak­kei­den nimiä (va­lin­nai­nen)

Jos CSV-tie­dos­tos­sa­si ei ole ot­sik­ko­ri­viä, voit määrittää sa­rak­kei­den nimet ma­nu­aa­li­ses­ti:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])
python

Tässä esi­mer­kis­sä olemme nimenneet sarakkeet ID, Nimi, Ikä, Kaupunki ja Palkka. Tulostus näyttää tältä:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000
Siirry pää­va­lik­koon