Kuinka ladata tiedostoja Python-ohjelmaan pandas read_csv() -toiminnolla
Python pandas read_csv() on yksi yleisimmin käytetyistä menetelmistä CSV-tiedostojen lukemiseen pandasiin ja niiden tallentamiseen DataFrames-muodossa. CSV-tiedostot (komalla erotetut arvot) ovat laajalti käytetty muoto taulukkomuotoisten tietojen tallentamiseen, ja monet sovellukset tukevat niitä.
Mikä on Python pandas read_csv():n syntaksi?
pandas.read_csv() luo pandas DataFrame -kehyksen CSV-tiedostosta. Funktion perusrakente on seuraavanlainen:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonMitkä ovat tärkeimmät parametrit pandas.read_csv():lle?
pandas.read_csv() voi hyväksyä monenlaisia parametreja. Yksinkertaisuuden vuoksi keskitymme tärkeimpiin argumentteihin. Tässä on yleiskatsaus tärkeimmistä parametreista, joita voit käyttää määrittämään, miten funktio toimii:
| Parametri | Merkitys | Oletusarvo |
|---|---|---|
filepath_or_buffer
|
Tämä on Python-merkkijono, joka edustaa CSV-tiedoston polkua tai datapuskuriin, kuten URL-osoitetta. | |
sep
|
Tämä määrittää arvojen välisen erottimen. | ,
|
header
|
Ilmaisee, mitä riviä käytetään otsikkona. | infer (ensimmäinen rivi)
|
names
|
Jos header=None on asetettu, voit käyttää names sarakkeiden nimien Python-luettelon antamiseen.
|
|
index_col
|
Määrittää, mitä saraketta käytetään indeksinä. | None
|
usecols
|
Tämän parametrin avulla voit valita, mitkä sarakkeet haluat ladata DataFrame-kehykseen. | None
|
dtype
|
Määrittää sarakkeiden tietotyypin. | None
|
Tämän toiminnon parametrien kattava luettelo löytyy pandas-dokumentaatiosta.
CSV-tiedostojen avaaminen vaihe vaiheelta
pandas.read_csv() avulla voit helposti siirtää tietoja CSV-tiedostoista Python-ohjelmaan vain muutamalla vaiheella.
Seuraavissa esimerkeissä käytämme CSV-tiedostoa, jonka rakenne on seuraava:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Vaihe 1: Tuo pandas
Ensinnäkin, tuo pandas-kirjasto Python-skriptiisi.
import pandas as pdpythonVaihe 2: Lataa CSV-tiedosto
Nyt voit ladata CSV-tiedoston Python pandasiin käyttämällä read_csv(). Syötä vain tiedoston polku funktiolle. Seuraavassa koodissa käytämme tiedostoa nimeltä data.csv, joka on tallennettu samaan hakemistoon kuin skripti:
df = pd.read_csv('data.csv')pythonYllä oleva koodi tallentaa tiedoston DataFrame-objektiin (df), jota voimme sitten käyttää. Pandas tulkitsee ensimmäisen rivin automaattisesti sarakkeiden otsikoiksi, ellet määritä toisin.
Vaihe 3: Näytä CSV-tiedosto
On hyvä tarkistaa DataFrame-taulukon ensimmäiset rivit varmistaaksesi, että tiedosto on ladattu oikein. Voit käyttää tähän DataFrame.head(). Oletusarvoisesti se näyttää DataFrame-taulukon viisi ensimmäistä riviä, jolloin saat nopeasti yleiskuvan tietojen rakenteesta:
print(df.head())pythonTulostus näyttää tältä:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Vaihe 4: Muuta sarakkeiden nimiä (valinnainen)
Jos CSV-tiedostossasi ei ole otsikkoriviä, voit määrittää sarakkeiden nimet manuaalisesti:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonTässä esimerkissä olemme nimenneet sarakkeet ID, Nimi, Ikä, Kaupunki ja Palkka. Tulostus näyttää tältä:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000