Kuinka ladata tiedostoja Python-ohjelmaan pandas read_csv() -toiminnolla

Sisällys

Python pandas read_csv() on yksi yleisimmin käytetyistä menetelmistä CSV-tiedostojen lukemiseen pandasiin ja niiden tallentamiseen DataFrames-muodossa. CSV-tiedostot (komalla erotetut arvot) ovat laajalti käytetty muoto taulukkomuotoisten tietojen tallentamiseen, ja monet sovellukset tukevat niitä.

Mikä on Python pandas `read_csv()`:n syntaksi?

pandas.read_csv() luo pandas DataFrame -kehyksen CSV-tiedostosta. Funktion perusrakente on seuraavanlainen:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Mitkä ovat tärkeimmät parametrit `pandas.read_csv()`:lle?

pandas.read_csv() voi hyväksyä monenlaisia parametreja. Yksinkertaisuuden vuoksi keskitymme tärkeimpiin argumentteihin. Tässä on yleiskatsaus tärkeimmistä parametreista, joita voit käyttää määrittämään, miten funktio toimii:

Parametri	Merkitys	Oletusarvo
`filepath_or_buffer`	Tämä on Python-merkkijono, joka edustaa CSV-tiedoston polkua tai datapuskuriin, kuten URL-osoitetta.
`sep`	Tämä määrittää arvojen välisen erottimen.	`,`
`header`	Ilmaisee, mitä riviä käytetään otsikkona.	`infer` (ensimmäinen rivi)
`names`	Jos `header=None` on asetettu, voit käyttää `names` sarakkeiden nimien Python-luettelon antamiseen.
`index_col`	Määrittää, mitä saraketta käytetään indeksinä.	`None`
`usecols`	Tämän parametrin avulla voit valita, mitkä sarakkeet haluat ladata DataFrame-kehykseen.	`None`
`dtype`	Määrittää sarakkeiden tietotyypin.	`None`

Tämän toiminnon parametrien kattava luettelo löytyy pandas-dokumentaatiosta.

CSV-tiedostojen avaaminen vaihe vaiheelta

pandas.read_csv() avulla voit helposti siirtää tietoja CSV-tiedostoista Python-ohjelmaan vain muutamalla vaiheella.

Seuraavissa esimerkeissä käytämme CSV-tiedostoa, jonka rakenne on seuraava:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Vaihe 1: Tuo pandas

Ensinnäkin, tuo pandas-kirjasto Python-skriptiisi.

import pandas as pd

python

Vaihe 2: Lataa CSV-tiedosto

Nyt voit ladata CSV-tiedoston Python pandasiin käyttämällä read_csv(). Syötä vain tiedoston polku funktiolle. Seuraavassa koodissa käytämme tiedostoa nimeltä data.csv, joka on tallennettu samaan hakemistoon kuin skripti:

df = pd.read_csv('data.csv')

python

Yllä oleva koodi tallentaa tiedoston DataFrame-objektiin (df), jota voimme sitten käyttää. Pandas tulkitsee ensimmäisen rivin automaattisesti sarakkeiden otsikoiksi, ellet määritä toisin.

Vaihe 3: Näytä CSV-tiedosto

On hyvä tarkistaa DataFrame-taulukon ensimmäiset rivit varmistaaksesi, että tiedosto on ladattu oikein. Voit käyttää tähän DataFrame.head(). Oletusarvoisesti se näyttää DataFrame-taulukon viisi ensimmäistä riviä, jolloin saat nopeasti yleiskuvan tietojen rakenteesta:

print(df.head())

python

Tulostus näyttää tältä:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Vaihe 4: Muuta sarakkeiden nimiä (valinnainen)

Jos CSV-tiedostossasi ei ole otsikkoriviä, voit määrittää sarakkeiden nimet manuaalisesti:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

Tässä esimerkissä olemme nimenneet sarakkeet ID, Nimi, Ikä, Kaupunki ja Palkka. Tulostus näyttää tältä:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Suositut artikkelit

Verkkotunnusten kauppa: kuinka myydä verkkotunnus

Verkkotunnusten ostaminen ja myyminen voi olla tuottoisaa – jos osaa toimia oikein.…

Lue lisää

Aiheeseen liittyvät artikkelit

BEST-BACKGROUNDSShutterstock

Kuinka silmukoida DataFrames-kehyksiä pandas iterrows()-funktiolla

Pandas DataFrame.iterrows() on hyödyllinen funktio DataFrame-taulukon rivien läpikäymiseen, erityisesti kun dataa on käsiteltävä rivi riviltä. Tämä on erityisen hyödyllistä laskelmissa tai ehdollisessa logiikassa. Tässä artikkelissa käsitellään panda iterrows()-funktion syntaksia…

Lue lisää

Mr. Kosalshutterstock

Kuinka indeksoida pandas DataFrames

Pandas DataFrame -indeksointi on tehokas työkalu tehokkaaseen ja tulokselliseen tietojen käsittelyyn. Erilaisten menetelmien avulla voit kohdistaa tietyt tiedot ja DataFrame-tietokannan osajoukot. Tässä artikkelissa tutustumme pandas DataFrame -indeksiin, siihen, miten pääset…

Lue lisää

BEST-BACKGROUNDSShutterstock

Kuinka puhdistaa dataa pandas-kirjastossa dropna()-funktiolla

Pandas-kirjaston DataFrame.dropna()-funktio on tehokas työkalu datajoukkojen puhdistamiseen. Funktio poistaa tehokkaasti puuttuvat arvot ja sitä voidaan käyttää useiden eri parametrien kanssa, jolloin ohjelmoijat voivat määrittää erilaisia vaatimuksia datan puhdistukselle.…

Lue lisää

Mr. Kosalshutterstock

Mikä on Python pandas any() ja miten se toimii?

Pandassa DataFrame any() -metodi on tehokas työkalu, jolla voidaan nopeasti tarkistaa, onko DataFrame-akselilla vähintään yksi totta-arvo. Tämä metodi on erityisen hyödyllinen data-analyysissä ja validoinnissa. Tässä artikkelissa esittelemme tämän funktion syntaksin, sen käytön…

Lue lisää

ESB Professionalshutterstock

Kuinka käyttää Pandas DataFrame -sovellusta taulukoiden nopeaan käsittelyyn Pythonissa

Pandas-moduuli on yksi tehokkaimmista työkaluista tietojen käsittelyyn Pythonissa. Yksi Pandasin keskeisistä tietorakenteista on DataFrame. DataFrame-rakenteita voidaan käyttää tehokkaasti kaksiulotteisten, jäsenneltyjen tietojen käsittelyyn. Selitämme tietorakenteen rakenteen…

Lue lisää

UndreyShutterstock

Mikä on Python pandas -ominaisuus iloc[]?

Kun työskentelet DataFrames-kehyksillä Python pandas -ohjelmistossa, kaikki DataFrame-kehyksen rivit tai sarakkeet eivät aina ole merkityksellisiä data-analyysin kannalta. Pandas DataFrame -ominaisuus iloc[] on hyödyllinen työkalu rivien tai sarakkeiden valitsemiseen niiden…

Lue lisää

Kuinka ladata tie­dos­to­ja Python-ohjelmaan pandas read_csv() -toi­min­nol­la

Mikä on Python pandas read_csv():n syntaksi?

Mitkä ovat tär­keim­mät pa­ra­met­rit pandas.read_csv():lle?

CSV-tie­dos­to­jen avaaminen vaihe vaiheelta

Vaihe 1: Tuo pandas

Vaihe 2: Lataa CSV-tiedosto

Vaihe 3: Näytä CSV-tiedosto

Vaihe 4: Muuta sa­rak­kei­den nimiä (va­lin­nai­nen)

Kuinka ladata tiedostoja Python-ohjelmaan pandas read_csv() -toiminnolla

Mikä on Python pandas `read_csv()`:n syntaksi?

Mitkä ovat tärkeimmät parametrit `pandas.read_csv()`:lle?

CSV-tiedostojen avaaminen vaihe vaiheelta

Vaihe 4: Muuta sarakkeiden nimiä (valinnainen)