Hvordan laste inn filer i Python med pandas read_csv()
Python pandas read_csv() er en av de mest brukte metodene for å lese CSV-filer inn i pandas og lagre dem som DataFrames. CSV-filer (kommaseparerte verdier) er et mye brukt format for lagring av tabelldata og støttes av mange applikasjoner.
Hva er syntaksen for Python pandas read_csv()?
pandas.read_csv() oppretter en pandas DataFrame fra en CSV-fil. Den grunnleggende syntaksen til funksjonen ser slik ut:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonHva er de viktigste parametrene for pandas.read_csv()?
pandas.read_csv() kan akseptere en lang rekke parametere. For å gjøre det enkelt, vil vi fokusere på de viktigste argumentene. Her er en oversikt over de viktigste parametrene du kan bruke til å spesifisere hvordan funksjonen skal oppføre seg:
| Parameter | Betydning | Standardverdi |
|---|---|---|
filepath_or_buffer
|
Dette er en Python-streng som representerer banen til CSV-filen eller en databuffer, for eksempel en URL. | |
sep
|
Dette angir skilletegnet mellom verdiene. | ,
|
header
|
Angir hvilken rad som skal brukes som overskrift. | infer (første rad)
|
names
|
Hvis header=None er angitt, kan du bruke names til å oppgi en Python-liste med kolonnenavn.
|
|
index_col
|
Bestemmer hvilken kolonne som skal brukes som indeks. | None
|
usecols
|
Denne parameteren lar deg velge hvilke kolonner du vil laste inn i DataFrame. | None
|
dtype
|
Angir datatypen for kolonnene. | None
|
Du finner en omfattende liste over parametrene for denne funksjonen i pandas-dokumentasjonen.
Hvordan få tilgang til CSV-filer trinn for trinn
Med pandas.read_csv() kan du enkelt overføre data fra CSV-filer til Python i bare noen få trinn.
I de følgende eksemplene skal vi arbeide med en CSV-fil som er strukturert slik:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Trinn 1: Importer pandas
Først importerer du pandas-biblioteket til Python-skriptet ditt.
import pandas as pdpythonTrinn 2: Last inn CSV-filen
Nå kan du laste CSV-filen din til Python pandas ved hjelp av funksjonen read_csv(). Bare send filstien til funksjonen. I følgende kode bruker vi en fil som heter data.csv, som er lagret i samme katalog som skriptet:
df = pd.read_csv('data.csv')pythonKoden ovenfor lagrer filen i et DataFrame-objekt (df), som vi deretter kan arbeide med. Pandas tolker automatisk den første raden som kolonneoverskrifter, med mindre du angir noe annet.
Trinn 3: Vis CSV-filen
Det er lurt å ta en titt på de første radene i DataFrame for å sikre at filen er lastet inn riktig. Du kan bruke funksjonen DataFrame.head() til dette. Som standard viser den de fem første radene i DataFrame, slik at du får en rask oversikt over datastrukturen:
print(df.head())pythonResultatet ser slik ut:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Trinn 4: Endre kolonnenavnene (valgfritt)
Hvis CSV-filen din ikke har en overskriftsrad, kan du definere kolonnenavnene manuelt:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonI dette eksemplet har vi gitt kolonnene navnene ID, Navn, Alder, By og Lønn. Resultatet ser slik ut:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000