Sådan indlæses filer i Python med pandas read_csv()

Indhold

Python pandas read_csv() er en af de mest anvendte metoder til at læse CSV-filer ind i pandas og gemme dem som DataFrames. CSV-filer (kommaseparerede værdier) er et udbredt format til lagring af tabelformede data og understøttes af mange applikationer.

Hvad er syntaksen for Python pandas `read_csv()`?

pandas.read_csv() opretter en pandas DataFrame fra en CSV-fil. Den grundlæggende syntaks for funktionen ser således ud:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Hvad er de vigtigste parametre for `pandas.read_csv()`?

pandas.read_csv() kan acceptere en lang række parametre. For at gøre det enkelt vil vi fokusere på de vigtigste argumenter. Her er en oversigt over de vigtigste parametre, du kan bruge til at angive, hvordan funktionen skal fungere:

Parameter	Betydning	Standardværdi
`filepath_or_buffer`	Dette er en Python-streng, der repræsenterer stien til CSV-filen eller en databuffer, f.eks. en URL.
`sep`	Dette angiver afgrænseren mellem værdier.	`,`
`header`	Angiver, hvilken række der skal bruges som overskrift.	`infer` (første række)
`names`	Hvis `header=None` er indstillet, kan du bruge `names` til at angive en Python-liste over kolonnenavne.
`index_col`	Bestemmer, hvilken kolonne der skal bruges som indeks.	`None`
`usecols`	Denne parameter giver dig mulighed for at vælge, hvilke kolonner du vil indlæse i DataFrame.	`None`
`dtype`	Angiver datatypen for kolonnerne.	`None`

Du kan finde en omfattende liste over parametrene for denne funktion i pandas-dokumentationen.

Sådan får du adgang til CSV-filer trin for trin

Med pandas.read_csv() kan du nemt overføre data fra CSV-filer til Python i blot få trin.

I de følgende eksempler arbejder vi med en CSV-fil, der er struktureret som følger:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Trin 1: Importer pandas

Først skal du importere pandas-biblioteket til dit Python-script.

import pandas as pd

python

Trin 2: Indlæs CSV-filen

Nu kan du indlæse din CSV-fil til Python pandas ved hjælp af funktionen read_csv(). Du skal blot overføre filstien til funktionen. I den følgende kode bruger vi en fil ved navn data.csv, som er gemt i samme mappe som scriptet:

df = pd.read_csv('data.csv')

python

Ovenstående kode gemmer filen i et DataFrame-objekt (df), som vi derefter kan arbejde med. Pandas fortolker automatisk den første række som kolonneoverskrifter, medmindre du angiver andet.

Trin 3: Vis CSV-filen

Det er en god idé at kigge på de første par rækker i DataFrame for at sikre, at filen er indlæst korrekt. Du kan bruge funktionen DataFrame.head() til dette. Som standard viser den de første fem rækker i DataFrame, hvilket giver dig et hurtigt overblik over datastrukturen:

print(df.head())

python

Resultatet ser således ud:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Trin 4: Skift kolonnenavnene (valgfrit)

Hvis din CSV-fil ikke har en overskriftsrække, kan du definere kolonnenavnene manuelt:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

I dette eksempel har vi navngivet kolonnerne ID, Navn, Alder, By og Løn. Resultatet ser således ud:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Populære artikler

Domænehandel: Sådan sælger du et domænenavn

Køb og salg af domæner kan være en god forretning – hvis man ved, hvordan man gør. Vi vil…

Læs mere

Relaterede artikler

BEST-BACKGROUNDSShutterstock

Sådan gennemløber du DataFrames med pandas iterrows()

Pandas DataFrame.iterrows() er en nyttig funktion til at gennemløbe rækker i en DataFrame, især når du skal behandle data række for række. Dette er især nyttigt til beregninger eller betinget logik. I denne artikel gennemgår vi syntaksen for panda iterrows() og viser dig, hvordan…

Læs mere

Mr. Kosalshutterstock

Sådan indekseres pandas DataFrames

Pandas DataFrame-indeksering er et kraftfuldt værktøj til effektiv datahåndtering. Med forskellige metoder kan du målrette mod specifikke data og delmængder af din DataFrame. I denne artikel vil vi undersøge, hvad pandas DataFrame-indekset er, hvordan man får adgang til kolonne-…

Læs mere

BEST-BACKGROUNDSShutterstock

Sådan renser du data i pandas med dropna()

Pandas-funktionen DataFrame.dropna() er et effektivt værktøj til rensning af datasæt. Funktionen fjerner effektivt manglende værdier og kan bruges med forskellige parametre, så programmører kan angive forskellige krav til datarensning. Læs mere om syntaksen, parametrene og de…

Læs mere

Mr. Kosalshutterstock

Hvad er Python pandas any(), og hvordan fungerer det?

I pandas er DataFrame any()-metoden et effektivt værktøj til hurtigt at kontrollere, om der er mindst én sand værdi langs en akse i en DataFrame. Denne metode er især nyttig til dataanalyse og validering. I denne artikel viser vi dig, hvad syntaksen for denne funktion er, hvordan…

Læs mere

ESB Professionalshutterstock

Sådan bruges Pandas DataFrame til hurtigt at manipulere tabeller i Python

Pandas-modulet er et af de mest kraftfulde værktøjer til databehandling i Python. En af de centrale datastrukturer i Pandas er DataFrame. DataFrames kan bruges til at behandle todimensionelle, strukturerede data effektivt. Vi forklarer datastrukturens opbygning samt dens…

Læs mere

UndreyShutterstock

Hvad er Python pandas-egenskaben iloc[]?

Når man arbejder med DataFrames i Python pandas, er det ikke alle rækker eller kolonner i en DataFrame, der altid er relevante for dataanalysen. Pandas DataFrame-egenskaben iloc[] er et nyttigt værktøj til at vælge rækker eller kolonner ved hjælp af deres indekser. I denne…

Læs mere

Sådan indlæses filer i Python med pandas read_csv()

Hvad er syntaksen for Python pandas read_csv()?

Hvad er de vigtigste parametre for pandas.read_csv()?

Sådan får du adgang til CSV-filer trin for trin

Trin 1: Importer pandas

Trin 2: Indlæs CSV-filen

Trin 3: Vis CSV-filen

Trin 4: Skift ko­lon­ne­nav­ne­ne (valgfrit)

Hvad er syntaksen for Python pandas `read_csv()`?

Hvad er de vigtigste parametre for `pandas.read_csv()`?

Trin 4: Skift kolonnenavnene (valgfrit)