Sådan indlæses filer i Python med pandas read_csv()
Python pandas read_csv() er en af de mest anvendte metoder til at læse CSV-filer ind i pandas og gemme dem som DataFrames. CSV-filer (kommaseparerede værdier) er et udbredt format til lagring af tabelformede data og understøttes af mange applikationer.
Hvad er syntaksen for Python pandas read_csv()?
pandas.read_csv() opretter en pandas DataFrame fra en CSV-fil. Den grundlæggende syntaks for funktionen ser således ud:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonHvad er de vigtigste parametre for pandas.read_csv()?
pandas.read_csv() kan acceptere en lang række parametre. For at gøre det enkelt vil vi fokusere på de vigtigste argumenter. Her er en oversigt over de vigtigste parametre, du kan bruge til at angive, hvordan funktionen skal fungere:
| Parameter | Betydning | Standardværdi |
|---|---|---|
filepath_or_buffer
|
Dette er en Python-streng, der repræsenterer stien til CSV-filen eller en databuffer, f.eks. en URL. | |
sep
|
Dette angiver afgrænseren mellem værdier. | ,
|
header
|
Angiver, hvilken række der skal bruges som overskrift. | infer (første række)
|
names
|
Hvis header=None er indstillet, kan du bruge names til at angive en Python-liste over kolonnenavne.
|
|
index_col
|
Bestemmer, hvilken kolonne der skal bruges som indeks. | None
|
usecols
|
Denne parameter giver dig mulighed for at vælge, hvilke kolonner du vil indlæse i DataFrame. | None
|
dtype
|
Angiver datatypen for kolonnerne. | None
|
Du kan finde en omfattende liste over parametrene for denne funktion i pandas-dokumentationen.
Sådan får du adgang til CSV-filer trin for trin
Med pandas.read_csv() kan du nemt overføre data fra CSV-filer til Python i blot få trin.
I de følgende eksempler arbejder vi med en CSV-fil, der er struktureret som følger:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Trin 1: Importer pandas
Først skal du importere pandas-biblioteket til dit Python-script.
import pandas as pdpythonTrin 2: Indlæs CSV-filen
Nu kan du indlæse din CSV-fil til Python pandas ved hjælp af funktionen read_csv(). Du skal blot overføre filstien til funktionen. I den følgende kode bruger vi en fil ved navn data.csv, som er gemt i samme mappe som scriptet:
df = pd.read_csv('data.csv')pythonOvenstående kode gemmer filen i et DataFrame-objekt (df), som vi derefter kan arbejde med. Pandas fortolker automatisk den første række som kolonneoverskrifter, medmindre du angiver andet.
Trin 3: Vis CSV-filen
Det er en god idé at kigge på de første par rækker i DataFrame for at sikre, at filen er indlæst korrekt. Du kan bruge funktionen DataFrame.head() til dette. Som standard viser den de første fem rækker i DataFrame, hvilket giver dig et hurtigt overblik over datastrukturen:
print(df.head())pythonResultatet ser således ud:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Trin 4: Skift kolonnenavnene (valgfrit)
Hvis din CSV-fil ikke har en overskriftsrække, kan du definere kolonnenavnene manuelt:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonI dette eksempel har vi navngivet kolonnerne ID, Navn, Alder, By og Løn. Resultatet ser således ud:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000