Kaip įkelti failus į Python su pandas read_csv()
Python pandas read_csv() yra vienas iš dažniausiai naudojamų metodų CSV failams įskaityti į pandas ir saugoti juos kaip DataFrames. CSV failai (kableliais atskirti duomenys) yra plačiai naudojamas formatas lentelinių duomenų saugojimui ir yra palaikomas daugelyje programų.
Kokia yra Python pandas read_csv() sintaksė?
pandas.read_csv() sukuria pandas DataFrame iš CSV failo. Pagrindinė funkcijos sintaksė atrodo taip:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonKokie yra svarbiausi parametrai pandas.read_csv()?
pandas.read_csv() gali priimti įvairius parametrus. Kad būtų paprasčiau, sutelksime dėmesį į svarbiausius argumentus. Čia pateikiama pagrindinių parametrų, kuriuos galite naudoti norėdami nurodyti, kaip funkcija turėtų veikti, apžvalga:
| Parametras | Reikšmė | Numatytasis vertė |
|---|---|---|
filepath_or_buffer
|
Tai yra Python eilutė, atspindinti CSV failo arba duomenų buferio, pvz., URL, kelią. | |
sep
|
Tai nurodo atskyriklį tarp verčių. | ,
|
header
|
Nurodo, kuri eilutė turi būti naudojama kaip antraštė. | infer (pirmoji eilutė)
|
names
|
Jei nustatytas header=None, galite naudoti names, kad pateiktumėte Python stulpelių pavadinimų sąrašą.
|
|
index_col
|
Nustato, kurią stulpelių naudoti kaip indeksą. | None
|
usecols
|
Šis parametras leidžia pasirinkti, kuriuos stulpelius norite įkelti į DataFrame. | None
|
dtype
|
Nurodo stulpelių duomenų tipą. | None
|
Išsamų šios funkcijos parametrų sąrašą galite rasti pandas dokumentacijoje.
Kaip prieiti prie CSV failų žingsnis po žingsnio
Naudodami pandas.read_csv(), galite lengvai perkelti duomenis iš CSV failų į Python vos keliais veiksmais.
Šiuose pavyzdžiuose dirbsime su CSV failu, kurio struktūra yra tokia:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,520001 žingsnis: Importuoti pandas
Pirmiausia į savo Python skriptą importuokite pandas biblioteką.
import pandas as pdpython2 etapas: įkelkite CSV failą
Dabar galite įkelti CSV failą į Python pandas naudodami read_csv() funkciją. Tiesiog perduokite failo kelią į funkciją. Toliau pateiktame kode naudosime failą pavadinimu data.csv, kuris yra išsaugotas tame pačiame kataloge kaip ir scenarijus:
df = pd.read_csv('data.csv')pythonPirmiau pateiktas kodas išsaugo failą DataFrame objekte (df), su kuriuo vėliau galėsime dirbti. Pandas automatiškai interpretuos pirmą eilutę kaip stulpelių antraštes, jei nenurodysite kitaip.
3 žingsnis: CSV failo rodymas
Verta peržiūrėti pirmąsias kelias DataFrame eilutes, kad įsitikintumėte, jog failas įkeltas teisingai. Tam galite naudoti funkciją DataFrame.head(). Pagal numatytuosius nustatymus ji rodo pirmąsias penkias DataFrame eilutes, leidžiančias greitai susipažinti su duomenų struktūra:
print(df.head())pythonRezultatas atrodo taip:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 520004 žingsnis: pakeiskite stulpelių pavadinimus (pasirinktinai)
Jei jūsų CSV faile nėra antraštės eilutės, galite stulpelių pavadinimus nustatyti rankiniu būdu:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonŠiame pavyzdyje stulpelius pavadinome ID, Vardas, Amžius, Miestas ir Atlyginimas. Rezultatas atrodo taip:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000