Kā filtrēt atšķirīgas vērtības ar pandas DataFrame[].unique()
Python pandas var izmantot funkciju unique(), lai identificētu unikālas vērtības DataFrame kolonnā. Tas ļauj viegli iegūt ātru pārskatu par dažādām vērtībām datu kopā.
Kāda ir pandas DataFrame[].unique() sintakse?
Pandas unique() izmantošanas pamata sintakse ir vienkārša. Tas ir tāpēc, ka funkcija nepieņem nekādus parametrus:
DataFrame['column_name'].unique()pythonPaturiet prātā, ka unique() var piemērot tikai vienai kolonnai. Pirms funkcijas izsaukšanas jums jānorāda, kuru kolonu vēlaties izvērtēt. Funkcija unique() atgriež numpy masīvu, kas satur visas dažādās vērtības to parādīšanās secībā, no kolonnas izņemot dublētas vērtības. Tomēr tā nesorterē vērtības.
Ja jau kādu laiku strādājat ar Python, iespējams, esat pazīstams ar numpy ekvivalentu pandas unique(). Efektivitātes apsvērumu dēļ parasti ir vēlamāka pandas versija.
Kā lietot pandas DataFrame[].unique()
Lai izmantotu unique() pandas DataFrame, vispirms ir jānorāda kolonna, kuru vēlaties pārbaudīt. Turpmākajā piemērā izmantosim DataFrame, kas satur informāciju par grupas indivīdu vecumu un dzīvesvietu.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonRezultātā iegūtais DataFrame izskatās šādi:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonTagad pieņemsim, ka vēlamies izveidot sarakstu ar visām pilsētām, kurās dzīvo DataFrame cilvēki. Mēs varam piemērot pandas unique() funkciju kolonnai, kas satur pilsētas.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonRezultāts ir numpy masīvs, kurā katra pilsēta ir uzskaitīta vienu reizi, parādot, ka DataFrame personas ir no kopumā trim pilsētām: Ņūkāslas, Londonas un Kardifas.
['Newcastle' 'London' 'Cardiff']