Kaj je funkcija substring() v R?
Funkcija R’s substring() je koristna za pripravo podatkov za analize. Uporabite jo lahko na primer za pretvorbo besedilnih podatkov v bolje strukturirane oblike.
Za kaj se uporablja funkcija R substring()?
R’s substring() je vgrajena funkcija, ki izbere del obstoječega niza. Omogoča natančno opredelitev začetnega in končnega indeksa, tako da lahko izolirate del niza, ki ga potrebujete. Funkcija ima različne uporabe, od čiščenja podatkov do izpisovanja določenih informacij iz nestrukturiranih tekstovnih podatkov. Uporabite jo lahko na primer za izpisovanje poštnih številk iz naslovov ali datumov iz časovnih žigov.
substring() je prilagodljiv v situacijah, ki zahtevajo natančen nadzor nad položajem in dolžino izbranih podnizov. Metoda se pogosto uporablja v analizah podatkov in za pripravo besedilnih podatkov za nadaljnjo obdelavo.
Kakšna je sintaksa funkcije substring() v R?
substring() vrne del niza, ki je bil izvlečen, in sprejme naslednje parametre:
substring(x, first, last)Rx: Niz, iz katerega bo izvlečen podnizfirst: Začetni indeks (prvi znak) podniza, ki ga želite izvlečilast: Končni indeks (zadnji znak) podniza, ki ga želite izvleči
Poglejmo primer.
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: dataRV tem primeru izberemo podniz od indeksa 1 do indeksa 4 niza "data analysis" in ga shranimo v spremenljivko result. Izhod je "data".
Kakšne so praktične uporabe R-ja substring()?
Pri obdelavi podatkovnih nizov morate pogosto izbirati, spreminjati ali izločati določene dele nizov. Za to lahko uporabite funkcijo substring() v R na različne načine.
Izvlekanje znakov z substring()
Indekse lahko shranite v spremenljivke in jih nato vnesete kot argumente v substring().
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: ScienceRTa primer prikazuje, kaj počne substring(). Iz izvirnega niza "Data Science" je bil izbran podniz od položaja 6 do 12. Spremenljivki start_index smo opredelili kot začetni položaj in end_index kot končni položaj. Izhod prikazuje izvlečen podniz, v tem primeru "Science". Vrednost končnega indeksa 12 je vključujoča, kar pomeni, da je znak s položaja 12 vključen v podniz.
Manipuliranje nizov s funkcijo substring() v R
Najprej bomo ustvarili podatkovni okvir df, ki vsebuje ID-je, starosti in poklice. Nato bomo s funkcijo substring() vstavili presledek na drugo mesto vsakega niza v stolpcu ID.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)RV tem primeru substring() izvleče prvo števko vsakega števila (substring(df$ID, 1, 1) in preostanek številčne zaporedje, ki se začne na drugem mestu (substring(df$ID, 2)). Nato se med ti dve podvrstici vstavi presledek z uporabo R paste. Rezultat se prikaže v stolpcu ID podatkovnega okvira.
Izhod je naslednji:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 TeacherR