Funkcija R’s substring() je koristna za pripravo podatkov za analize. Uporabite jo lahko na primer za pretvorbo be­se­dil­nih podatkov v bolje struk­tu­ri­ra­ne oblike.

Za kaj se uporablja funkcija R substring()?

R’s substring() je vgrajena funkcija, ki izbere del ob­sto­je­če­ga niza. Omogoča natančno opre­de­li­tev začetnega in končnega indeksa, tako da lahko izolirate del niza, ki ga po­tre­bu­je­te. Funkcija ima različne uporabe, od čiščenja podatkov do iz­pi­so­va­nja določenih in­for­ma­cij iz ne­struk­tu­ri­ra­nih te­ks­tov­nih podatkov. Uporabite jo lahko na primer za iz­pi­so­va­nje poštnih številk iz naslovov ali datumov iz časovnih žigov.

substring() je pri­la­go­dljiv v si­tu­a­ci­jah, ki zahtevajo natančen nadzor nad položajem in dolžino izbranih podnizov. Metoda se pogosto uporablja v analizah podatkov in za pripravo be­se­dil­nih podatkov za nadaljnjo obdelavo.

Kakšna je sintaksa funkcije substring() v R?

substring() vrne del niza, ki je bil izvlečen, in sprejme naslednje parametre:

substring(x, first, last)
R
  • x: Niz, iz katerega bo izvlečen podniz
  • first: Začetni indeks (prvi znak) podniza, ki ga želite izvleči
  • last: Končni indeks (zadnji znak) podniza, ki ga želite izvleči

Poglejmo primer.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

V tem primeru izberemo podniz od indeksa 1 do indeksa 4 niza "data analysis" in ga shranimo v spre­men­ljiv­ko result. Izhod je "data".

Kakšne so praktične uporabe R-ja substring()?

Pri obdelavi po­dat­kov­nih nizov morate pogosto izbirati, spre­mi­nja­ti ali izločati določene dele nizov. Za to lahko uporabite funkcijo substring() v R na različne načine.

Iz­vle­ka­nje znakov z substring()

Indekse lahko shranite v spre­men­ljiv­ke in jih nato vnesete kot argumente v substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Ta primer prikazuje, kaj počne substring(). Iz izvirnega niza "Data Science" je bil izbran podniz od položaja 6 do 12. Spre­men­ljiv­ki start_index smo opre­de­li­li kot začetni položaj in end_index kot končni položaj. Izhod prikazuje izvlečen podniz, v tem primeru "Science". Vrednost končnega indeksa 12 je vklju­ču­jo­ča, kar pomeni, da je znak s položaja 12 vključen v podniz.

Ma­ni­pu­li­ra­nje nizov s funkcijo substring() v R

Najprej bomo ustvarili po­dat­kov­ni okvir df, ki vsebuje ID-je, starosti in poklice. Nato bomo s funkcijo substring() vstavili presledek na drugo mesto vsakega niza v stolpcu ID.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

V tem primeru substring() izvleče prvo števko vsakega števila (substring(df$ID, 1, 1) in pre­o­sta­nek številčne zaporedje, ki se začne na drugem mestu (substring(df$ID, 2)). Nato se med ti dve pod­vr­sti­ci vstavi presledek z uporabo R paste. Rezultat se prikaže v stolpcu ID po­dat­kov­ne­ga okvira.

Izhod je naslednji:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Go to Main Menu