R funkcija substring() yra naudinga ruošiant duomenis analizėms. Ji gali būti naudojama, pa­vyz­džiui, teks­ti­niams duomenims kon­ver­tuo­ti į geriau struk­tū­ri­zuo­tus formatus.

Kam naudojama R funkcija substring()?

R’s substring() yra įdiegta funkcija, kuri atrenka dalį esamos eilutės. Ji leidžia tiksliai apibrėžti pradžios ir pabaigos indeksus, kad ga­lė­tu­mė­te išskirti reikiamą eilutės dalį. Ši funkcija turi įvairių pa­nau­do­ji­mo būdų, nuo duomenų valymo iki konk­re­čios in­for­ma­ci­jos išgavimo iš ne­struk­tū­ruo­tų tekstinių duomenų. Pa­vyz­džiui, ją galite naudoti pašto kodams išgauti iš adresų arba datoms iš laiko žymų.

substring() yra lankstus si­tu­aci­jo­se, kai reikia tiksliai kont­ro­liuo­ti pa­si­rink­tų dalinių eilutės poziciją ir ilgį. Šis metodas dažnai nau­do­ja­mas duomenų analizei ir tekstinių duomenų pa­ruo­ši­mui tolesniam ap­do­ro­ji­mui.

Kokia yra substring() funkcijos sintaksė R kalboje?

substring() grąžina išgautą stygos dalį ir priima šiuos pa­ra­met­rus:

substring(x, first, last)
R
  • x: eilutė, iš kurios bus išgauta dalinė eilutė
  • first: Pradinis indeksas (pirmasis simbolis) dalinio žodžio, kurį norite išgauti
  • last: Galutinis indeksas (pas­ku­ti­nis simbolis) dalinės eilutės, kurią norite išgauti

Pa­žvel­ki­me į pavyzdį.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Šiame pavyzdyje pa­si­ren­ka­me eilutės "data analysis" dalį nuo 1 iki 4 indekso ir iš­sau­go­ja­me ją kin­ta­ma­ja­me result. Re­zul­ta­tas yra "data".

Kokie yra prak­ti­niai R substring() naudojimo pa­vyz­džiai?

Ap­do­ro­jant duomenų rinkinius, dažnai tenka atrinkti, keisti ar išgauti tam tikras eilutės dalis. Tam galima naudoti substring() funkciją R kalboje, kuri leidžia tai daryti įvairiais būdais.

Simbolių išgava su substring()

Indeksus galite išsaugoti kin­ta­muo­siuo­se ir tada įvesti juos kaip ar­gu­men­tus substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Šis pavyzdys parodo, ką daro substring(). Iš pradinio stygos "Data Science" buvo atrinkta dalinė stygos dalis nuo 6 iki 12 pozicijos. Kin­ta­mie­ji start_index buvo apibrėžti kaip pradinis taškas, o end_index – kaip galutinis taškas. Re­zul­ta­tas rodo išgautą dalinę stygos dalį, šiuo atveju "Science". Galutinio indekso vertė 12 yra įtrau­kia­ma, tai reiškia, kad simbolis iš 12 pozicijos yra įtrauktas į dalinę stygos dalį.

Stringų ma­ni­pu­lia­vi­mas naudojant substring() funkciją R kalboje

Pir­miau­sia sukursime duomenų rėmelį df, kuriame bus ID, amžius ir pro­fe­si­jos. Tada naudodami funkciją substring() įterpsime tarpą į antrąją kiek­vie­nos eilutės vietą ID stul­pe­ly­je.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Šiame pavyzdyje substring() išskiria kiekvieno skaičiaus pirmąjį skaitmenį (substring(df$ID, 1, 1) ir likusią skaičių seką, pradedant nuo antrosios pozicijos (substring(df$ID, 2)). Tada tarp šių dviejų dalinių eilutės įterpiama tarpas, naudojant R paste. Re­zul­ta­tas rodomas duomenų rėmo ID stul­pe­ly­je.

Re­zul­ta­tas atrodo taip:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Go to Main Menu