Kas yra substring() funkcija R kalboje?
R funkcija substring() yra naudinga ruošiant duomenis analizėms. Ji gali būti naudojama, pavyzdžiui, tekstiniams duomenims konvertuoti į geriau struktūrizuotus formatus.
Kam naudojama R funkcija substring()?
R’s substring() yra įdiegta funkcija, kuri atrenka dalį esamos eilutės. Ji leidžia tiksliai apibrėžti pradžios ir pabaigos indeksus, kad galėtumėte išskirti reikiamą eilutės dalį. Ši funkcija turi įvairių panaudojimo būdų, nuo duomenų valymo iki konkrečios informacijos išgavimo iš nestruktūruotų tekstinių duomenų. Pavyzdžiui, ją galite naudoti pašto kodams išgauti iš adresų arba datoms iš laiko žymų.
substring() yra lankstus situacijose, kai reikia tiksliai kontroliuoti pasirinktų dalinių eilutės poziciją ir ilgį. Šis metodas dažnai naudojamas duomenų analizei ir tekstinių duomenų paruošimui tolesniam apdorojimui.
Kokia yra substring() funkcijos sintaksė R kalboje?
substring() grąžina išgautą stygos dalį ir priima šiuos parametrus:
substring(x, first, last)Rx: eilutė, iš kurios bus išgauta dalinė eilutėfirst: Pradinis indeksas (pirmasis simbolis) dalinio žodžio, kurį norite išgautilast: Galutinis indeksas (paskutinis simbolis) dalinės eilutės, kurią norite išgauti
Pažvelkime į pavyzdį.
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: dataRŠiame pavyzdyje pasirenkame eilutės "data analysis" dalį nuo 1 iki 4 indekso ir išsaugojame ją kintamajame result. Rezultatas yra "data".
Kokie yra praktiniai R substring() naudojimo pavyzdžiai?
Apdorojant duomenų rinkinius, dažnai tenka atrinkti, keisti ar išgauti tam tikras eilutės dalis. Tam galima naudoti substring() funkciją R kalboje, kuri leidžia tai daryti įvairiais būdais.
Simbolių išgava su substring()
Indeksus galite išsaugoti kintamuosiuose ir tada įvesti juos kaip argumentus substring().
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: ScienceRŠis pavyzdys parodo, ką daro substring(). Iš pradinio stygos "Data Science" buvo atrinkta dalinė stygos dalis nuo 6 iki 12 pozicijos. Kintamieji start_index buvo apibrėžti kaip pradinis taškas, o end_index – kaip galutinis taškas. Rezultatas rodo išgautą dalinę stygos dalį, šiuo atveju "Science". Galutinio indekso vertė 12 yra įtraukiama, tai reiškia, kad simbolis iš 12 pozicijos yra įtrauktas į dalinę stygos dalį.
Stringų manipuliavimas naudojant substring() funkciją R kalboje
Pirmiausia sukursime duomenų rėmelį df, kuriame bus ID, amžius ir profesijos. Tada naudodami funkciją substring() įterpsime tarpą į antrąją kiekvienos eilutės vietą ID stulpelyje.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)RŠiame pavyzdyje substring() išskiria kiekvieno skaičiaus pirmąjį skaitmenį (substring(df$ID, 1, 1) ir likusią skaičių seką, pradedant nuo antrosios pozicijos (substring(df$ID, 2)). Tada tarp šių dviejų dalinių eilutės įterpiama tarpas, naudojant R paste. Rezultatas rodomas duomenų rėmo ID stulpelyje.
Rezultatas atrodo taip:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 TeacherR