R-i funkt­sioon substring() on abiks andmete ana­lüü­si­miseks et­te­val­mis­ta­misel. Seda saab kasutada näiteks teks­ti­and­mete paremini struk­tu­ree­ri­tud vor­min­gu­tesse tei­sen­da­miseks.

Milleks ka­su­ta­takse R-i funkt­siooni substring()?

R-i substring() on sis­se­ehi­ta­tud funkt­sioon, mis valib ole­mas­oleva stringi osa. See võimaldab täpselt mää­rat­leda algus- ja lõpp­indeksid, et saaksite eraldada vajaliku stringi osa. Funkt­sioo­nil on mit­me­su­gu­seid ka­su­tus­või­ma­lusi, alates andmete pu­has­ta­mi­sest kuni struk­tu­ree­ri­mata teks­ti­and­me­test konk­reetse teabe väl­ja­võt­mis­eni. Seda saab kasutada näiteks pos­ti­koo­dide väl­ja­võt­miseks aad­res­si­dest või kuu­päe­vade väl­ja­võt­miseks aja­mär­ge­test.

substring() on paindlik olu­kor­da­des, mis nõuavad valitud ala­jao­tuste asukoha ja pikkuse täpset kontrolli. Seda meetodit ka­su­ta­takse sageli andmete ana­lüü­si­misel ja teks­ti­and­mete edasiseks tööt­le­miseks et­te­val­mis­ta­misel.

Mis on R-keeles funkt­siooni substring() süntaks?

substring() tagastab stringist väl­ja­võe­tud osa ja võtab vastu järgmised pa­ra­meet­rid:

substring(x, first, last)
R
  • x: String, millest alamst­ring välja võetakse
  • first: Ala­jao­tuse al­gu­s­in­deks (esimene täht), mida soovite eraldada
  • last: väl­ja­võe­tava alamst­ringi lõpp­indeks (viimane märk)

Vaatame ühte näidet.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Selles näites valime stringist "data analysis" alamst­ringi indeksist 1 kuni indeksini 4 ja sal­ves­tame selle muu­tu­jasse result. Väl­jun­diks on "data".

Millised on R substring() prak­ti­li­sed ka­su­tus­või­ma­lu­sed?

And­me­ko­gu­mite tööt­le­misel tuleb sageli valida, muuta või eraldada teatud osad strin­gi­dest. Selleks saab R-is kasutada substring() funkt­siooni, mis võimaldab seda teha eri­ne­va­tel viisidel.

Tähtede väl­ja­võt­mine substring()-ga

Võite sal­ves­tada indeksid muu­tu­ja­tesse ja sisestada need seejärel ar­gu­men­ti­dena substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

See näide näitab, mida teeb substring(). Algse stringi "Data Science" alates po­sit­sioo­nist 6 kuni 12 valiti välja alamst­ring. Mää­rat­lesime muutujad start_index al­gus­punk­tina ja end_index lõpp-punktina. Väljund näitab väl­ja­võe­tud alamst­ringi, antud juhul "Science". Lõpp­indeksi väärtus 12 on kaasa arvatud, mis tähendab, et po­sit­siooni 12 märk on alamst­rin­gis kaasas.

Stringide ma­ni­pu­lee­ri­mine R-i funkt­sioo­niga substring()

Esmalt loome and­mes­tiku df, mis sisaldab ID-sid, vanuseid ja ameteid. Seejärel kasutame funkt­siooni substring(), et lisada ID-veeru iga stringi teisele po­sit­sioo­nile tühik.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Selles näites võtab substring() välja iga numbri esimese numbri (substring(df$ID, 1, 1) ja ülejäänud numbrite jada alates teisest po­sit­sioo­nist (substring(df$ID, 2)). Seejärel lisatakse nende kahe alamst­ringi vahele tühik, kasutades R paste. Tulemus kuvatakse and­me­raami ID veerus.

Väljund näeb välja järgmine:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Go to Main Menu