R funkcija substring() ir noderīga, lai sa­ga­ta­vo­tu datus analīzei. To var izmantot, piemēram, lai pārvērstu teksta datus labāk struk­tu­rē­tos formātos.

Kādam nolūkam tiek izmantota R funkcija substring()?

R’s substring() ir iebūvēta funkcija, kas atlasa daļu no esošas virknes. Tā ļauj precīzi definēt sākuma un beigu indeksus, lai jūs varētu izdalīt ne­pie­cie­ša­mo virknes daļu. Funkcijai ir dažādi lietojumi, sākot no datu tīrīšanas līdz konkrētas in­for­mā­ci­jas izgūšanai no ne­struk­tu­rē­tiem teksta datiem. Jūs to varat izmantot, piemēram, lai izgūtu pasta indeksus no adresēm vai datumus no laika zīmogiem.

substring() ir elastīga si­tuā­ci­jās, kas prasa precīzu izvēlēto ap­akš­virkņu pozīcijas un garuma kontroli. Šī metode bieži tiek izmantota datu analīzē un teksta datu sa­ga­ta­vo­ša­nā turpmākai apstrādei.

Kāda ir substring() funkcijas sintakse R?

substring() atgriež izvilkto teksta daļu un pieņem šādus pa­ra­met­rus:

substring(x, first, last)
R
  • x: virkne, no kuras tiks izgriezta ap­akš­virkne
  • first: Iz­gūs­ta­mās ap­akš­virknes sākuma indekss (pirmais rakstzīme)
  • last: Iz­gūs­ta­mās ap­akš­virknes beigu indekss (pēdējais rakstzīme)

Pa­ska­tī­si­mies uz piemēru.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Šajā piemērā mēs iz­vē­la­mies ap­akš­vir­kni no indeksa 1 līdz indeksam 4 no virknes "data analysis" un sa­gla­bā­jam to mainīgajā result. Rezultāts ir "data".

Kādi ir prak­tis­kie R substring() iz­man­to­ša­nas veidi?

Ap­strā­dā­jot datu kopas, bieži vien ir jāizvēlas, jā­ma­ni­pu­lē vai jāizgūst noteiktas teksta daļas. Lai to izdarītu dažādos veidos, var izmantot R funkciju substring().

Rakstzīm­ju izgūšana ar substring()

Jūs varat saglabāt indeksus mai­nī­ga­jos un pēc tam ievadīt tos kā ar­gu­men­tus substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Šis piemērs parāda, ko dara substring(). No sā­kot­nē­jās virknes "Data Science" tika izvēlēta ap­akš­virkne no pozīcijas 6 līdz 12. Mēs definējām mainīgos start_index kā sākuma punktu un end_index kā beigu punktu. Izvade parāda izvilkto ap­akš­vir­kni, šajā gadījumā "Science". Beigu indeksa vērtība 12 ir ie­skai­tī­ta, kas nozīmē, ka rakstzīme no pozīcijas 12 ir iekļauta ap­akš­vir­knē.

Stingu ma­ni­pu­lē­ša­na ar funkciju substring() programmā R

Vispirms iz­vei­do­sim datu rāmi df, kas satur iden­ti­fi­kā­ci­jas numurus, vecumu un pro­fe­si­jas. Tad iz­man­to­sim funkciju substring(), lai ievietotu atstarpi katras iden­ti­fi­kā­ci­jas numura kolonā esošās virknes otrajā pozīcijā.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Šajā piemērā substring() izgūst katra skaitļa pirmo ciparu (substring(df$ID, 1, 1) un pārējo skaitļu secību, sākot no otrās pozīcijas (substring(df$ID, 2)). Pēc tam starp šīm divām ap­akš­vir­knēm tiek ievietota atstarpe, iz­man­to­jot R paste. Rezultāts parādās datu rāmja ID ailē.

Rezultāts izskatās šādi:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Go to Main Menu