De functie substring() van R is handig voor het voor­be­rei­den van gegevens voor analyses. Deze functie kan bij­voor­beeld worden gebruikt om tekst­ge­ge­vens om te zetten naar beter ge­struc­tu­reer­de formaten.

Waarvoor wordt de functie substring() van R gebruikt?

R’s substring() is een in­ge­bouw­de functie die een deel van een bestaande te­ken­reeks se­lec­teert. Hiermee kunt u de begin- en eind­in­dexen nauw­keu­rig de­fi­ni­ë­ren, zodat u het gewenste deel van de te­ken­reeks kunt isoleren. De functie heeft ver­schil­len­de toe­pas­sin­gen, van het opschonen van gegevens tot het ex­tra­he­ren van spe­ci­fie­ke in­for­ma­tie uit on­ge­struc­tu­reer­de tekst­ge­ge­vens. U kunt deze functie bij­voor­beeld gebruiken om postcodes uit adressen of datums uit tijd­stem­pels te ex­tra­he­ren.

substring() is flexibel in situaties waarin een nauw­keu­ri­ge controle van de positie en lengte van ge­se­lec­teer­de sub­reek­sen vereist is. De methode wordt vaak gebruikt bij ge­ge­vens­ana­ly­ses en voor het voor­be­rei­den van tekst­ge­ge­vens voor verdere ver­wer­king.

Wat is de syntaxis van de functie substring() in R?

substring() re­tour­neert het gedeelte van de te­ken­reeks dat is ge­ëx­tra­heerd en neemt de volgende pa­ra­me­ters:

substring(x, first, last)
R
  • x: De te­ken­reeks waaruit de substring wordt ge­ëx­tra­heerd
  • first: De start­in­dex (het eerste teken) van de substring die u wilt ex­tra­he­ren
  • last: De eindindex (het laatste teken) van de substring die u wilt ex­tra­he­ren

Laten we eens naar een voorbeeld kijken.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

In dit voorbeeld se­lec­te­ren we een substring van index 1 tot index 4 van de string "data analysis" en slaan deze op in de variabele result. De uitvoer is "data".

Wat zijn enkele prak­ti­sche toe­pas­sin­gen van R’s substring()?

Bij het verwerken van datasets moet u vaak bepaalde delen van strings se­lec­te­ren, bewerken of ex­tra­he­ren. U kunt hiervoor de functie substring() in R gebruiken, die ver­schil­len­de mo­ge­lijk­he­den biedt.

Tekens ex­tra­he­ren met substring()

U kunt indices opslaan in va­ri­a­be­len en deze ver­vol­gens invoeren als ar­gu­men­ten in substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Dit voorbeeld laat zien wat substring() doet. Een substring van positie 6 tot 12 werd ge­se­lec­teerd uit de oor­spron­ke­lij­ke string "Data Science". We hebben de va­ri­a­be­len start_index als startpunt en end_index als eindpunt ge­de­fi­ni­eerd. De uitvoer toont de ge­ëx­tra­heer­de substring, in dit geval "Science". De waarde van de eindindex 12 is inclusief, wat betekent dat het teken vanaf positie 12 is opgenomen in de substring.

Strings ma­ni­pu­le­ren met de functie substring() in R

Eerst maken we een dataframe df met ID’s, leef­tij­den en beroepen. Ver­vol­gens gebruiken we de functie substring() om een spatie in te voegen op de tweede positie van elke te­ken­reeks in de kolom ID.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

In dit voorbeeld haalt substring() het eerste cijfer van elk getal (substring(df$ID, 1, 1) en de rest van de ge­tal­len­reeks vanaf de tweede positie (substring(df$ID, 2)) eruit. Ver­vol­gens wordt met R paste een spatie tussen deze twee sub­reek­sen ingevoegd. Het resultaat ver­schijnt in de kolom ID van het ge­ge­vens­fra­me.

De uitvoer ziet er als volgt uit:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Ga naar hoofdmenu