Wat is de functie substring() in R?
De functie substring() van R is handig voor het voorbereiden van gegevens voor analyses. Deze functie kan bijvoorbeeld worden gebruikt om tekstgegevens om te zetten naar beter gestructureerde formaten.
Waarvoor wordt de functie substring() van R gebruikt?
R’s substring() is een ingebouwde functie die een deel van een bestaande tekenreeks selecteert. Hiermee kunt u de begin- en eindindexen nauwkeurig definiëren, zodat u het gewenste deel van de tekenreeks kunt isoleren. De functie heeft verschillende toepassingen, van het opschonen van gegevens tot het extraheren van specifieke informatie uit ongestructureerde tekstgegevens. U kunt deze functie bijvoorbeeld gebruiken om postcodes uit adressen of datums uit tijdstempels te extraheren.
substring() is flexibel in situaties waarin een nauwkeurige controle van de positie en lengte van geselecteerde subreeksen vereist is. De methode wordt vaak gebruikt bij gegevensanalyses en voor het voorbereiden van tekstgegevens voor verdere verwerking.
Wat is de syntaxis van de functie substring() in R?
substring() retourneert het gedeelte van de tekenreeks dat is geëxtraheerd en neemt de volgende parameters:
substring(x, first, last)Rx: De tekenreeks waaruit de substring wordt geëxtraheerdfirst: De startindex (het eerste teken) van de substring die u wilt extraherenlast: De eindindex (het laatste teken) van de substring die u wilt extraheren
Laten we eens naar een voorbeeld kijken.
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: dataRIn dit voorbeeld selecteren we een substring van index 1 tot index 4 van de string "data analysis" en slaan deze op in de variabele result. De uitvoer is "data".
Wat zijn enkele praktische toepassingen van R’s substring()?
Bij het verwerken van datasets moet u vaak bepaalde delen van strings selecteren, bewerken of extraheren. U kunt hiervoor de functie substring() in R gebruiken, die verschillende mogelijkheden biedt.
Tekens extraheren met substring()
U kunt indices opslaan in variabelen en deze vervolgens invoeren als argumenten in substring().
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: ScienceRDit voorbeeld laat zien wat substring() doet. Een substring van positie 6 tot 12 werd geselecteerd uit de oorspronkelijke string "Data Science". We hebben de variabelen start_index als startpunt en end_index als eindpunt gedefinieerd. De uitvoer toont de geëxtraheerde substring, in dit geval "Science". De waarde van de eindindex 12 is inclusief, wat betekent dat het teken vanaf positie 12 is opgenomen in de substring.
Strings manipuleren met de functie substring() in R
Eerst maken we een dataframe df met ID’s, leeftijden en beroepen. Vervolgens gebruiken we de functie substring() om een spatie in te voegen op de tweede positie van elke tekenreeks in de kolom ID.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)RIn dit voorbeeld haalt substring() het eerste cijfer van elk getal (substring(df$ID, 1, 1) en de rest van de getallenreeks vanaf de tweede positie (substring(df$ID, 2)) eruit. Vervolgens wordt met R paste een spatie tussen deze twee subreeksen ingevoegd. Het resultaat verschijnt in de kolom ID van het gegevensframe.
De uitvoer ziet er als volgt uit:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 TeacherR