Volgens de In­ter­na­ti­o­na­le Te­le­com­mu­ni­ca­tie-Unie (ITU) maken meer dan drie miljard mensen gebruik van het we­reld­wij­de web, en steeds vaker in hun moe­der­taal. Deze ver­an­de­ring is deels te danken aan de in­tro­duc­tie van in­ter­na­ti­o­na­le do­mein­na­men in 2003. We leggen uit hoe IDN-domeinen werken.

Wat is een ge­ïn­ter­na­ti­o­na­li­seer­de do­mein­naam (IDN)?

De IETF (Internet En­gi­nee­ring Task Force) verwijst naar IDN’s als do­mein­na­men die speciale tekens bevatten die geen deel uitmaken van het Latijnse alfabet, zoals umlauten of tekens uit andere al­fa­bet­ten. Het Domain Name System (DNS), dat ver­ant­woor­de­lijk is voor het vertalen van URL’s naar IP-adressen, kan deze do­mein­na­men echter niet begrijpen. Het DNS is gebaseerd op de beperkte stan­daard­te­ken­set ASCII.

Om IDN’s be­grij­pe­lijk te maken voor zowel het DNS als andere in­ter­net­pro­to­col­len, werd in 2003 de in­ter­net­stan­daard In­ter­na­ti­o­na­li­sing Domain Names in Ap­pli­ca­ti­ons (IDNA) gecreëerd. Deze standaard de­fi­ni­eert een ge­stan­daar­di­seer­de vertaling van Unicode naar ASCII, waardoor het gebruik van niet-ASCII-tekens in do­mein­na­men mogelijk wordt.

Hoe werkt IDNA?

Een groot deel van de in­fra­struc­tuur van het internet wordt alleen on­der­steund door de ASCII-tekenset. Om ervoor te zorgen dat in­ter­na­ti­o­na­le do­mein­na­men kunnen worden verwerkt, wordt elke IDN die be­schik­baar is in Unicode vertaald naar een ACE-string, die is gebaseerd op ASCII. Ver­vol­gens worden URL’s met accenten of umlauten weer­ge­ge­ven. De server blijft de adressen echter als ASCII-com­pa­ti­bel verwerken. Deze procedure is vast­ge­legd in de in­ter­net­stan­daard IDNA2003 en in de her­zie­ning IDNA2008, die in 2010 is goed­ge­keurd. De vertaling van Unicode naar ASCII vindt plaats aan de kant van de client (in de browser, het e-mail­pro­gram­ma, enz.) en is gebaseerd op een ge­stan­daar­di­seerd co­de­rings­pro­ces dat Punycode wordt genoemd.

Punycode

De RFC 3492-ge­stan­daar­di­seer­de Punycode is ont­wik­keld om Unicode-te­ken­reek­sen duidelijk weer te geven als ASCII-symbolen zonder kwa­li­teits­ver­lies. Alle niet-ASCII-tekens worden uit de do­mein­naam ver­wij­derd, gecodeerd en ge­schei­den met een kop­pel­te­ken. Deze codereeks bevat in­for­ma­tie over het be­tref­fen­de Unicode-symbool en de positie ervan in de do­mein­naam. Bovendien wordt elke ACE-reeks die op deze manier wordt aan­ge­maakt, voorzien van het voor­voeg­sel xn–. Dit maakt voor de lezer duidelijk dat de te­ken­reeks een IDN is die is gecodeerd volgens de IDNA- en Punycode-normen. Zie ons artikel over Punycode voor een ge­de­tail­leer­de uitleg van het co­de­rings­pro­ces en enkele voor­beel­den.

Tip

Met een online IDN-do­mein­con­trol­ler kunt u IDN’s omzetten naar de bij­be­ho­ren­de ACE-strings met behulp van Punycode.

Ver­schil­len tussen IDNA2003 en IDNA2008

Voor de oor­spron­ke­lij­ke procedure uit 2003 werden ge­ïn­ter­na­ti­o­na­li­seer­de URL’s vóór de Punycode-codering ge­nor­ma­li­seerd met behulp van de nameprep-methode. Deze methode ver­an­der­de hoofd­let­ters in kleine letters, ver­wij­der­de con­tro­le­te­kens en zette ge­lijk­waar­di­ge tekens om in een uniforme vorm. Nameprep werd uit dit proces ver­wij­derd toen IDNA2008 werd ge­ïn­tro­du­ceerd. Nu spe­ci­fi­ceert IDNA geen nor­ma­li­sa­tie meer. In plaats daarvan wordt een algoritme aan­be­vo­len dat hoofd­let­ters omzet in kleine letters.

Deze aan­pas­sing komt ook tegemoet aan ge­brui­kers in het Duits­ta­li­ge gebied, aangezien het Unicode-teken ‘ß’, dat veel voorkomt in Duitsland, oor­spron­ke­lijk volgens IDNA2003 werd ge­de­fi­ni­eerd als het equi­va­lent van ‘ss’. Domeinen zoals www.fußball-ergebnisse.de werden dus au­to­ma­tisch ge­nor­ma­li­seerd naar www.fussball-ergebnisse.de in het nameprep-proces. Dit is niet langer het geval sinds IDNA2008 in beeld kwam. Sinds 2010 wordt de ‘ß’ correct ge­ïn­ter­pre­teerd als ‘Latijnse kleine letter scherpe s’ en kan deze worden ge­re­gi­streerd als onderdeel van een IDN-domein.

Bovendien worden ongeveer 8.000 tekens die onder IDNA2003 in do­mein­na­men mogelijk waren, onder IDNA2008 niet langer on­der­steund. Vier tekens, waaronder ‘ß’, worden sinds de her­zie­ning van de norm anders ge­ïn­ter­pre­teerd. Voor een ge­de­tail­leer­de be­spre­king van de ver­schil­len tussen IDNA2003 en IDNA2008, zie Unicode Technical Standard #46. De volgende tabel geeft een overzicht van de be­lang­rijk­ste ver­schil­len:

IDNA2003 IDNA2008
Nameprep-procedure vereist Geen nor­ma­li­sa­tie ge­spe­ci­fi­ceerd
Geldig voor Unicode 3.2 Geldig voor Unicode-versies vanaf 5.2
Strikte regels voor rechts-naar-links-let­ter­ty­pen Dui­de­lij­ke­re regels voor rechts-naar-links-let­ter­ty­pen
Hoofd­let­ters en kleine letters worden als af­zon­der­lij­ke tekens beschouwd Hoofd­let­ters worden omgezet in kleine letters
Veel symbolen zijn verboden, bij­voor­beeld grafische symbolen die niet tot een alfabet behoren, evenals sommige lees­te­kens
‘Remapping’ ver­wij­derd uit sommige Unicode-tekens, omdat dit tot on­re­gel­ma­tig­he­den zou kunnen leiden

Welke problemen zijn er met IDN’s?

Inmiddels zouden alle gangbare in­ter­net­pro­gram­ma’s IDN moeten kunnen begrijpen. Er doen zich echter soms problemen voor met ge­ïn­ter­na­ti­o­na­li­seer­de do­mein­na­men omdat de overstap van IDNA2003 naar IDNA2008 nog niet overal is door­ge­voerd. Een voorbeeld dat voor het Duits pro­ble­ma­tisch is, is de ver­schil­len­de in­ter­pre­ta­tie van ‘ß’. Aangezien IDNA2003 ‘ß’ verplicht omzet in ‘ss’, zijn speciale ß-domeinen die volgens IDNA2008 kunnen worden ge­re­gi­streerd, vaak niet vindbaar voor systemen die volgens de ver­ou­der­de standaard omzetten. In plaats daarvan worden ge­brui­kers door­ge­stuurd naar het over­een­kom­sti­ge domein met ‘ss’. Dit probleem kan worden omzeild door web­si­te­be­heer­ders die beide varianten re­gi­stre­ren en het tweede domein door middel van een do­mein­om­lei­ding door­ver­wij­zen naar de ge­pri­o­ri­teer­de spelling.

Ga naar hoofdmenu