Po podatkih Med­na­ro­dne te­le­ko­mu­ni­ka­cij­ske zveze (ITU) svetovni splet uporablja več kot tri milijarde ljudi, ki ga vse pogosteje upo­ra­blja­jo v svojem maternem jeziku. To spremembo je deloma pov­zro­či­la uvedba med­na­ro­dnih domenskih imen leta 2003. Razložili vam bomo, kako delujejo domene IDN.

Kaj je in­ter­na­ci­o­na­li­zi­ra­no domensko ime (IDN)?

IETF (Internet En­gi­ne­e­ring Task Force) opre­de­lju­je IDN-je kot domenska imena, ki vsebujejo posebne znake, ki niso del latinske abecede, kot so preglasi ali znaki iz drugih abeced. Vendar sistem domenskih imen (DNS), ki je odgovoren za pre­va­ja­nje URL-jev v IP-naslove, teh domenskih imen ne razume. DNS temelji na omejenem stan­dar­dnem naboru znakov ASCII.

Da bi bila imena domene z med­na­ro­dni­mi znaki (IDN) ra­zu­mlji­va za sistem DNS in druge in­ter­ne­tne protokole, je bil leta 2003 sprejet in­ter­ne­tni standard »In­ter­na­ti­o­na­li­sing Domain Names in Appli­ca­ti­ons« (IDNA). Ta standard opre­de­lju­je stan­dar­di­zi­ra­no pretvorbo iz Unicode v ASCII, s čimer omogoča uporabo znakov, ki niso v ASCII, v imenih domen.

Kako deluje IDNA?

Večina in­ter­ne­tne in­fra­struk­tu­re podpira le znakovno kodiranje ASCII. Da bi za­go­to­vi­li obdelavo med­na­ro­dnih domenskih imen, se vsako IDN, ki je na voljo v Unicode, prevede v niz ACE, ki temelji na ASCII. Na ta način se prikažejo URL-ji z znaki z na­gla­sni­mi znaki ali preglasi. Strežnik pa naslove še naprej obdeluje kot zdru­žlji­ve z ASCII. Ta postopek je določen v in­ter­ne­tnem standardu IDNA2003 in v reviziji IDNA2008, ki je bila odobrena leta 2010. Pre­va­ja­nje iz Unicode v ASCII poteka na strani odjemalca (v br­skal­ni­ku, programu za e-pošto itd.) in temelji na stan­dar­di­zi­ra­nem postopku kodiranja, ime­no­va­nem Punycode.

Punycode

Punycode, stan­dar­di­zi­ran v RFC 3492, je bil razvit za jasno pri­ka­zo­va­nje nizov znakov Unicode kot ASCII-znakov brez izgube kakovosti. Vsi ne-ASCII-znaki se iz do­men­ske­ga imena od­stra­ni­jo, kodirajo in ločijo s po­mi­šlja­jem. Ta kodna zaporedja vsebujejo in­for­ma­ci­je o zadevnem Unicode-znaku ter njegovem položaju v domenskem imenu. Poleg tega je vsak na ta način ustvarjen niz ACE označen s predpono xn–. To bralcu pojasni, da je zaporedje znakov IDN, ki je bilo kodirano v skladu s stan­dar­do­ma IDNA in Punycode. Podrobno razlago postopka kodiranja ter nekaj primerov najdete v našem članku o Punycode.

Tip

S spletnim pre­tvor­ni­kom IDN-domenskih imen lahko IDN-domenska imena pre­tvo­ri­te v ustrezne nize ACE s pomočjo Punycode.

Razlike med IDNA2003 in IDNA2008

V prvotnem postopku iz leta 2003 so bili in­ter­na­ci­o­na­li­zi­ra­ni URL-ji pred ko­di­ra­njem v Punycode nor­ma­li­zi­ra­ni z metodo nameprep. Ta metoda je velike črke spre­me­ni­la v male, od­stra­ni­la kontrolne znake in ena­ko­vre­dne znake pre­tvo­ri­la v enotno obliko. Nameprep je bil iz tega postopka od­stra­njen ob uvedbi standarda IDNA2008. Danes IDNA ne pred­pi­su­je nobene nor­ma­li­za­ci­je. Namesto tega priporoča algoritem, ki velike črke pretvori v male.

Ta pri­la­go­di­tev upošteva tudi potrebe upo­rab­ni­kov v nemško govorečem svetu, saj je bil Unicode-znak »ß«, ki je v Nemčiji pogost, v skladu s stan­dar­dom IDNA2003 prvotno opre­de­ljen kot ek­vi­va­lent znaka »ss«. Domene, kot je na primer www.fußball-ergebnisse.de, so bile zato v postopku nameprep samodejno nor­ma­li­zi­ra­ne v www.fussball-ergebnisse.de. Od uvedbe standarda IDNA2008 to ni več tako. Od leta 2010 se znak „ß“ pravilno razlaga kot „latinska mala črka s s ostrim nad­čr­kov­jem“ in se lahko re­gi­stri­ra kot del domene IDN.

Poleg tega okoli 8.000 znakov, ki so bili dovoljeni v domenskih imenih po standardu IDNA2003, po standardu IDNA2008 ni več podprtih. Štiri znake, med njimi tudi »ß«, se od revizije standarda razlagajo drugače. Po­drob­nej­ša obravnava razlik med stan­dar­do­ma IDNA2003 in IDNA2008 je na voljo v tehničnem standardu Unicode št. 46. V spodnji tabeli je povzetek glavnih razlik:

IDNA2003 IDNA2008
Potreben postopek Nameprep Nor­ma­li­za­ci­ja ni določena
Velja za Unicode 3.2 Velja za različice Unicode od 5.2 naprej
Stroga pravila za pisave, ki se pišejo od desne proti levi Jasnejša pravila za pisave, ki se pišejo od desne proti levi
Velike in male črke se obrav­na­va­jo kot ločeni znaki Velike črke se pre­tvo­ri­jo v male črke
Mnogi simboli so pre­po­ve­da­ni, npr. grafični simboli, ki ne pripadajo nobeni abecedi, ter nekateri ločilni znaki
„Remapping“ je bil od­stra­njen iz nekaterih Unicode znakov, saj bi to lahko pov­zro­či­lo ne­pra­vil­no­sti

Kakšne težave obstajajo pri IDN-jih?

Danes bi morali vsi običajni in­ter­ne­tni programi podpirati IDN. Vendar pa se včasih pojavijo težave z in­ter­na­ci­o­na­li­zi­ra­ni­mi do­men­ski­mi imeni, ker prehod z IDNA2003 na IDNA2008 še ni bil dosledno izveden. Primer, ki povzroča težave v nemščini, je različna in­ter­pre­ta­ci­ja znaka »ß«. Ker IDNA2003 obvezno pretvori znak »ß« v »ss«, posebne domene z znakom »ß«, ki jih je mogoče re­gi­stri­ra­ti v skladu z IDNA2008, pogosto niso vidne za sisteme, ki pre­tvar­ja­jo v skladu z za­sta­re­lim stan­dar­dom. Namesto tega so upo­rab­ni­ki pre­u­smer­je­ni na ustrezno domeno, ki vsebuje »ss«. To težavo lahko spletni upra­vi­te­lji obidejo tako, da re­gi­stri­ra­jo obe različici in drugo domeno pre­u­sme­ri­jo na pred­no­stno pisavo z uporabo pre­u­sme­ri­tve domene.

Go to Main Menu