Rah­vus­va­he­lise Te­le­kom­mu­ni­kat­sioo­ni­liidu (ITU) andmetel kasutab veebi üle kolme miljardi inimese, kes teevad seda üha enam oma emakeeles. Selle muutuse tingis osaliselt rah­vus­va­he­liste do­mee­nini­mede ka­su­tuse­le­võtt 2003. aastal. Selgitame, kuidas IDN-domeenid toimivad.

Mis on rah­vus­va­he­line do­mee­ni­nimi (IDN)?

IETF (Internet En­gi­nee­ring Task Force) määratleb IDN-id kui do­mee­nini­me­sid, mis si­sal­da­vad ladina tä­hes­tikku mit­te­kuu­lu­vaid erimärke, näiteks üla­kriipse või muude tähestike märke. Kuid do­mee­nini­mede süsteem (DNS), mille üles­an­deks on URL-ide tõlkimine IP-aad­res­si­deks, ei suuda neid do­mee­nini­me­sid lugeda. DNS põhineb piiratud stan­dard­mär­gis­ti­kul ASCII.

Selleks et muuta IDN-id aru­saa­da­vaks nii DNS-ile kui ka teistele in­ter­ne­ti­pro­to­kol­li­dele, loodi 2003. aastal in­ter­ne­t­i­stan­dard „In­ter­na­tio­na­li­sing Domain Names in App­lica­tions“ (IDNA). See määratleb stan­dar­di­see­ri­tud tei­sen­duse Unicode’ist ASCII-sse, või­mal­da­des seeläbi kasutada do­mee­nini­me­des mitte-ASCII-märkide ka­su­ta­mist.

Kuidas IDNA töötab?

Suur osa interneti inf­ra­struk­tuu­rist toetab ainult ASCII-mär­gis­tikku. Selleks et tagada rah­vus­va­he­liste do­mee­nini­mede tööt­le­mine, tõl­gi­takse iga Unicode’is kät­te­saa­dav IDN ASCII-põhiseks ACE-stringiks. Selle tulemusel kuvatakse URL-aadressid, mis si­sal­da­vad täpitähti või üla­kriip­suga tähti. Server aga töötleb aadresse jätkuvalt ASCII-ga ühil­du­vana. See prot­se­duur on mää­rat­le­tud in­ter­ne­t­i­stan­dar­dis IDNA2003 ja selle 2010. aastal heaks kiidetud ver­sioo­nis IDNA2008. Tõlkimine Unicode’ist ASCII-sse toimub kliendi poolel (brauseris, e-posti prog­ram­mis jne) ja põhineb stan­dar­di­see­ri­tud ko­dee­ri­mis­prot­ses­sil nimega Punycode.

Punycode

RFC 3492 stan­dar­diga hõlmatud Punycode töötati välja selleks, et kuvada Unicode-mär­gi­ja­da­sid selgelt ASCII-märkidena ilma kva­li­tee­di­kao­tu­seta. Kõik mitte-ASCII-märgid eemal­da­takse do­mee­nini­mest, ko­dee­ri­takse ja eral­da­takse si­de­kriip­suga. See koodijada sisaldab teavet asjaomase Unicode-märgi kohta ning selle asukoha kohta do­mee­nini­mes. Lisaks on igale sel viisil loodud ACE-jär­jen­dile lisatud eesliide xn–. See selgitab lugejale, et tä­he­mär­kide jada on IDN, mis on ko­dee­ri­tud vastavalt IDNA- ja Punycode-stan­dar­di­tele. Ko­dee­ri­mis­prot­sessi ük­sik­as­ja­liku selgituse ja mõned näited leiate meie artiklist Punycode kohta.

Tip

Vee­bi­põ­hise IDN-do­mee­ni­kon­ver­teri abil saate Punycode’i abil tei­sen­dada IDN-domeenid vas­ta­va­teks ACE-strin­gi­deks.

IDNA2003 ja IDNA2008 eri­ne­vu­sed

2003. aasta algses me­net­luses nor­ma­li­see­riti rah­vus­va­he­li­sed URL-id enne Punycode-ko­dee­ri­mist nimetuse et­te­val­mis­ta­mise (nameprep) meetodi abil. See meetod muutis suurtähed väi­ke­täh­te­deks, eemaldas juht­mär­gid ja viis sa­ma­väär­sed märgid ühtsesse vormi. Nimetuse et­te­val­mis­ta­mine jäeti sellest prot­sessist välja, kui võeti ka­su­tusele IDNA2008. Nüüd ei näe IDNA ette mingit nor­ma­li­see­ri­mist. Selle asemel soovitab see algoritmi, mis teisendab suurtähed väi­ke­täh­te­deks.

See muudatus võtab arvesse ka sak­sa­keel­sete piir­kon­dade ka­su­ta­jaid, kuna Saksamaal levinud Unicode-märk „ß“ oli IDNA2003 standardi kohaselt algselt mää­rat­le­tud kui „ss“ ek­vi­va­lent. Seetõttu nor­ma­li­see­riti domeenid, nagu näiteks www.fußball-ergebnisse.de, nime et­te­val­mis­ta­mise prot­ses­sis au­to­maat­selt numbriks www.fussball-ergebnisse.de. IDNA2008 ka­su­tuse­le­võ­tuga ei ole see enam nii. Alates 2010. aastast tõl­gen­da­takse „ß” õigesti kui „ladina väiketähe terav s” ja seda saab re­gist­ree­rida osana IDN-domeenist.

Lisaks sellele ei toeta IDNA2008 enam umbes 8000 märki, mida IDNA2003 raames do­mee­nini­me­des kasutada sai. Nelja märki, seal­hul­gas „ß”, tõl­gen­da­takse standardi uuen­da­mise järel teisiti. IDNA2003 ja IDNA2008 vaheliste eri­ne­vuste ük­sik­as­ja­liku ülevaate leiate Unicode’i teh­ni­li­sest stan­dar­dist nr 46. Järgmises tabelis on esitatud peamiste eri­ne­vuste kokkuvõte:

IDNA2003 IDNA2008
Nõutav Nameprep-prot­se­duur Nor­ma­li­see­ri­mist ei ole määratud
Kehtib Unicode 3.2 puhul Kehtib Unicode ver­sioo­ni­dele alates 5.2
Ranged reeglid paremalt vasakule kir­ju­ta­vate fontide jaoks Selgemad reeglid paremalt vasakule kir­ju­ta­vate fontide jaoks
Suurtähti ja väi­ke­tähti kä­sit­le­takse eraldi märkidena Suurtähed tei­sen­da­takse väi­ke­täh­te­deks
Paljud sümbolid on keelatud, nt graa­fi­li­sed sümbolid, mis ei kuulu ühegi tähestiku alla, samuti mõned kir­ja­va­he­mär­gid
Mõnedelt Unicode-märkidelt on eemal­da­tud „üm­ber­kaar­dis­ta­mine”, kuna see võib põh­jus­tada eba­re­gu­laar­susi

Millised prob­lee­mid on seotud IDN-idega?

Prae­gu­seks peaksid kõik levinumad in­ter­ne­ti­prog­ram­mid IDN-i toetama. Siiski tekivad rah­vus­va­he­liste do­mee­nini­mede puhul mõnikord prob­lee­mid, kuna üle­mi­ne­kut stan­dar­dilt IDNA2003 stan­dar­dile IDNA2008 ei ole veel jär­je­kind­lalt ra­ken­da­tud. Üks saksa keele jaoks prob­leemne näide on tähe „ß” erinev tõl­gen­da­mine. Kuna IDNA2003 teisendab „ß” ko­hus­tus­li­kult „ss”-iks, ei ole IDNA2008 järgi re­gist­ree­ri­ta­vad spet­siaal­sed ß-domeenid sageli leitavad süs­teemi­des, mis tei­sen­da­vad vananenud standardi järgi. Selle asemel suu­na­takse kasutajad vastavale domeenile, mis sisaldab „ss”-i. Seda probleemi saab vältida, kui vee­bi­saidi haldajad re­gist­ree­rivad mõlemad variandid ja suunavad teise domeeni domeeni üm­ber­suu­na­mise abil eelis­ta­tud kir­ja­pil­dile.

Go to Main Menu