Mis on rahvusvaheline domeeninimi (IDN)?
Rahvusvahelise Telekommunikatsiooniliidu (ITU) andmetel kasutab veebi üle kolme miljardi inimese, kes teevad seda üha enam oma emakeeles. Selle muutuse tingis osaliselt rahvusvaheliste domeeninimede kasutuselevõtt 2003. aastal. Selgitame, kuidas IDN-domeenid toimivad.
Mis on rahvusvaheline domeeninimi (IDN)?
IETF (Internet Engineering Task Force) määratleb IDN-id kui domeeninimesid, mis sisaldavad ladina tähestikku mittekuuluvaid erimärke, näiteks ülakriipse või muude tähestike märke. Kuid domeeninimede süsteem (DNS), mille ülesandeks on URL-ide tõlkimine IP-aadressideks, ei suuda neid domeeninimesid lugeda. DNS põhineb piiratud standardmärgistikul ASCII.
Selleks et muuta IDN-id arusaadavaks nii DNS-ile kui ka teistele internetiprotokollidele, loodi 2003. aastal internetistandard „Internationalising Domain Names in Applications“ (IDNA). See määratleb standardiseeritud teisenduse Unicode’ist ASCII-sse, võimaldades seeläbi kasutada domeeninimedes mitte-ASCII-märkide kasutamist.
Kuidas IDNA töötab?
Suur osa interneti infrastruktuurist toetab ainult ASCII-märgistikku. Selleks et tagada rahvusvaheliste domeeninimede töötlemine, tõlgitakse iga Unicode’is kättesaadav IDN ASCII-põhiseks ACE-stringiks. Selle tulemusel kuvatakse URL-aadressid, mis sisaldavad täpitähti või ülakriipsuga tähti. Server aga töötleb aadresse jätkuvalt ASCII-ga ühilduvana. See protseduur on määratletud internetistandardis IDNA2003 ja selle 2010. aastal heaks kiidetud versioonis IDNA2008. Tõlkimine Unicode’ist ASCII-sse toimub kliendi poolel (brauseris, e-posti programmis jne) ja põhineb standardiseeritud kodeerimisprotsessil nimega Punycode.
Punycode
RFC 3492 standardiga hõlmatud Punycode töötati välja selleks, et kuvada Unicode-märgijadasid selgelt ASCII-märkidena ilma kvaliteedikaotuseta. Kõik mitte-ASCII-märgid eemaldatakse domeeninimest, kodeeritakse ja eraldatakse sidekriipsuga. See koodijada sisaldab teavet asjaomase Unicode-märgi kohta ning selle asukoha kohta domeeninimes. Lisaks on igale sel viisil loodud ACE-järjendile lisatud eesliide xn–. See selgitab lugejale, et tähemärkide jada on IDN, mis on kodeeritud vastavalt IDNA- ja Punycode-standarditele. Kodeerimisprotsessi üksikasjaliku selgituse ja mõned näited leiate meie artiklist Punycode kohta.
Veebipõhise IDN-domeenikonverteri abil saate Punycode’i abil teisendada IDN-domeenid vastavateks ACE-stringideks.
IDNA2003 ja IDNA2008 erinevused
2003. aasta algses menetluses normaliseeriti rahvusvahelised URL-id enne Punycode-kodeerimist nimetuse ettevalmistamise (nameprep) meetodi abil. See meetod muutis suurtähed väiketähtedeks, eemaldas juhtmärgid ja viis samaväärsed märgid ühtsesse vormi. Nimetuse ettevalmistamine jäeti sellest protsessist välja, kui võeti kasutusele IDNA2008. Nüüd ei näe IDNA ette mingit normaliseerimist. Selle asemel soovitab see algoritmi, mis teisendab suurtähed väiketähtedeks.
See muudatus võtab arvesse ka saksakeelsete piirkondade kasutajaid, kuna Saksamaal levinud Unicode-märk „ß“ oli IDNA2003 standardi kohaselt algselt määratletud kui „ss“ ekvivalent. Seetõttu normaliseeriti domeenid, nagu näiteks www.fußball-ergebnisse.de, nime ettevalmistamise protsessis automaatselt numbriks www.fussball-ergebnisse.de. IDNA2008 kasutuselevõtuga ei ole see enam nii. Alates 2010. aastast tõlgendatakse „ß” õigesti kui „ladina väiketähe terav s” ja seda saab registreerida osana IDN-domeenist.
Lisaks sellele ei toeta IDNA2008 enam umbes 8000 märki, mida IDNA2003 raames domeeninimedes kasutada sai. Nelja märki, sealhulgas „ß”, tõlgendatakse standardi uuendamise järel teisiti. IDNA2003 ja IDNA2008 vaheliste erinevuste üksikasjaliku ülevaate leiate Unicode’i tehnilisest standardist nr 46. Järgmises tabelis on esitatud peamiste erinevuste kokkuvõte:
| IDNA2003 | IDNA2008 |
|---|---|
| Nõutav Nameprep-protseduur | Normaliseerimist ei ole määratud |
| Kehtib Unicode 3.2 puhul | Kehtib Unicode versioonidele alates 5.2 |
| Ranged reeglid paremalt vasakule kirjutavate fontide jaoks | Selgemad reeglid paremalt vasakule kirjutavate fontide jaoks |
| Suurtähti ja väiketähti käsitletakse eraldi märkidena | Suurtähed teisendatakse väiketähtedeks |
| Paljud sümbolid on keelatud, nt graafilised sümbolid, mis ei kuulu ühegi tähestiku alla, samuti mõned kirjavahemärgid | |
| Mõnedelt Unicode-märkidelt on eemaldatud „ümberkaardistamine”, kuna see võib põhjustada ebaregulaarsusi |
Millised probleemid on seotud IDN-idega?
Praeguseks peaksid kõik levinumad internetiprogrammid IDN-i toetama. Siiski tekivad rahvusvaheliste domeeninimede puhul mõnikord probleemid, kuna üleminekut standardilt IDNA2003 standardile IDNA2008 ei ole veel järjekindlalt rakendatud. Üks saksa keele jaoks probleemne näide on tähe „ß” erinev tõlgendamine. Kuna IDNA2003 teisendab „ß” kohustuslikult „ss”-iks, ei ole IDNA2008 järgi registreeritavad spetsiaalsed ß-domeenid sageli leitavad süsteemides, mis teisendavad vananenud standardi järgi. Selle asemel suunatakse kasutajad vastavale domeenile, mis sisaldab „ss”-i. Seda probleemi saab vältida, kui veebisaidi haldajad registreerivad mõlemad variandid ja suunavad teise domeeni domeeni ümbersuunamise abil eelistatud kirjapildile.