Saskaņā ar Star­ptau­tis­kās te­le­ko­mu­ni­kā­ci­ju sa­vie­nī­bas (ITU) datiem vairāk nekā trīs miljardi cilvēku izmanto pasaules tīmekli, un arvien biežāk to dara savā dzimtajā valodā. Šīs pārmaiņas daļēji izraisīja star­ptau­tis­ko domēnu vārdu ieviešana 2003. gadā. Mēs iz­skaid­ro­sim, kā darbojas IDN domēni.

Kas ir in­ter­na­cio­na­li­zēts domēna vārds (IDN)?

IETF (Internet Engi­nee­ring Task Force) ar IDN apzīmē domēna vārdus, kuros ir iekļauti speciāli simboli, kas nepieder pie latīņu alfabēta, piemēram, umlauti vai simboli no citiem al­fa­bē­tiem. Tomēr domēnu vārdu sistēma (DNS), kas atbild par URL pār­vēr­ša­nu IP adresēs, nespēj atpazīt šos domēna vārdus. DNS balstās uz ie­ro­be­žo­to standarta simbolu kopu ASCII.

Lai IDN būtu saprotami gan DNS, gan citiem interneta pro­to­ko­liem, 2003. gadā tika iz­strā­dāts interneta standarts „In­ter­na­tio­na­li­sing Domain Names in Ap­pli­ca­tions“ (IDNA). Tas nosaka stan­dar­ti­zē­tu pār­vei­do­ša­nu no Unicode uz ASCII, tādējādi ļaujot domēnu no­sau­ku­mos izmantot ne-ASCII rakstzī­mes.

Kā darbojas IDNA?

Liela daļa interneta in­fras­truk­tū­ras atbalsta tikai ASCII rakstzīm­ju kopu. Lai no­dro­ši­nā­tu star­ptau­tis­ko domēnu vārdu apstrādi, katrs Unicode formātā pie­eja­mais IDN tiek pārvērsts par ASCII balstītu ACE virkni. Pēc tam tiek parādītas URL adreses, kurās ir rakstzī­mes ar diak­ri­tis­ka­jām zīmēm vai umlautiem. Savukārt serveris turpina apstrādāt adreses kā ASCII saderīgas. Šī procedūra ir noteikta interneta standartā IDNA2003 un tā 2010. gadā ap­stip­ri­nā­ta­jā pār­ska­tī­ta­jā versijā IDNA2008. Pār­vei­do­ša­na no Unicode uz ASCII notiek klienta pusē (pār­lūkprog­ram­mā, e-pasta programmā utt.) un balstās uz stan­dar­ti­zē­tu kodēšanas procesu, ko sauc par Punycode.

Punycode

RFC 3492 stan­dar­ti­zē­tais Punycode tika iz­strā­dāts, lai Unicode rakstzīm­ju virknes varētu skaidri attēlot kā ASCII simbolus bez kva­li­tā­tes zuduma. No domēna vārda tiek izņemti visi ne-ASCII simboli, tie tiek kodēti un atdalīti ar defisi. Šī kodu virkne satur in­for­mā­ci­ju par attiecīgo Unicode simbolu, kā arī par tā pozīciju domēna vārdā. Turklāt katrai šādā veidā iz­vei­do­ta­jai ACE virknei tiek pie­vie­nots prefikss xn–. Tas lasītājam norāda, ka rakstzīm­ju virkne ir IDN, kas ir kodēta saskaņā ar IDNA un Punycode stan­dar­tiem. Sīkāku skaid­ro­ju­mu par kodēšanas procesu, kā arī dažus piemērus skatiet mūsu rakstā par Punycode.

Tip

Iz­man­to­jot tiešsais­tes IDN domēnu kon­ver­tē­tā­ju, varat konvertēt IDN domēnus to at­bil­sto­ša­jās ACE virknēs, iz­man­to­jot Punycode.

At­šķi­rī­bas starp IDNA2003 un IDNA2008

Sākotnējā 2003. gada procedūrā in­ter­na­cio­na­li­zē­tās URL tika nor­ma­li­zē­tas pirms Punycode kodēšanas, iz­man­to­jot „nameprep“ metodi. Šī metode pār­vei­do­ja lielos burtus par mazajiem, izdzēsa vadības simbolus un pār­vei­do­ja līdzvēr­tī­gos simbolus vienotā formā. „Nameprep“ tika izslēgts no šī procesa, ieviešot IDNA2008. Tagad IDNA neparedz nekādu nor­ma­li­zā­ci­ju. Tā vietā tas iesaka algoritmu, kas pārveido lielos burtus par mazajiem.

Šī pie­lā­go­ju­ma rezultātā tiek ņemti vērā arī vācu valodā runājošo valstu lietotāji, jo Unicode rakstzīme „ß“, kas ir plaši izplatīta Vācijā, saskaņā ar IDNA2003 sākotnēji tika definēta kā „ss“ ek­vi­va­lents. Tādējādi domēni, piemēram, www.fußball-ergebnisse.de, nosaukuma sa­ga­ta­vo­ša­nas procesā tika au­to­mā­tis­ki nor­ma­li­zē­ti uz www.fussball-ergebnisse.de. Kopš IDNA2008 ie­vie­ša­nas šāda situācija vairs nepastāv. Kopš 2010. gada ‘ß’ tiek pareizi in­ter­pre­tēts kā ‘Latin small letter sharp s’ un to var reģistrēt kā daļu no IDN domēna.

Turklāt aptuveni 8000 rakstzī­mes, kas bija pie­ļau­ja­mas domēnu no­sau­ku­mos saskaņā ar IDNA2003, vairs netiek at­bal­stī­tas saskaņā ar IDNA2008. Četras rakstzī­mes, tostarp „ß”, kopš standarta pār­ska­tī­ša­nas tiek in­ter­pre­tē­tas citādi. Sīkāku iz­klās­tī­ju­mu par at­šķi­rī­bām starp IDNA2003 un IDNA2008 skatiet Unicode teh­nis­ka­jā standartā Nr. 46. Turp­mā­ka­jā tabulā ir apkopotas galvenās at­šķi­rī­bas:

IDNA2003 IDNA2008
Ne­pie­cie­ša­ma Nameprep procedūra Nav norādīta nor­ma­li­zā­ci­ja
Derīgs Unicode 3.2 Derīgs Unicode versijām no 5.2 un jaunākām
Stingri noteikumi attiecībā uz fontiem, kas raksta no labās puses uz kreiso Skaidrāki noteikumi par fontiem, kas rakstīti no labās puses uz kreiso
Lielie un mazie burti tiek uzskatīti par at­se­viš­ķiem rakstzī­mēm Lielie burti tiek pārvērsti mazos burtos
Daudzi simboli ir aizliegti, piemēram, grafiskie simboli, kas nepieder pie neviena alfabēta, kā arī daži pie­tur­zī­mes
Dažiem Unicode simboliem ir noņemta „pār­kar­tē­ša­na”, jo tas varētu izraisīt ne­pa­rei­zī­bas

Kādas problēmas rada IDN?

Šobrīd visām plaši iz­man­to­ta­jām interneta prog­ram­mām vajadzētu atbalstīt IDN. Tomēr ar in­ter­na­cio­na­li­zē­ta­jiem domēnu vārdiem dažkārt rodas problēmas, jo pāreja no IDNA2003 uz IDNA2008 vēl nav vien­mē­rī­gi īstenota. Viens no piemēriem, kas rada grūtības vācu valodā, ir atšķirīgā „ß“ in­ter­pre­tā­ci­ja. Tā kā IDNA2003 obligāti pārveido „ß” par „ss”, īpašie ß domēni, kurus var reģistrēt saskaņā ar IDNA2008, bieži vien nav atrodami sistēmās, kas veic pār­vei­do­ša­nu saskaņā ar no­ve­co­ju­šo standartu. Tā vietā lietotāji tiek novirzīti uz at­bil­sto­šo domēnu, kurā ir „ss”. Šo problēmu var apiet, ja tīmekļa vietņu operatori reģistrē abus variantus un, iz­man­to­jot domēna pā­r­ad­re­sā­ci­ju, novirza otro domēnu uz prio­ri­tā­ro rakstību.

Go to Main Menu