19 gennaio 2008

Un'Internet babelica?

La torre di Babele in Internet

Сайт.рф[1]. Se la gente, “dimenticato” l’inglese, comincerà a scrivere gli indirizzi dei siti nelle “lingue dei popoli del mondo”, la rete globale sarà annientata

La lingua più diffusa al mondo non è affatto l’inglese, che occupa soltanto la terza posizione per numero di coloro per cui esso (formalmente) risulta familiare. Il primo posto, con grande vantaggio (15% dell’intera popolazione della Terra!) è occupato dal cinese, il secondo dallo spagnolo. Anche il quarto posto, così come il primo, è occupato da una lingua non europea – il bengali, che fa parte del gruppo indiano della famiglia linguistica indoeuropea.

Allorquando si tratta di Internet, allora il quadro, naturalmente, cambia di molto: è chiaro che il bengali, in cui parla la numerosa ma povera popolazione del Bangladesh, si trova da qualche parte agli ultimi posti per quantità di utenti che lo parlano. Ma anche qui il monopolio delle lingue europee è tutt’altro che assoluto. L’inglese in Rete certamente domina – con una prevalenza di tre volte sulla seconda posizione, tuttavia questa è occupata comunque dai cinesi e la terzo posto ci sono i giapponesi. Il sesto posto è dei coreani, il nono della lingua russa e complessivamente il numero di parlanti lingue non europee (cioè non basate sull’alfabeto latino) tra gli utenti di Internet delle prime dieci posizioni della graduatoria sono la metà di quelli che parlano lingue europee.

E per ultima cosa, se si parla della comunicazione scritta, neanche qui tutto è univoco – solo in tedesco, che occupa la quinta posizione della graduatoria, ci sono quattro lettere che mancano nell’alfabeto latino standard (sono i cosiddetti Umlaut). Ci sono ancora più simboli mancanti in una tastiera standard, per esempio, in francese, in spagnolo o in italiano (sono le lettere latine comuni, ma con segni diacritici speciali).

Gli indirizzi Internet dei siti – è più corretto chiamarli nomi di dominio – si scrivono tradizionalmente nella variante inglese dell’alfabeto latino, dove tutti questi Umlaut e segni diacritici mancano. Storicamente questo è dovuto al fatto che la lingua base per i programmatori era e resta l’inglese (e, evidentemente, resterà tale a lungo, se non per sempre, – lingue nazionali di programmazione non servono semplicemente a nessuno); a parte questo, l’utilizzo delle 26 lettere inglesi è davvero, probabilmente, la più semplice variante possibile. Per visualizzare l’alfabeto inglese base è sufficiente attribuire ad ogni lettera (più una certa quantità di segni necessari come il “più”, i punti o la lineetta) un numero della misura di un byte – unità di informazione universale e compatta. Per introdurre i simboli delle lingue europee e il cirillico, gli ideogrammi cinesi e giapponesi e i simboli di lingue come, per esempio, l’arabo e l’ebraico, sono necessari come minimo due byte per ogni simbolo.

Di per se questa operazione non comporta particolari difficoltà – le codificazioni internazionali chiamate Unicode, in cui si possono utilizzare alla rinfusa le lettere di qualsiasi alfabeto, sono standardizzate da tempo, ogni utente di computer si scontra con esse, per esempio, quando scrive un testo in più lingue con Microsoft Word. Resterebbe solo da “insegnare” a distinguere gli indirizzi nazionali dei programmi – sia quelli, che amministrano Internet, sia quelli, che vengono utilizzati dagli utenti per l’accesso, i cosiddetti browser, il più noto dei quali è Internet Explorer. Tutti questi, compresi anche, per esempio, i programmi di posta tipo Outlook, sono impostati finora sulla visualizzazione dei nomi di dominio nell’alfabeto latino di base. Questo problema è risolvibile, anche se pure qui possono esserci difficoltà sulle quali torneremo.

Per gli utenti europei la comprensione degli indirizzi in alfabeto latino non presenta difficoltà – chiunque nel nostro paese bene o male comprende perfino una costruzione incomprensibile come spravochnikpokormleniukoshek.ru[2]. Ma per cinesi, giapponesi, arabi, turchi[3], armeni, georgiani (è facile allungare la lista) tutti gli indirizzi in alfabeto latino rappresenteranno un insieme di segni che non significano niente. E per utilizzare Internet tocca loro anche imparare a pappagallo l’alfabeto inglese. E per molti europei è anche offensivo – se il nome della Repubblica Ceca si scrive Cesko[4], per quale motivo i suoi abitanti devono deformare la propria lingua madre, mutando la prima lettera in una comune “C” negli indirizzi Internet?

Detto tutto questo ci sono anche gli argomenti di chi propugna l’internazionalizzazione del sistema degli indirizzi Internet. A valutare il problema a livello ufficiale (nell’ambito dell’ICANN – l’organizzazione internazionale che esercita un controllo sull’utilizzo dei nomi di dominio) si è cominciato già nel 1999, quando è stato creato un gruppo di lavoro per la creazione di uno standard per nomi di dominio in più lingue – l’International Domain Name, IDN.

E ancora qualche anno fa pareva che il problema fosse molto vicino ad essere risolto, ma su questo percorso si è presentata inaspettatamente una serie di difficoltà di tipo per nulla tecnico.

Tecnicamente la registrazione di domini nazionali è possibile già adesso, perlomeno in parte – mantenendo la scrittura latina per il dominio di primo livello. Esistono due varianti del genere: i domini nazionali (per la Russia è RU), che coincidono con l’indicazione del paese con due lettere secondo lo standard dell’organizzazione internazionale per la standardizzazione ISO (con alcune eccezioni) e i cosiddetti domini di uso comune (.COM, .ORG, .INFO, .NET, ecc.). Registrare un indirizzo Internet tipo “компания.com”[5] in un formato così articolato si può fare già da molto tempo – il principale amministratore del dominio .COM, sono circa sei anni che la compagnia americana VeriSign propone questo servizio.

Ma un “via” ufficiale dall’ICANN finora non c’è stato. A ottobre è stato dato il via alla sperimentazione di un meccanismo per la registrazioni di domini in 11 lingue, tra cui il russo, ed è stato promesso che lo standard ufficiale sarà sancito all’inizio del 2008. Ma qualche tempo fa i rappresentanti ufficiali dell’ICANN hanno cambiato tono in senso pessimistico e hanno preso a dire che la comparsa di tali standard, forse, sarà rimandata di un anno o due. Anche nella zona .RU la registrazione di indirizzi in lingua russa è stata bloccata. Di che si tratta?

Per prima cosa, la soluzione articolata è semplicemente scomoda nella pratica: per digitare un nome tipo “фирма.com”[6] bisogna cambiare l’impostazione dal russo all’inglese. Secondo, senza un modulo speciale per il riconoscimento degli indirizzi nazionali, come è già stato detto, non funzioneranno i programmi di accesso a Internet (e, probabilmente, non potranno neanche visualizzare correttamente tale indirizzo). E’ evidente che questi moduli (che pure esistono da tempo per i programmi più diffusi) saranno adottati volontariamente solo da una piccola parte degli utenti e in mancanza di uno standard ufficiale a installarli (cioè a includerli nell’impostazione base) si è decisa finora solo la Microsoft e solo nel nuovo browser Internet Explorer 7, che fa parte di Vista e che ha cominciato ad occupare una parte notevole del mercato (in Russai circa il 14%) solo negli ultimi mesi. Per questi motivi il servizio di registrazione dei domini “articolati” non è diventato popolare.

E gli addetti russi alla registrazione (non unanimemente, ma la maggior parte) hanno deciso di attendere finché non ci sarà ufficialmente la possibilità di registrare indirizzi nazionali pienamente validi, in cui anche il dominio di primo livello sarà in lingua russa. Per questo inizialmente volevano scegliere la combinazione .РУ[7], ma poi hanno spiegato che questo coincide con la grafia inglese del dominio del Paraguay (.PY) e, evidentemente, sarà scelta la variante .РФ[8].

Ma qualsiasi variante cominci a funzionare in pratica, la comparsa dei domini nazionali si accompagna a un mucchio di problemi. Ecco solo alcuni di essi.

Uno dei problemi principali, che è stato riconosciuto da molto tempo è il problema della mescolanza di simboli inglesi e cirillici simili per grafia. Questo è una miniera d’oro per i truffatori: inserite nell’indirizzo di una qualche banca bank.ru la “a” russa al posto di quella latina e avrete un indirizzo esteriormente indistinguibile, ma del tutto diverso, con cui si può creare un sito identico per aspetto e ottenere numeri di carte di credito o semplicemente soldi (questo metodo di truffa si chiama phishing – in inglese “pésca”[9]).

Fra l’altro la soluzione che consiste nel far sì che la mescolanza di simboli di diverse lingue in un solo nome non sia permessa (e proprio questa regola è stata accolta dal consiglio di coordinamento del dominio .RU e ha avuto l’appoggio dell’ICANN), non risolve del tutto il problema. Ci sono alcune parole, che coincidono del tutto o praticamente del tutto per grafia: per esempio, nessuno impedisce di registrare un falso sito della nota compagnia Yahoo! in forma www.УАНОО.com[10], dove la lettera russa “н” maiuscola è indistinguibile dalla “h” inglese.

C’è un altro problema – adesso esistono ben pochi segni, che siano pienamente comuni anche solo alle lingue più diffuse. E’ naturale – un russo o un ucraino difficilmente avranno bisogno di scrivere in ebraico o in coreano. E se il problema della visualizzazione dei domini nazionali in queste lingue ancora bene o male si può risolvere, digitare un indirizzo sulla tastiera (scrivere, diciamo, una lettera per la Cina o il Giappone) può risultare semplicemente impossibile: nessuno potrà “in ogni caso” fornire aiuto per decine delle possibili lingue. E poi – non sapete come fanno i cinesi a digitare con una comune tastiera migliaia dei loro ideogrammi? Se non lo sapete, vi dico solo che per questo bisogna essere istruiti in modo speciale.

Tutti questi problemi confluiscono placidamente in uno, anche se non di tipo tecnico, ma fra l’altro, forse, più serio – c’è il fondato timore, che l’introduzione di nomi di dominio nelle lingue nazionali porti al graduale isolamento di singole regioni, alla loro scomparsa dalla rete globale e alla loro chiusura “in se stesse”. Adesso posso guardare perfino i siti in lingua giapponese, perché l’indirizzo, per esempio, sony.jp mi dice subito che appartiene alla compagnia Sony e il resto si può capire dalle immagini. Ma il nome Sony in giapponese non mi dice niente, così come non dice niente a un giapponese il nome russo della Gazprom o del Cremlino.

Sia da noi, sia in altri paesi, tra l’altro, ci sono non pochi isolazionisti che sostengono che il controllo sugli indirizzi nazionali in generale va tolto all’ICANN – il che di fatto significherebbe la cessazione del loro supporto a livello e lo sfaldamento della rete globale in feudi di piccole reti nazionali sovraccariche. A passi da gigante[11] la Cina si muove verso uno scenario del genere, essendosi praticamente rifiutata di collaborare con l’ICANN e avendo completato già nella primavera del 2006 un sistema internazionale di nomi di dominio di propria elaborazione (in particolare è stata introdotta una serie di nuovi domini di primo livello, che si possono incontrare solo sul territorio del Celeste Impero e vengono supportati anche indirizzi in ideogrammi). Questo vi piace? A me non molto.

Jurij Revič[12]
osservatore della “Novaja Gazeta”[13], “Novaja Gazeta”, 16 novembre 2007

http://www.novayagazeta.ru/data/2007/color44/05.html (traduzione e note di Matteo Mazzoni)



[1] Cioè Sajt.rf. Sajt è “sito” in russo e “rf” l’immaginario dominio della Rossijskaja Federacija (Federazione Russa). E’ parte di un immaginario indirizzo Internet in cirillico.

[2] Cioè spravočnik po kormleniji košek (“guida all’alimentazione dei gatti”).

[3] In realtà i turchi scrivono in un alfabeto latino con segni diacritici specifici…

[4] In realtà si scrive Česko.

[5] Cioè “compagnia.com”.

[6] “Ditta.com”.

[7] “RU” in cirillico.

[8] Vedi nota 1.

[9] In realtà “pésca” è fishing in inglese…

[10] Al posto della Y c’è la U cirillica che è identica ad essa. Al posto della H c’è la N cirillica per cui vale quanto detto prima. A e O sono identiche nell’alfabeto cirillico e in quello latino.

[11] Letteralmente “di sette miglia”.

[12] Jurij Vsevolodovič Revič, esperto russo di informatica e non solo…

[13] “Giornale nuovo”, uno dei pochi giornali d’opposizione in Russia per cui scriveva Anna Politkovskaja.

2 commenti:

Unknown ha detto...

Ho tanti dubbi su questa liberalizzazione... :-(

Matteo Mazzoni ha detto...

@marco bellucci: dubbi che condivido perfettamente...