Incompatibilità di caratteri

Quante volte ci capita di ricevere una mail, o un testo proveniente da un altro computer, e accorgerci che molti caratteri sono stati sostituiti con dei grovigli irriconoscibili. Quelli vecchi, molto vecchi di noi che hanno lavorato con i primi computer conoscono la ragione: è una questione di codifica del carattere. Quando preparo un testo, il programma di scrittura associa a ogni carattere un numero, ed è quello il “codice” del carattere. La base di ogni codifica nei computer è il bit, l’unità binaria. A seconda della lunghezza in bit di una codifica c’è spazio per un numero crescente di simboli. Per esempio con due soli bit si hanno quattro codici (00, 01, 10, 11) che potrebbero essere associati alle prime quattro lettere dell’alfabeto (a, b, c, d) e nient’altro. Con tre bit i codici sono nove e così via. Per rappresentare tutti i caratteri di tutti gli alfabeti del mondo in tutte le loro varianti serve una codifica a moltissimi bit, cosa a cui si sta lavorando. Ma da sempre si sono adottati degli standard, degli insiemi di caratteri codificabili in un numero limitato di bit.

Il codice universale di base si chiama ASCII, creato negli Usa negli anni ‘60. È basato su sette bit, il che fornisce spazio per 128 caratteri differenti. Di questi, solo 95 sono caratteri stampabili veri e propri, gli altri sono codici speciali che servono per dare comandi alla stampante, per esempio “ritorno del carrello” o “interlinea”. Questo set di base è sufficiente per la lingua inglese, che non usa accenti e segni di punteggiatura particolari. Ecco di seguito i 95 caratteri ASCII stampabili:

!”#$%&’()*+,-./0123456789:;<=>?@

ABCDEFGHIJKLMNOPQRSTUVWXYZ

[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Sono esposti in ordine di codifica, e sono quasi tutti presenti o ottenibili dalla tastiera del computer con un po’ di abilità. Il primo, invisibile ma stampabile, è lo “spazio”, che ovviamente non ha un corrispettivo “glifo”, ossia un simbolo grafico. Questa, e solo questa, è la codifica che tutti i computer di tutto il mondo capiscono. Qualunque altro carattere è “non standard” e necessita di un previo accordo tra chi spedisce e chi riceve. Un primo passo, ottenuto aggiungendo un solo bit alla codifica (ogni bit raddoppia il numero dei codici possibili) è il cosiddetto “ASCII esteso”, che con 256 caratteri soddisfa quasi tutte le necessità delle lingue europee, fornendo le vocali con accenti acuti e gravi, cediglia, umlaut eccetera. Tuttavia esistono diverse tabelle “ASCII esteso”, per cui si corre il rischio di non ricevere correttamente ciò che ci viene trasmesso da un corrispondente che usi una tabella diversa dalla nostra, anche se dotato di un computer simile al nostro.

La soluzione, nel dubbio, è quella di scrivere i nostri messaggi, o a dare i nomi ai nostri file, usando solo i caratteri della tabella qua sopra. Per noi italiani si risolve nell’usare l’apostrofo al posto dell’accento (e’, sara’, perche’). Si ottiene un testo perfettamente comprensibile, anche se i puristi storcono il naso. Questa è la prassi nella posta elettronica accademica ed è apprezzata dagli altri “puristi”, quelli dell’”ASCII puro”. Certo, uno spagnolo che vuole usare il punto interrogativo rovesciato (¿) non trova niente nella tabella, ma lo trova sulla sua tastiera, e sperabilmente tutti i corrispondenti di lingua spagnola sono in grado di riconoscere quel codice (per inciso, è il codice 168 della tabella estesa europea). I francesi, dal canto loro, pratici come sempre, hanno abolito per legge gran parte delle complicatissime accentazioni della loro lingua, cediglie ed altri segni grafici con i quali, per secoli, si erano torturati i bimbetti di mezzo mondo, dalla Nuova Caledonia al Quebec. Anche in quel caso i puristi storcono il naso, come stanno facendo alla notizia che pian piano viene abolita la scrittura corsiva nelle scuole occidentali. Ma, in definitiva, chi scrive più a mano? Meglio insegnare da subito nelle scuole a digitare rapidamente sulla tastiera, e possibilmente a dieci dita e senza guardare, non come il sottoscritto che usa due dita, per quanto veloci, con gli occhi che inseguono come possono tasti e testo.

Ma cosa ci aspetta per il futuro? Esisterà un codice universale unificato che comprende tutti i caratteri di tutte le lingue del mondo? In realtà, questo codice esiste già, e si chiama UNICODE, e viene sviluppato da un consorzio internazionale. Alla nascita si pensava che 16 bit (circa 65.500 caratteri) sarebbero stati largamente sufficienti per coprire il fabbisogno, e sembrano tantissimi confrontati con i 128 iniziali dell’ASCII. Strada facendo però siamo arrivati a 21 bit, ossia oltre due milioni di glifi, che pare possano coprire tutte le lingue vive e morte conosciute, comprese tutte le varianti delle complicatissime grafie orientali. Il problema è ora riempire le tabelle, cosa che è stata fatta solo parzialmente. Insomma, ci si sta lavorando. Così un giorno, quando scriverò perché, nessuno al mondo riceverà perch☺. (MisterX)