Introduzione alla Codifica di caratteri
Cosa si intende precisamente per codifica di caratteri? In pratica, consiste in un codice che associa un insieme di caratteri ad un insieme di altri oggetti, come numeri (in special modo nel mondo informatico) o pulsazioni elettriche, con lo scopo di facilitare la memorizzazione di un testo in un computer.
Ufficialmente, il primo fu il codice Morse, nato nel 1840. In seguito, importante fu l’introduzione delle telescriventi che portò al codice Baudot a 5 bit.
Negli anni sessanta nasce lo standard ASCII a 7 bit, che venne utilizzato per la nascita di Internet e dei protocolli connessi.
Nel corso degli anni, l’affermarsi di Windows, anche in Asia, porta alle estensioni alle lingue orientali nel 1990 dei codepage di Windows.
Lo UCS-2 che usa due byte per ogni carattere, fu utilizzato dalla Microsoft in Windows NT sin dal 1995 e poi esteso a tutte le altre versioni.
Le definizioni dei formati UTF-8 e UTF-16 datano al 1996, con la versione 2.0 di Unicode. Lo UTF (Unicode Transformation Format) divenne lo standard POSIX de facto, ed essendo ratificato dalla RFC 3629, è anche riconosciuto dal W3C.
La successiva versione Unicode 3.0 del 1999 introduce la bidirezionalità e la composizione di tabelle, mentre la 4.0 del 2001 include anche le lingue antiche. L’attività del Unicode Consortium è in continua evoluzione.
In alcuni contesti, specialmente nella memorizzazione e nella comunicazione, è utile operare una distinzione tra repertorio di caratteri e codifica di caratteri, che specifica il sistema da usare per la rappresentazione dei caratteri di un certo insieme utilizzando codici numerici.
Dopo i primi repertori di caratteri (ASCII e EBCDIC) si assistette ad un processo di standardizzazione. Presto divennero evidenti le limitazioni di questi modelli di rappresentazione e si tentò di sviluppare metodi specifici per superarle. In particolare, la necessità di supportare un numero sempre maggiore di caratteri rese evidente il bisogno di un approccio sistematico al problema. Un tentativo in tal senso è rappresentato dalla codifica Unicode, il cui repertorio comprende più di centomila caratteri.
Nei prossimi articoli dedicati all’argomento, vedremo in dettaglio alcune delle principali codifiche dei caratteri.
Vincenzo Abate