Lo standard ISO 8859, più precisamente ISO/IEC 8859, è uno standard comune ISO ed IEC per la codifica di caratteri ad 8 bit per il trattamento informatico di testi. La norma è divisa in parti numerate pubblicate separatamente (come ISO/IEC 8859-1, ISO/IEC 8859-2, etc), ognuna delle quali può essere riferita informalmente come standard a sé stante. Ci sono attualmente 15 parti definite, escludendo la ISO/IEC 8859-12, abbandonata.
Le parti 1, 2, 3 e 4 della ISO/IEC 8859 sono incluse nello standard ECMA International ECMA-94.
Introduzione
[modifica | modifica wikitesto]Sebbene la sequenza di bit dei 95 caratteri ASCII stampabili (tutte le lettere occidentali non accentate) siano sufficienti per lo scambio di informazioni usando la lingua inglese, molte altre lingue che usano l'alfabeto latino hanno bisogno di simboli addizionali non compresi nell'ASCII, come la ß (tedesco), la ñ (spagnolo), la å (svedese e altre lingue scandinave) o le lettere accentate italiane (à, è, é, ì, ò, ù).
L'ISO 8859 cercò di rimediare a questo problema utilizzando l'ottavo bit del byte, permettendo la definizione di altri 128 caratteri. Questo bit era usato in precedenza per informazioni del protocollo di trasmissione dati oppure era inutilizzato. Comunque, erano necessari più caratteri di quanti potessero stare nella codifica a 8 bit, così furono sviluppate diverse mappe di caratteri, di cui una decina solo per coprire le lingue latine.
Le codifiche ISO 8859-n contengono solo caratteri stampabili, e sono state concepite per essere usate assieme a caratteri di controllo mappati sui valori non assegnati. Molte codifiche registrate presso lo IANA comprendono i codici di controllo C0 (caratteri di controllo mappati sui valori da 0 a 31 inclusi) dello standard ISO 646 e i codici di controllo C1 (caratteri di controllo mappati sui valori da 127 a 159 inclusi) dello standard ISO 6429, dando origine a mappe a 8 bit in cui tutti o quasi i 256 possibili valori risultano assegnati.
L'identificativo MIME preferito per queste codifiche è ISO-8859-n, o alternativamente il loro nome canonico. Le scritture ISO 8859-n e ISO-8859-n sono frequentemente utilizzate indifferentemente. L'identificativo ISO-8859-11 è l'unico di questo insieme a non essere registrato presso lo IANA, probabilmente a causa della sua pressoché totale corrispondenza con il preesistente standard TIS 620, il cui nome è invece registrato.
Caratteri
[modifica | modifica wikitesto]Lo standard ISO 8859 è progettato per un affidabile scambio di informazioni, non per la stampa tipografica; lo standard omette simboli necessari per una stampa di qualità, come le legature opzionali, virgolette, lineette ad altri caratteri. In conseguenza di questo i sistemi tipografici professionali spesso usano estensioni proprietarie (ed incompatibili tra di loro) aggiunte all'ASCII e allo standard ISO 8859, oppure l'Unicode.
In linea di massima sono stati inclusi solo i caratteri e i simboli che già facevano parte di un set di caratteri diffusamente utilizzato e presenti sulle varie versioni nazionali delle tastiere. Furono pertanto incluse le virgolette caporali « e », usate da alcune lingue europee, ma non i doppi apici “ e ” usati dall'inglese e qualche altra lingua. Del francese furono escluse le legature œ e Œ, comunemente trascritte come "oe". La lettera Ÿ, necessaria per la scrittura di testo in maiuscolo, fu anch'essa esclusa. Questi caratteri furono però successivamente inclusi, assieme al simbolo dell'euro "€", dalla codifica ISO 8859-15. Analogamente i caratteri olandesi 'ij' e 'IJ' furono esclusi in quanto usualmente trascritti separatamente come "ij". Del rumeno furono inizialmente escluse le lettere 'Ș/ș' e 'Ț/ț' (lettere con virgola), unificate dal Consorzio Unicode con le lettere 'Ş/ş' e 'Ţ/ţ' (lettere con cediglia) considerando i glifi con la virgola semplici varianti di quelli con la cedilla. Le lettere con la virgola furono successivamente introdotte esplicitamente nello standard Unicode ed inserite nella codifica ISO 8859-16.
La maggior parte delle codifiche ISO 8859 offrono i segni diacritici necessari per la trascrizione in caratteri latini di varie lingue europee. Altre offrono anche caratteri non latini, quali il greco, il cirillico, l'ebraico, l'arabo e il thailandese. La maggior parte delle codifiche prevedono solo caratteri spaziati (ovvero che prevedono l'avanzamento del cursore), ma quelle tailandese, ebraica e araba contengono anche caratteri combinanti (ovvero la cui emissione non comporta l'avanzamento del cursore). Lo standard non offre alcun supporto per le scritture dell'est asiatico (cinese, giapponese, coreano), poiché i loro sistemi di scrittura ideografici richiedono molte migliaia di caratteri. Benché utilizzi caratteri basati sull'alfabeto latino, nemmeno il vietnamita rientra entro il limite di 96 caratteri (esclusi i segni diacritici) imposti dallo standard. I due sistemi di scrittura sillabici giapponesi (hiragana e katakana) rientrerebbero in tale limite, ma non sono comunque inclusi tra le codifiche ISO 8859.
Le parti dell'ISO 8859
[modifica | modifica wikitesto]Parte 1 | Latino-1 Europa occidentale |
Probabilmente la parte più usata della ISO 8859, copre la maggior parte delle lingue europee occidentali: danese, faroese, finlandese (parziale[1]), francese (parziale[1]), gaelico scozzese, inglese, irlandese, islandese, italiano, norvegese, olandese (parziale[2]), portoghese, romancio, spagnolo, svedese e tedesco. Lingue di altre parti del mondo sono anch'esse comprese, come: europee orientali (albanese), asiatiche sudorientali (indonesiano), così come lingue africane (afrikaans e swahili). I caratteri mancanti € e Ÿ maiuscola sono nella ISO 8859-15 versione riveduta. Il corrispondente repertorio di caratteri approvato dall'IANA ISO-8859-1 è la codifica predefinita per documenti HTML e per documenti trasmessi tramite messaggi MIME, come le risposte HTTP quando il tipo documento è "text" (come in "text/html"). |
---|---|---|
Parte 2 | Latino-2 Europa centrale |
Supporta le lingue centro ed est europee che usano l'alfabeto latino, comprese bosniaco, ceco, croato, polacco, serbo, slovacco, sloveno, ungherese. Il carattere mancante € si trova nella ISO 8859-16. |
Parte 3 | Latino-3 Europa meridionale |
Usata per turco, maltese ed Esperanto. Largamente sostituita dalla ISO 8859-9 per il turco e dall'Unicode per l'Esperanto. |
Parte 4 | Latino-4 Europa settentrionale |
Usata per estone, lettone, lituano, groenlandese e sami. |
Parte 5 | Latino/Cirillico | Copre la maggior parte delle lingue slave che usano l'alfabeto cirillico, come: bielorusso, bulgaro, macedone, russo, serbo, ucraina (parziale[3]). |
Parte 6 | Latino/Arabo | Copre i caratteri più comuni della lingua araba. Non supporta altri linguaggi che usano l'alfabeto arabo. Per essere correttamente visualizzato necessita di essere elaborato per la bidirezionalità e l'analisi contestuale. |
Parte 7 | Latino/Greco | Copre il greco moderno (sistema monotonico di accentazione). Può essere usato anche per il greco antico scritto senza accenti (monotonico), ma mancano i diacritici per il sistema politonico, introdotto con l'Unicode. |
Parte 8 | Latino/Ebraico | Copre il moderno alfabeto ebraico come è utilizzato in Israele. In pratica esistono due differenti codifiche: ordine logico (necessita di elaborazione per il testo bidirezionale) e visuale (da sinistra a destra). |
Parte 9 | Latino-5 Turco |
In gran parte simile alla ISO 8859-1, sostituisce i caratteri islandesi, raramente usati, con quelli turchi. È usato anche per il curdo. |
Parte 10 | Latino-6 Nordico |
Una revisione del Latino-4 (ISO 8859-4). Considerato più utile per molte lingue scandinave. Le lingue baltiche usano prevalentemente il Latino-4. |
Parte 11 | Latino/Thai | Contiene la maggior parte dei caratteri necessari per la Lingua thailandese. Lo stesso del TIS 620. |
non esistente Parte 12 |
Latino/Devanagari | La creazione di una parte della 8859 per il Devanagari fu ufficialmente abbandonata nel 1997. ISCII e Unicode/ISO/IEC 10646 coprono il Devanagari. |
Parte 13 | Latino-7 Baltico |
Aggiunti alcuni caratteri per le lingue baltiche che non erano presenti in Latino-4 e Latino-6. |
Parte 14 | Latino-8 Celtico |
Copre le lingue celtiche come il gaelico e il bretone. |
Parte 15 | Latino-9 | Una revisione della 8859-1 che elimina alcuni simboli scarsamente utilizzati, sostituendoli con il simbolo dell'euro € e con le lettere Š, š, Ž, ž, Œ, œ, e Ÿ, che completano la copertura del francese, finlandese ed estone. |
Parte 16 | Latino-10 Europa sudorientale |
Destinata all'albanese, croato, italiano, polacco, rumeno, sloveno ed ungherese, ma utilizzabile anche per il finlandese, francese, tedesco ed irlandese (nuova ortografia). È stata posta maggiore attenzione alle lettere che non ai simboli. Il simbolo generico di valuta (¤) è stato sostituito dall'Euro (€). |
Ciascuna parte della ISO 8859 è progettata per essere utilizzata con lingue simili, in modo che i caratteri utilizzati, a volte comuni, siano inseriti nella stessa raccolta. Ci sono però alcuni caratteri e combinazioni di lingue che non possono essere direttamente supportate se non attraverso una transcodifica.
Particolare attenzione è stata posta affinché le operazioni di conversione tra codifiche diverse risultassero quanto più agevoli possibile; ad esempio i sette caratteri speciali del tedesco occupano la medesima posizione in tutte le varianti latine (1-4, 9-10, 13-16), e per molte posizioni i caratteri differiscono, tra una variante e l'altra, unicamente per i segni diacritici. In particolare le varianti 1-4 sono state progettate congiuntamente allo scopo di garantire che se due varianti comprendono un medesimo carattere, esso deve comparire in entrambe nella medesima posizione.
Tabella
[modifica | modifica wikitesto]Binario | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Non-breaking space (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | Ą | Ħ | Ą | Ё | ‘ | ¡ | Ą | ก | ” | Ḃ | ¡ | Ą | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ’ | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | ą | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | Ī | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | Ĩ | ฅ | „ | ċ | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ø | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ş | Ē | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | AB | « | Ť | Ğ | Ģ | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | AD | soft hyphen (SHY) | ญ | SHY | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | ― | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | ą | ħ | ą | Б | ± | ą | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ē | ฒ | ² | Ġ | ² | Č | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | ī | ด | “ | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | ĩ | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ļ | ธ | ø | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | ı | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | č | |||
1011 1010 | 272 | 186 | BA | º | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | ŧ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | BC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | ― | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | BE | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | À | Ŕ | À | Ā | Р | ΐ | À | Ā | ภ | Ą | À | |||||
1100 0001 | 301 | 193 | C1 | Á | С | ء | Α | Á | ม | Į | Á | ||||||||
1100 0010 | 302 | 194 | C2 | Â | Т | آ | Β | Â | ย | Ā | Â | ||||||||
1100 0011 | 303 | 195 | C3 | Ã | Ă | Ã | У | أ | Γ | Ã | ร | Ć | Ã | Ă | |||||
1100 0100 | 304 | 196 | C4 | Ä | Ф | ؤ | Δ | Ä | ฤ | Ä | |||||||||
1100 0101 | 305 | 197 | C5 | Å | Ĺ | Ċ | Å | Х | إ | Ε | Å | ล | Å | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | Į | Ч | ا | Η | Ç | Į | ว | Ē | Ç | ||||||
1100 1000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | ||||
1100 1001 | 311 | 201 | C9 | É | Щ | ة | Ι | É | ษ | É | |||||||||
1100 1010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | Ì | Ě | Ì | Ė | Ь | ج | Μ | Ì | Ė | ฬ | Ģ | Ì | ||||
1100 1101 | 315 | 205 | CD | Í | Э | ح | Ν | Í | อ | Ķ | Í | ||||||||
1100 1110 | 316 | 206 | CE | Î | Ю | خ | Ξ | Î | ฮ | Ī | Î | ||||||||
1100 1111 | 317 | 207 | CF | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | ฯ | Ļ | Ï | |||||
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | в | ز | Ò | Ō | า | Ņ | Ò | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | ش | Τ | Ô | ิ | Ō | Ô | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | ี | Ő | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | ุ | Ų | Ø | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | Ŭ | Ũ | н | έ | İ | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | DE | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | à | ŕ | à | ā | р | ـ | ΰ | א | à | ā | เ | ą | à | |||
1110 0001 | 341 | 225 | E1 | á | с | ف | α | ב | á | แ | į | á | |||||||
1110 0010 | 342 | 226 | E2 | â | т | ق | β | ג | â | โ | ā | â | |||||||
1110 0011 | 343 | 227 | E3 | ã | ă | ã | у | ك | γ | ד | ã | ใ | ć | ã | ă | ||||
1110 0100 | 344 | 228 | E4 | ä | ф | ل | δ | ה | ä | ไ | ä | ||||||||
1110 0101 | 345 | 229 | E5 | å | ĺ | ċ | å | х | م | ε | ו | å | ๅ | å | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | ę | æ | ||||
1110 0111 | 347 | 231 | E7 | ç | į | ч | ه | η | ח | ç | į | ็ | ē | ç | |||||
1110 1000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | ę | ê | ę | ъ | ي | κ | ך | ê | ę | ๊ | ź | ê | |||
1110 1011 | 353 | 235 | EB | ë | ы | ً | λ | כ | ë | ๋ | ė | ë | |||||||
1110 1100 | 354 | 236 | EC | ì | ě | ì | ė | ь | ٌ | μ | ל | ì | ė | ์ | ģ | ì | |||
1110 1101 | 355 | 237 | ED | í | э | ٍ | ν | ם | í | ํ | ķ | í | |||||||
1110 1110 | 356 | 238 | EE | î | ю | َ | ξ | מ | î | ๎ | ī | î | |||||||
1110 1111 | 357 | 239 | EF | ï | ď | ï | ī | я | ُ | ο | ן | ï | ๏ | ļ | ï | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | ȑ | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | ò | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | ๓ | ó | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | ๔ | ō | ô | ||||||||
1111 0101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | ๕ | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | і | φ | צ | ö | ๖ | ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ๘ | ų | ø | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | ı | ý | ż | ý | ę | |||||
1111 1110 | 376 | 254 | FE | þ | ţ | ŝ | ū | ў | ώ | RLM | ş | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ’ | ÿ |
Alla posizione 0xA0 c'è sempre lo spazio indivisibile (non breaking space) e alla 0xAD quasi sempre il tratto d'unione (soft hyphen), che è visualizzato per la sillabazione. Gli altri caratteri vuoti possono essere non assegnati oppure il sistema non è in grado di visualizzarli.
Ci sono nuove aggiunte per le versioni ISO/IEC 8859-7:2003 e ISO/IEC 8859-8:1999. LRM (left-to-right mark), marcatore da sinistra a destra (U+200E) e RLM (right-to-left mark), marcatore da destra a sinistra (U+200F), sono usati per la visualizzazione bidirezionale.
Rapporto con Unicode e UCS
[modifica | modifica wikitesto]A partire dal 1991, il Consorzio Unicode ha collaborato con la ISO per sviluppare parallelamente lo standard Unicode e lo Universal Character Set (UCS o ISO/IEC 10646). Tali standard erano stati creati allo scopo di unificare, tra gli altri, la collezione di caratteri offerta dalle codifiche ISO 8859 assegnando a ciascun carattere un codice numerico univoco, inizialmente a 16 bit. Successivamente il modello fu esteso associando ad ogni carattere un generico identificatore numerico (code point) e delegando a specifiche codifiche (ad esempio l'UTF-8) il compito di associare sequenze di bit ai code point.
Le edizioni più recenti dell'ISO 8859 sono espresse come mappe di corrispondenza tra le 256 possibili codifiche esprimibili con l'uso di un singolo byte e caratteri della collezione Unicode, rendendo di fatto ogni singola variante dell'ISO 8859 uno specifico sistema di codifica per un sotto-insieme estremamente ridotto (256 elementi) del set Unicode; in particolare i primi 256 caratteri Unicode/UCS coincidono con i 256 caratteri dell'ISO-8859-1.
I set di caratteri a singolo byte, tra cui le parti dell'ISO 8859 e loro varianti, godettero di estremo favore per tutti gli anni novanta, avendo il vantaggio di essere estremamente diffusi e di poter essere implementati più facilmente: la corrispondenza diretta tra un byte ed un carattere è semplice e generalmente adeguata per qualsiasi applicazione che necessiti di supportare una singola lingua.
A mano a mano che il costo, in termini di risorse di calcolo, di usare più byte per carattere iniziò a diminuire, i linguaggi di programmazione e i sistemi operativi affiancarono il supporto nativo per Unicode ai sistemi di codifica più tradizionali. Con il progressivo diffondersi di sistemi con supporto per Unicode, l'uso delle codifiche ISO 8859 e di altre codifiche proprietarie divenne sempre meno comune; benché residui dei sistemi di codifica a singolo byte siano ancora ben presenti in molti software ed apparecchiature hardware, la maggior parte dei sistemi moderni usa internamente Unicode e si avvale di tabelle di conversione per ricodificare, se necessario, da o verso altre codifiche.
Uno degli usi in cui non è stato soppiantato da Unicode è la codifica dei messaggi Usenet, il cui protocollo è stato pensato per le codifiche a sette bit. Per la lingua italiana si utilizza ISO-8859-1 oppure ISO-8859-15, ma sono adatti anche ISO-8859-3 e ISO-8859-9.
Stato dello sviluppo
[modifica | modifica wikitesto]Lo standard ISO/IEC 8859 era mantenuto dal Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). Nel giugno del 2004 il WG 3 fu sciolto e la manutenzione fu trasferita al SC 2. Attualmente lo standard non viene più aggiornato, poiché l'unico gruppo di lavoro rimasto del SC 2, il WG 2, è interamente dedicato allo sviluppo dello standard ISO/IEC 10646.
Collegamenti esterni
[modifica | modifica wikitesto]- Le versioni pubblicate di ciascuna parte dell'ISO/IEC 8859 sono disponibili, a pagamento, presso l'ISO catalogue site and from the ANSI eStandards Store Archiviato il 16 gennaio 2005 in Internet Archive.
- Le versioni in PDF delle bozze finali di alcune parti dell'ISO/IEC 8859, così come realizzate per la revisione e la pubblicazione dall'ISO/IEC JTC 1/SC 2/WG 3 sono disponibili presso il sito del WG 3:
- ISO/IEC 8859-1:1998 Archiviato il 30 settembre 2020 in Internet Archive. - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (bozza del 12 febbraio 1998, pubblicata il 15 aprile 1998)
- ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (bozza del 12 febbraio 1998, pubblicata il 1º luglio 1998)
- ISO/IEC 8859-7:1999 Archiviato il 4 marzo 2016 in Internet Archive. - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (bozza del 10 giugno 1999; sostituita dall'ISO/IEC 8859-7:2003, pubblicata il 10 ottobre 2003)
- ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (bozza del 12 febbraio 1998, pubblicata il 15 luglio 1998)
- ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (bozza del 22 giugno 1999; sostituita dall'ISO/IEC 8859-11:2001, pubblicata il 15 dicembre 2001)
- ISO/IEC 8859-13:1998 Archiviato il 4 gennaio 2015 in Internet Archive. - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (bozza del 15 aprile 1998, pubblicata il 15 ottobre 1998)
- ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (bozza del 1º agosto 1997; sostituita dall'ISO/IEC 8859-15:1999, pubblicata il 15 marzo 1999)
- ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (bozza del 15 novembre 1999; sostituita dall'ISO/IEC 8859-16:2001, pubblicata il 15 luglio 2001)
- Gli standard ECMA, che nelle intenzioni corrispondono esattamente agli ISO/IEC 8859, possono essere reperiti presso:
- Standard ECMA-94: 8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 seconda edizione (giugno 1986)
- Standard ECMA-113: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet terza edizione (dicembre 1999)
- Standard ECMA-114: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet seconda edizione (dicembre 2000)
- Standard ECMA-118: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (dicembre 1986)
- Standard ECMA-121: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet seconda edizione (dicembre 2000)
- Standard ECMA-128: 8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 seconda edizione (dicembre 1999)
- Standard ECMA-144: 8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 terza edizione (dicembre 2000)
- Tabelle di conversione da ISO/IEC 8859-1 a Unicode