Follow Techotopia on Twitter

On-line Guides
All Guides
eBook Store
iOS / Android
Linux for Beginners
Office Productivity
Linux Installation
Linux Security
Linux Utilities
Linux Virtualization
Linux Kernel
System/Network Admin
Programming
Scripting Languages
Development Tools
Web Development
GUI Toolkits/Desktop
Databases
Mail Systems
openSolaris
Eclipse Documentation
Techotopia.com
Virtuatopia.com
Answertopia.com

How To Guides
Virtualization
General System Admin
Linux Security
Linux Filesystems
Web Servers
Graphics & Desktop
PC Hardware
Windows
Problem Solutions
Privacy Policy

  




 

 

Debian GNU/Linux Reference Guide
Prev Home Next

9.7.3 Introduzione ai locale

Una descrizione completa di locale consiste in 3 parti: xx_YY.ZZZZ.

  • xx: ISO 639 codici lingua (minuscolo)

  • YY: ISO 3166 codici nazione (maiuscolo)

  • ZZZZ: codeset, cio� set di caratteri od identificatore di codifica.

Per i codici lingua e nazione, vedere una descrizione pertinente in info gettext.

Notate che la parte codeset pu� venire normalizzata internamente per ottenere una compatibilit� cross platform rimuovendo tutti i - e convertendo tutti i caratteri in minuscolo. Codeset tipici sono:

  • UTF-8: Unicode per tutte le regioni, principalmente in Ottetti 1-3 (il nuovo standard di fatto)

  • ISO-8859-1: western Europe (di fatto il vecchio standard)

  • ISO-8859-2: eastern Europe (Bosnian, Croatian, Czech, Hungarian, Polish, Romanian, Serbian, Slovak, Slovenian)

  • ISO-8859-3: Maltese

  • ISO-8859-5: Macedonian, Serbian

  • ISO-8859-6: Arabic

  • ISO-8859-7: Greek

  • ISO-8859-8: Hebrew

  • ISO-8859-9: Turkish

  • ISO-8859-11: Thai (=TIS-620)

  • ISO-8859-13: Latvian, Lithuanian, Maori

  • ISO-8859-14: Welsh

  • ISO-8859-15: western Europe con euro

  • KOI8-R: Russian

  • KOI8-U: Ukrainian

  • CP1250: Czech, Hungarian, Polish (MS Windows origin)

  • CP1251: Bulgarian, Byelorussian (MS Windows origin)

  • eucJP: Unix style Japanese (=ujis)

  • eucKR: Unix style Korean

  • GB2312: Unix style Simplified Chinese (=GB, =eucCN) for zh_CN

  • Big5: Traditional Chinese for zh_TW

  • sjis: Microsoft style Japanese (Shift-JIS)

Per quanto riguarda il gergo del sistema base di codifica:

  • ASCII: 7 bit (0-0x7f)

  • ISO-8859-?: 8 bit (0-0xff)

  • ISO-10646-1: Universal Character Set (UCS) (31 bit, 0-0x7fffffff)

  • UCS-2: Primi 16 bit di UCS, 2 Ottetti pieni (Unicode: 0-0xffff)

  • UCS-4: UCS 4 Ottetti pieni (UCS: 0-0x7fffffff)

  • UTF-8: UCS codificcato in 1-6 Ottetti (principalmente in 3 Ottetti)

  • ISO-2022: 7 bit (0-0xff) con la sequenza di escape ISO-2022-JP � la codifica pi� popolare per la posta elettronica in Giapponese.

  • EUC: Combinazione 8 bit + 16 bit (0-0xff), Unix style

  • Shift-JIS: Combinazione 8 bit + 16 bit (0-0xff), Microsoft style.

ISO-8859-?, EUC, ISO-10646-1, UCS-2, UCS-4, ed UTF-8 condividono lo stesso codice con ASCII per i caratteri a 7 bit. EUC o Shift-JIS usa caratteri high-bit (0x80-0xff) per indicare che parte della codifica � a 16 bit. Anche UTF-8 usa caratteri high-bit (0x80-0xff) per indicare byte con sequenze di caratteri non a 7 bit, e questo � il sistema di codifica pi� sano per gestire i caratteri non-ASCII.

Notate la differenza nell'ordine dei byte della implementazione Unicode:

  • Standard UCS-2, UCS-4: big endian

  • Microsoft UCS-2, UCS-4: little endian per ix86 (macchina-dipendente)

Vedere Convertire un file di testo con recode, Sezione 8.6.12 per la conversione fre i vari set di caratteri. Per maggiori informazioni, vedere Introduzione a i18n.


Debian GNU/Linux Reference Guide
Prev Home Next

 
 
  Published under the terms of the GNU General Public License Design by Interspire