UX/Text/i18n/Encoding/All/comparatif_encodage.theory.txt


                       
   COMPARATIF_ENCODAGE  
                       

NOM             LONGUEUR    UTILISE PAR         DESCRIPTION
________________________________________________________________________________

ISO 646         7 bits      Obsolète           Ensemble de charsets partageant
IA5                                             des caractères invariables, 20
                                                caractères étant variables pour
                                                permettre des variations locales
ASCII           7 bits      Application de      Version américaine de l'ISO 646
                            bas niveau
EDBDIS          7 bits      Superordinateurs    Concurrent (échec) propriétaire
                            IBM                 IBM de l'ASCII. Décliné en
                                                versions pseudo-Latin-1, pseudo-
                                                Unicode, etc. par la suite
________________________________________________________________________________

CP437           1 octet     Vieux DOS           Comme ASCII, mais utilise le
                            (obsolète)         8ème bit pour représenter 128
                                                caractères étendus. Utilise des
                                                représentations graphiques des
                                                control characters
CP850           1 octet     Même chose         Modification de CP437
CP858           1 octet     Invité de          Ajout de € à CP850
                            commandes DOS

Mac OS Roman    1 octet     Mac OS (et non      Comme ASCII, mais utilise le
                            Mac OS X)           8ème bit pour représenter 128
                                                caractères étendus

IEC-6937        1 octet     Obsolète           Autre version étendue d'ASCII
________________________________________________________________________________

ISO-8859        1 octet     ISO-8859-1          Ensemble de 16 charsets
                                                partagean l'ASCII, et utilisant
                                                le 8ème bit pour représenter 128
                                                caractères étendus, en fonction
                                                du pays
ISO-8859-1      1 octet     Devient obsolète,  Version occidentale d'ISO-8859
Latin-1                     en faveur
CP819                       d'Unicode
Europe
occidentale
ISO 8859-15     1 octet     Devient obsolète,  Comme ISO 8859-1, mais introduit
Latin-9                     en faveur           l'€ et quelques autres
Latin-0                     d'Unicode           caractères rares européens

Windows-1252    1 octet     Windows 3.0 à      Concurrent propriétaire
ANSI                        Windows 98          Microsoft de Latin-1. Remplace
CP1252                      Ancien IE           seulement les control characters
                                                "haut" par des caractères
                                                imprimables
________________________________________________________________________________

UTF-8           1 à 4      Unix (sauf Mac      Encodage Unicode rétro-
                octets      OS X)               compatible ASCII. ASCII= 1 octet
                                                BMP = 2 ou 3 octets.
                                                Unicode étendu = 4 octets.
                                                Utilise clef pour indiquer les
                                                deux derniers :
                                                - ASCII (00-7F), pas de clef
                                                - Unicode : clef (C0-FF) puis
                                                  1, 2 ou 3 caractères (80-BF) :
                                                    - C0-DF : 2 caractères
                                                    - E0-EF : 3 caractères
                                                    - F0-FF : 4 caractères
UCS-2           2 octets    Symbian, Python     Unicode. Pas de clef. Toujours
                                                2 octets
UTF-16          2 ou 4      Mac OS X, Windows   UCS-2, avec ajout de clef (D800-
                octets      2000 et +, .NET,    DFFF) pour indiquer un caractère
                            Cocoa, Qt           en dehors du BMP
UTF-32          4 octets    Déprécié         Unicode. Pas de clef. Toujours
UCS-2                                           4 octets
CESU-8          1 à 6      Oracle (mais        Mixte entre UTF-8 et UTF-16
                octets      sinon déprécié)
Modified UTF-8  1 à 6      Java                Comme CESU-8, mais permet de
                octets      (partiellement)     mettre des null dans une
                                                C-String