-
Notifications
You must be signed in to change notification settings - Fork 16
/
comparatif_encodage.theory.txt
81 lines (72 loc) · 5.34 KB
/
comparatif_encodage.theory.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
COMPARATIF_ENCODAGE
NOM LONGUEUR UTILISE PAR DESCRIPTION
________________________________________________________________________________
ISO 646 7 bits Obsolète Ensemble de charsets partageant
IA5 des caractères invariables, 20
caractères étant variables pour
permettre des variations locales
ASCII 7 bits Application de Version américaine de l'ISO 646
bas niveau
EDBDIS 7 bits Superordinateurs Concurrent (échec) propriétaire
IBM IBM de l'ASCII. Décliné en
versions pseudo-Latin-1, pseudo-
Unicode, etc. par la suite
________________________________________________________________________________
CP437 1 octet Vieux DOS Comme ASCII, mais utilise le
(obsolète) 8ème bit pour représenter 128
caractères étendus. Utilise des
représentations graphiques des
control characters
CP850 1 octet Même chose Modification de CP437
CP858 1 octet Invité de Ajout de € à CP850
commandes DOS
Mac OS Roman 1 octet Mac OS (et non Comme ASCII, mais utilise le
Mac OS X) 8ème bit pour représenter 128
caractères étendus
IEC-6937 1 octet Obsolète Autre version étendue d'ASCII
________________________________________________________________________________
ISO-8859 1 octet ISO-8859-1 Ensemble de 16 charsets
partagean l'ASCII, et utilisant
le 8ème bit pour représenter 128
caractères étendus, en fonction
du pays
ISO-8859-1 1 octet Devient obsolète, Version occidentale d'ISO-8859
Latin-1 en faveur
CP819 d'Unicode
Europe
occidentale
ISO 8859-15 1 octet Devient obsolète, Comme ISO 8859-1, mais introduit
Latin-9 en faveur l'€ et quelques autres
Latin-0 d'Unicode caractères rares européens
Windows-1252 1 octet Windows 3.0 à Concurrent propriétaire
ANSI Windows 98 Microsoft de Latin-1. Remplace
CP1252 Ancien IE seulement les control characters
"haut" par des caractères
imprimables
________________________________________________________________________________
UTF-8 1 à 4 Unix (sauf Mac Encodage Unicode rétro-
octets OS X) compatible ASCII. ASCII= 1 octet
BMP = 2 ou 3 octets.
Unicode étendu = 4 octets.
Utilise clef pour indiquer les
deux derniers :
- ASCII (00-7F), pas de clef
- Unicode : clef (C0-FF) puis
1, 2 ou 3 caractères (80-BF) :
- C0-DF : 2 caractères
- E0-EF : 3 caractères
- F0-FF : 4 caractères
UCS-2 2 octets Symbian, Python Unicode. Pas de clef. Toujours
2 octets
UTF-16 2 ou 4 Mac OS X, Windows UCS-2, avec ajout de clef (D800-
octets 2000 et +, .NET, DFFF) pour indiquer un caractère
Cocoa, Qt en dehors du BMP
UTF-32 4 octets Déprécié Unicode. Pas de clef. Toujours
UCS-2 4 octets
CESU-8 1 à 6 Oracle (mais Mixte entre UTF-8 et UTF-16
octets sinon déprécié)
Modified UTF-8 1 à 6 Java Comme CESU-8, mais permet de
octets (partiellement) mettre des null dans une
C-String