UNICODE:

Décrire ce qui n’existe pas …


A l’invite de Patrick Andries
sur fr.comp.normes.unicode,
 Compilateur répondait début août  2002 :
>
  J'aimerais obtenir, 
 afin qu'on y réponde dans un article à publier, 
 les questions que se posent les utilisateurs 
 au sujet d'Unicode 
 ou les critiques qu'ils émettent 
 à l'encontre de ce standard.
>
Confronté à une difficulté pratique, 
je viens de lire votre demande, 
et y réponds un peu tardivement.
 
Ma question est relativement simple: 
peut-on créer par Unicode des caractères chinois 
qui n'y figurent pas 
- pas encore s'ils sont rares, 
- ou non susceptibles d'être codifiés 
car ils n'existent pas encore ?
 
A la main, 
ceci ne présente aucune difficulté et peut rendre service – 
j'avais ainsi à inscrire dans un de ces hôtels de province 
un collègue dont le nom se prononçait plus ou moins Sichons 
- et cette partie de la fiche devait être obligatoirement remplie 
en caractères respectant suffisamment la phonétique 
pour que l'hôte se retourne quand on l'appellerait. 
 
J'ai alors inventé un +, +  
qui a donné toute satisfaction 
(il s'agissait à l'évidence d'une personne, 
dont le nom était, plus ou moins, Sichons). 
L'on pouvait certes trouver mieux - mais
au moins cette approximation m'était possible, 
et n'a choqué personne. 
 
Quel truc utiliser en informatique pour arriver au même résultat ? 
Est-il possible, en somme, de combiner 
亻 avec 5341, puis avec 4E09 ?
 
Je ne crois pas, mais sait-on jamais ... 
Le mieux auquel je sois parvenu, par FF72
 (http://www.unicode.org/charts/PDF/UFF00.pdf . 
Voyez si l'on cherche ! ), 
イ十 イ三  au lieu de 亻十 亻三 ne me satisfait guère. 
 
Et puis cela ne marche qu'avec les katakana disponibles ...
 
Ø Jores - 
Ce que je me rappelle d'avoir lu il y a peu de semaines 
quand, à propos des radicaux 'oreille droite'/'oreille gauche', 
je faisais une recherche sur Internet à ce sujet 
c'est que le projet Unicode prévoit la possibilité 
de créer de nouveaux caractères à partir de clé 
et d'autres signes, 
mais que personne ne l'a encore fait, 
même pas des entreprises. 
Mon interprétation 
c' est qu'en ce moment ce n'est pas possible de le faire.
>
 JVG : C'est bien ce que je pressentais 
- avec, malgré tout, une (toute petite) ouverture: 
puisque le projet "prévoit la possibilité de", 
que faut-il pour mettre en pratique ? 
 
Jean-Marc Desperrier 
> Le chapitre 11 de la traduction française d'unicode
http://iquebec.ifrance.com/hapax/pdf/Chapitre-11.pdf 
explique dans le chapitre "Description idéophonographique" 
comment de nouveaux caractères peuvent être décrits 
grâce aux éléments présents dans le bloc suivant :
Ø (http://www.unicode.org/charts/PDF/U2FF0.pdf )
 
Ø Cependant en plus de ne pas être implémenté en pratique, 
 
une telle solution ne permet pas justement de décrire 
très précisément 
la forme que doivent prendre les traits, 
ça marche pour les cas simple du type 
coller le caractère personne 
et celui pour trois, 
mais pas pour des choses plus complexes.
>
JVG : Merci pour toutes ces précisions. 
 
J'étais au départ moins pessimiste que vous 
sur les possibilités offertes par les éléments d'information 
sur la composition de nouveaux caractères (bloc 2FF0). 
 
Cette méthode est en effet  voisine de deux autres 
utilisées pour la représentation de caractères ou de kanjis 
(Cangjie * ou SKIP) 
qui semblent donner toute satisfaction à leurs utilisateurs. 
 
L'ennui, c'est qu'il y a différentes possibilités 
pour décrire le caractère souhaité, 
même s'il est relativement simple, 
et que les règles établies pour les décrire 
afin d'arriver à une relation univoque sont donc très strictes, 
parfois limite arbitraire. 
 
Chacune des deux méthodes a en outre 
son reliquat d'inclassables, 
ce qui témoigne de certaines faiblesses systématiques 
- normal, puisqu'elle utilisent une logique différente 
de celle de la construction des caractères, 
fondée sur les 21 traits de base.
 
Toutes les méthodes de classification chinoises 
se sont heurtées à ces difficultés, 
y compris les dictionnaires de facture classique 
(certains caractères figurent sous plusieurs clefs, 
et une poignée d'irréductibles sous aucune).
 
Ceci étant, la complexité du caractère 
n'est pas un obstacle dirimant à sa description.
Exemple , 20 traits: 
clef de l'eau  à gauche, 
partie droite décomposée en supérieure et inférieure, 
partie supérieure deux parties horizontale,  et , 
partie inférieure  ou 
décomposée à son tour en deux parties verticales,
 et , 
 
un beau bébé analysable en 
U+2FF0 
2FF1 * 
2FF0  每夂 
2FF1 *幺小
qui devrait faire l'affaire: 
la description de la partie traitée d'un caractère 
est toujours suivie du contenu de cette partie. 
 
Ici, deux parties verticales (2FF0), 
la partie de gauche simple, 
celle de droite décomposée en haut et bas (2FF1), 
le haut décomposé en deux verticales (2FF0) 
et le bas en deux horizontales (2FF1).
 
Le résultat cependant 
( vous pardonnerez la naïveté du trait. 
Je suis très mauvais graphiste, alors, à la souris ...) 
est décevant: 
aucune information n'a pu être fournie 
sur la taille respective des composantes, 
d'où une partie gauche surdimensionnée.
 
Cette discrétion des clefs en composition 
pourrait certes être prise en compte par le biais 
de nouveaux symboles, 
mais le registre consacré à l'opération 
n'y suffirait probablement pas 
- il ne reste que 3 "disponibles" dans la série 2FF. 
 
Ceci pourrait être corrigé 
par un logiciel d'interprétation des codes, 
puisqu'au demeurant les codes concernés 
(ceux dont les caractères prennent 
un aspect filiforme ou tassé)
 sont relativement aisés à circonscrire, 
mais nous en sommes loin.
 
Ø JM Desperrier : 
Ø Avec les 42,711 caractères ajoutées dans unicode 3.1, 
il est peut probable de trouver un caractère existant 
qui n'est réellement pas encodé dans unicode.
>
Ø En fait unicode a pour but d'encoder un caractère 
en fonction de son sens, 
et pas en fonction des diverses formes graphiques 
qu'il peut prendre (la glyphe). 
La représentation à ce niveau là dépend 
de la police choisie. 
Donc dans la plupart des cas un caractère 
qu'on ne trouve pas 
existe en fait déjà dans unicode, 
mais il est représenté sous une forme standardisée, 
et pas exactement sous la variante souhaitée, 
la solution officielle unicode est alors de trouver la police 
qui le représente de la manière souhaitée 
et de la sélectionner pour l'affichage.
>
JVG : On ne le répètera jamais assez 
- les variantes ne sont que ce qu'elles sont, 
et il y a suffisamment de raisons de confondre 
des caractères distincts, 
pour ne pas s'épuiser à distinguer des caractères 
qui sont les mêmes ... 
Mais le message a souvent du mal à passer, 
surtout auprès de ceux et celles 
n'ayant pas l'habitude de ces malices caractérielles 
cependant fort bien acceptées par chez nous – 
voir la multiplication de polices alphabétiques 
toutes plus originales les unes que les autres.
 
A propos, polices.htm 
RETOUR vers l’ ENCODEUR
VISITER CCDICT 
jvg, 26.8.2002
 

Attention – La page http://www.cjmember.com/

a récemment changé de structure.

Les liens fournis sur fllcjvg

ne fonctionnent donc plus nécessairement

mais les informations sont toujours

disponibles sur le site d’origine,

et accessibles moyennant un minimum de recherches.

Les composantes du bloc 2FF en format image

2FF02FF1*2FF2*2FF3

2FF42FF52FF62FF7

2FF82FF92FFA2FFB