Les origines de l’Hypertexte et du Web [3]

En une décennie, Internet a révolutionné le monde. Le monde des médias, de l’édition et celui de l’informatique. Cette révolution, comparable à celle de l’imprimerie au XVe siècle, c’est au Web que nous la devons. Et si je fais cette comparaison, c’est aussi sur le plan technique. Votre écran est en effet une autre imprimante et l’édition de textes pour le Web trouve ses racines dans l’Histoire de la chose imprimée. Retournons vers le passé pour comprendre le présent.

Cette article est le troisième et probablement dernier volet dans une série consacrée à l’histoire du Web. Les deux premiers volets de cette trilogie sont :

Qu’est-ce que l’Édition en fait ?

J’ose ma définition, large, intemporelle et certainement contestable :

L’édition consiste à ordonner des lettres et des signes dans une succession cohérente de lignes disposées dans des emplacements disponibles. L’ensemble constituant un texte.

Ce mot, « texte », nous vient du latin textus qui signifie « tissu », « trame ». Pour communiquer par l’écrit, nous tissons donc nos idées. Le texte étant conçu pour être lu de façon linéaire et séquentielles, ces idées sont découpées suivant une structure logique que des siècles de tradition de l’écrit —du volumen↓ au codex, de l’incunable au livre industriel actuel— ont hiérarchisé en pages, chapitres, paragraphes, etc.

Si vous êtes toujours là, ne soyez pas inquiet cher lecteur : je ne vais pas vous raconter l’évolution des techniques de composition des textes depuis l’invention de l’imprimerie par les chinois au XIe siècle mais faire un détour par le passage de la composition chaude à la composition froide. Il est en effet important de connaître ces faits, qui ont bouleversé le paysage de la communication écrite de ces 50 dernières années, pour comprendre pourquoi la création et la gestion d’un document sur le Web séparent aujourd’hui la forme du contenu.

On attribue trop souvent à Gutenberg l’invention de l’imprimerie au XVe siècle. Si celle-ci fut bien inventée par les chinois au XIe siècle, un autre européen, Marco Polo, tenta de l’introduire au XIIIe siècle. Outre la poudre et les pâtes il ramena en effet de ses voyages dans l’Empire du Milieu, l’idée de l’impression typographique avec des caractères mobiles. Malheureusement, celui-ci devenant sénile, son esprit dérangé lui fit concevoir des caractères en farine de blé, inutilisables pour imprimer quelque écrit que ce soit. Ce document photographique de l’époque, retrouvé dans les archives secrètes du Vatican, nous renseigne sur l’usage qu’il en fit.

Du chaud au froid

C’est au XIXe siècle que furent introduites les premières composeuses mécaniques avec les systèmes Linotype et Monotype permettant non seulement de composer des lignes entières, mais aussi de fondre de nouveaux caractères pour chaque travail de composition, supprimant ainsi la distribution des « fontes ». Auparavant, en effet, des fonderies de caractères produisaient en masse ces polices qui étaient ensuite livrées au compositeur.

Mais l’assemblage manuel par le compositeur de tous les caractères était une tâche laborieuse. C’est pour cette raison (la fonte des polices de caractères chez le compositeur) que l’on parle de composition chaude. Passons maintenant à la composition froide.

En 1948, 2 ingénieurs français, Higonet et Moyroud, ont l’idée d’inventer le premier procédé de photocomposition. Les caractères sont stockés sous forme d’images en négatif disposées dans plusieurs rangées sur un disque qui tourne. Le photocompositeur saisit les caractères au moyen d’un clavier électrique. Un système optique va positionner sur le support photographique les caractères, puis les insoler sur un film par un procédé stroboscopique. On parle alors de « flashage ».

Lumitype (1965) Par Rama, CC BY-SA 3.0 fr, Lien

Les premières machines, les « Photon », furent fabriquées et commercialisées aux USA, puis, sous licence en France (sous le nom de Lumitype), par Charles Peignot qui aura beaucoup de mal à convaincre les imprimeurs français. Obstiné, il conduira même son illustre société à la faillite.

C’est finalement sous l’impulsion des éditeurs que le virage de la photocomposition est engagé. En 1967, un dénommé William W. Tunnicliffe tient une conférence au Canadian Government Printing Office. Son sujet ? La séparation de l’information contenue dans les documents et de leur format.

Le monde de l’édition a en effet toutes les raisons pour pousser dans cette direction : pérennité des contenus stockés sur les bandes magnétiques, frais de réimpression réduits par la réutilisation de textes déjà composés, économies conséquentes sur les corrections au fil du processus éditorial… mais la technologie n’est pas encore là. Restons un instant encore dans cette période si fertile des années 60 où les fondations de la Toile émergèrent.

69, année sémantique

Stanley Rice, un éditeur de New York, propose en cette année, un ensemble « de structures éditoriales » paramétrables. Son idée est de séparer le fond de la forme. D’un côté nous aurions ainsi un contenu structuré en sections, de l’autre, un fichier ancillaire, modifiable à volonté, où les styles seraient définis pour chaque élément structurant le texte.

Pendant ce temps, en Californie, dans les laboratoires d’IBM de San Jose, un dénommé Charles F. Goldfarb a des problèmes avec les imprimantes ( Je plaisainte…). IBM dispose de Script, un langage de codes pour mettre en forme les textes à l’impression. Mais Script est trop dépendant de l’imprimante. L’écho des propos de Tunnicliffe et de Rice, vient alors à Goldfarb et celui-ci convaint IBM de lancer le projet GML.

3 années de recherche et de développement plus part Goldfarb et son équipe proposent donc ce langage de marquage basé sur 2 principes importants :

les marques qu’il nomme aussi « balises » (en anglais marks ou tags) doivent décrire la structure du document plutôt que l’aspect visuel
elles doivent pouvoir être comprises autant par une machine que par un humain

Les Linotype, Monotype et autres Scangraphic intègrent alors GML et ses dérivés. Ces constructeurs ouvrent ainsi une nouvelle voie pour la composition : les compositeurs deviennent des photocompositeurs et se mettent à baliser↓. Dans un premier temps, la saisie est faite au kilomètre, puis les textes sont enrichis de leurs balises, afin de pouvoir expliquer la structure : « titre, sous-titre, paragraphe, liste, etc. » et appliquer les styles : « police de caractères, corps, graisse, déformation, justification, alignement, etc. ». Enfin, le fichier est transmis à l’unité d’écriture, la photocomposeuse.

Très bien. Sauf que les fabricants imposent leurs propres formats de marquage, se réjouissant de pouvoir vendre leurs machines à des clients qui deviennent captifs. Ainsi l’opérateur doit pour telle photocomposeuse écrire :

[CF1]Le titre du chapitre[/]
[sb4]Ce texte doit passer en gras et en tel corps[/]

Tandis que son collègue, sur une autre, utilise un autre marquage : ($y)…($y)etc., … bref, la pagaille organisée. En outre, CF1 n’est pas très « parlant » pour désigner un titre.

Conscients du problème que pose le marquage propriétaire et l’absence de sens des balises, des éditeurs (en France le Syndicat National de l’Edition et, aux USA, l’American Association of Publishers), des spécialistes de la documentation technique dont les systèmes complexes nécessitent des quantités massives de papiers (un modèle d’avion, par exemple, peut exiger plus de 2 millions de pages qui doivent être mises à jour périodiquement) essaient de déﬁnir des normes de balisage. Goldfarb quitte alors IBM et rejoint un groupe de travail, au sein de l’ANSI, qu’il va bientôt diriger afin de définir un format standardisé pour l’échange des textes : une norme qui soit claire et évolutive. Leur travail aboutit à SGML pour Standard Generalized Markup Language et devient rapidement cette norme ISO, … 10 ans plus tard en 1986.

Entre temps, la chaîne graphique (de l’éditeur à l’imprimeur) se trouve bouleversée par l’arrivée de Postscript et de la PAO. Sur une dizaine d’années les typographes, les photocompositeurs, les photograveurs, disparaissent, leurs métiers étant intégrés par les éditeurs.

Reprenons maintenant l’autoroute, celle de l’information, le Web, et intéressons nous au langage qui nous sert à afficher nos pages.

HT quoi ?

Comme vous l’avez (peut-être) lu dans les articles précédents, la réussite du Web qui est aujourd’hui un phénomène culturel et sociétal, repose sur 3 éléments :

des adresses normalisées —les URL— pour localiser des documents sur des serveurs
un protocole de communication —HTTP— pour accéder à ceux-ci
et l’hypertexte pour créer des liens entre ces différents documents.

Le langage utilisé pour décrire ces documents se nomme HTML pour Hypertext Markup Language

Dans les faits, HTML n’est qu’une utilisation particulière, dépouillée dirais-je, de SGML. Cette norme est devenue un métalangage, c’est-à-dire un langage permet en effet, d’écrire d’autres langages. Il constitue à cet égard la matrice commune à tous les langages de description de données que nous trouvons sur le Web aujourd’hui. Pour cette raison Charles Goldfarb, son concepteur, mérite sa place dans notre panthéon du Web.

HTML a donc été conçu par Tim Berners-Lee, l’inventeur de la « Toile », au début des années 1990, depuis SGML.

D’une grande simplicité, il permet de décrire la structure et le contenu d’un document texte ou multimédia↓ (sons, images fixes ou animées) destiné à être publié sur le Web. C’est donc un langage de description de documents, et non, un langage de programmation. Dans son livre « Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web », Berners-Lee explique sa décision de baser HTML sur SGML comme étant aussi « diplomatique que technique : techniquement, il trouvait SGML trop complexe, mais il voulait attirer la communauté hypertexte qui considérait que SGML était le langage le plus prometteur pour standardiser le format des documents hypertexte. »

Il faudra attendre 8 années pour que HTML devienne mature

de 1990 à 1992, HTML ne sert qu’à éditer des textes, ordonnés toutefois, en titres, paragraphes et listes. La lecture des documents s’effectue avec « nexus », un navigateur en mode texte↓, développé à l’origine par Berners-Lee
en 1992 sort le 1er navigateur en mode graphique, « Mosaic ». L’arrivée de Mosaic fut salutaire : HTML passe de la version 1.0 à la version 2.0 permettant l’insertion d’images, de formulaires et de tableaux
en 1994 l’ancêtre de Firefox débarque : c’est « Netscape Navigator ». Outre de nombreuses améliorations portées au code, Netscape introduit les premiers éléments HTML de présentation et la notion de feuille de style externe. Ces CSS vont permettre la stylisation hors du document HTML. HTML ne sert plus alors, qu’à définir la structure du document HTML, tandis que la feuille de style CSS séparée décrit la manière de le présenter. Mais ce n’est qu’en 1998 que le W3C publie la spécification de la version actuelle : HTML 4.0x

L’arrivée des feuilles de style, marque le début de ce que l’on va nommer le « balisage sémantique ». Le but originel de cette séparation entre le contenu et sa présentation est de rendre les pages HTML accessibles par des appareils aussi divers que des PC, des PDA ou un téléphone portable. Mais aussi de rendre accessibles ces pages pour les handicapés qui utilisent des lecteurs vocaux ou des plages brailles qui s’adaptent en fonction des balises qu’ils rencontrent.

J’ai dit « sémantique » ?

Oui. En parlant des balises. Pas du Web. Le Web sémantique regroupe des technologies (XML, RDF, micro-formats, …) qui n’ont rien à voir avec le balisage sémantique HTML.

Je vous l’accorde : le choix du vocable « sémantique » (par je-ne-sais-qui) prête à confusion. La sémantique, selon mon « Petit Robert » désigne un langage considéré du point de vue du sens. Les moteurs d’aujourd’hui ne comprennent rien aux requêtes qu’ils reçoivent et ne comprennent pas non plus les résultats qu’ils renvoient. Pensez-vous que leurs robots qui viennent visiter nos pages comprendront que le « Petit Robert » auquel je me réfère est un dictionnaire ? Non bien sûr : cela pourrait être tout aussi bien mon voisin de palier que je nomme ainsi. Le codage HTML avec des balises sémantiques ne permet pas donc de faire de « la sémantique », mais d’indiquer la caractéristique ou le rôle de l’expression balisée dans le texte.

Vous voilà rendu à la fin de mon histoire du Web à la manière de « l’Oncle Paul ».

Prochainement je ferai peut être une suite, plus technique, sur le balisage sémantique et HTML5…

Dans l’attente de vos commentaires etc.

Rétroliens/Pings

Les origines de l'Hypertexte et du Web, la suite! | boomboom - […] de l’épisode : dans le prochain volet il sera question de l’Écrit et des langages à balises. Vous pouvez…
Les origines de l'Hypertexte et du Web | boomboom - […] Ainsi, dans le prochain épisode, où nous allons entrer dans l’histoire du Web, vous apprendrez à votre tour, qu’Apple…
Petite histoire de la programmation informatique made in France | boomboom - […] regarder ce qui se passait de l’autre coté de l’Atlantique au même moment, alors que l’internet se préparait. Le…