Hypertexte et Infratexte

Jean-Marc Lepers

Laboratoire Paragraphe

Université Paris VIII

________________________________________________________________

"Professionally our methods of transmitting and reviewing the results of research are generations old and by now are totally inadequate for their purpose. If the aggregate time spent in writing scholarly works and in reading them could be evaluated, the ratio between these amounts of time might well be startling. Those who conscientiously attempt to keep abreast of current thought, even in restricted fields, by close and continuous reading might well shy away from an examination calculated to show how much of the previous month's efforts could be produced on call. Mendel's concept of the laws of genetics was lost to the world for a generation because his publication did not reach the few who were capable of grasping and extending it; and this sort of catastrophe is undoubtedly being repeated all about us, as truly significant attainments become lost in the mass of the inconsequential."

"The real heart of the matter of selection, however, goes deeper than a lag in the adoption of mechanisms by libraries, or a lack of development of devices for their use. Our ineptitude in getting at the record is largely caused by the artificiality of systems of indexing. When data of any sort are placed in storage, they are filed alphabetically or numerically, and information is found (when it is) by tracing it down from subclass to subclass. It can be in only one place, unless duplicates are used; one has to have rules as to which path will locate it, and the rules are cumbersome. Having found one item, moreover, one has to emerge from the system and re-enter on a new path.

The human mind does not work that way. It operates by association. With one item in its grasp, it snaps instantly to the next that is suggested by the association of thoughts, in accordance with some intricate web of trails carried by the cells of the brain. It has other characteristics, of course; trails that are not frequently followed are prone to fade, items are not fully permanent, memory is transitory. Yet the speed of action, the intricacy of trails, the detail of mental pictures, is awe-inspiring beyond all else in nature." Vannevar BUSH [BUS 45]

Cette citation est bientôt cinquantenaire. Elle date d'une époque où la conceptualisation de l'informatique se mettait seulement en place. Avant même que les premiers calculateurs soient modélisés puis construits, Vannevar Bush exprimait déjà le besoin de systèmes d'organisation de l'information scientifique qui dépassent le cadre borné des institutions de diffusion traditionnelles de la pensée : éditeurs, médias divers, universités, et leurs systèmes de classement indexés et hiérarchisés. A noter dans ces longues citations que la notion de "web", qui explose aujourd'hui sur l'Internet sous la forme du World Wide Web, était déjà présente dans la conception originale de 1945.

Entre Bush, directeur de l'Office of Scientific Research and Development américain, et le World Wide Web conçu par le CERN [BER 94], initialement pour répondre aux besoins de communication et d'information des physiciens nucléaires, Ted Nelson [NEL 70] aura en 1960 l'idée de ce qu'il nomme les "hypertextes", premier élément d'une longue série d"hyper" en tous genres, qui pourraient l'aider à concevoir et écrire des livres de philosophie. Cette idée de la possibilité d'un traitement spécifique des données conceptuelles par l'informatique germe assez spontanément dans l'esprit de tous ceux qui l'utilisent, même aux époques reculées de l'informatique des années 60. J'en veux pour preuve l'avertissement que j'avais placé au début de ma propre thèse en Sciences Economiques, présentée en 74, alors que j'avais passé une année en 69 à concevoir des traitements informatisés de données économiques :

"Cet ouvrage est conçu de manière linéaire, historique : les éléments étudiés tour à tour ont fait chacun en leur temps l'objet d'une étude précise. Chaque texte est dépassé par les textes qui le suivent : il semble en effet impossible de créer un texte qui soit d'emblée entièrement cohérent, pour cette seule raison que l'écriture elle-même est linéaire, alors que le stockage des données dans le cerveau humain s'apparente probablement plus à un stockage en trois dimensions, ou même multidimensionnel : en effet le cerveau humain est toujours capable de mettre en rapport des éléments distincts à la fois dans le temps et dans l'espace. N'importe lequel des concepts employés dans notre étude peut de fait être relié à une quasi-infinité d'autres concepts, à une quasi-infinité de domaines de l'anthropologie, de l'ethnologie, de l'histoire des religions, de l'histoire politique et économique, de la sociologie, de la biologie, des mathématiques, de la physique, etc. En fait, il s'agit là réellement d'un travail sur une multitude de dimensions, tel qu'est capable de le mener par exemple un ordinateur." [LEP 74]

Cette citation, très personnelle, date également de plus de vingt ans, c'est-à-dire d'une époque où les programmes s'écrivaient dans la plupart des cas sur des cartes perforées, en Cobol ou en Fortran. En quoi avons-nous réellement avancé sur le chemin du projet initial, la multi-dimensionalité ?

Réellement, pas autant qu'il pourrait paraître à première vue. D'abord, il faut souligner que la diffusion de l'idée même de l'hypertexte a été très lente; le texte de Nelson n'est édité qu'en 70, par une petite société d'informatique spécialisée dans le logiciel micro appelée "Microsoft"; c'est très loin d'être un grand succès d'édition. Il y a une dizaine d'années encore, la plupart des professionnels de l'informatique ne savaient pas ce qu'est un hypertexte, ou le considéraient comme un gadget; quant aux littéraires, leur respect du texte imprimé, largement confondu avec les intérêts des éditeurs, les empêchait de considérer les hypertextes autrement que, au mieux, comme un moyen de naviguer commodément dans du texte écrit, au pire, comme une espèce de crime contre les bonnes manières de penser.

Ensuite, il ne faudrait pas croire que l'apparent succès public des hypertextes, et leur diffusion spectaculaire sous la forme du Web, nous aient fait brusquement pénétrer dans l'ère nouvelle du Cyberspace. Douglas Engelbart [ENG 94], pionnier de l'hypermédia, qui présentait dès 1968 le système Augment/NLS incluant une interface graphique-souris et la transmission de textes et images entre sites distants, remarquait à la dernière conférence de l'ACM-Siglink sur les hypertextes que le développement spectaculaire des technologies informatiques, en particulier multimédia, et de l'user-friendliness, signifiait en général friendly to the novice user. Il déclarait sans ambages que les utilisateurs expérimentés étaient en fait de plus en plus pénalisés par des interfaces conçues pour des utilisateurs naïfs, que les tâches complexes demeuraient complexes et qu'à cette complexité s'ajoute aujourd'hui celle de devoir impérativement utiliser des programmes et des interfaces conçus pour le plus grand nombre. Presque tous les programmes automatisent les tâches les plus triviales, mais ne sont pratiquement d'aucune utilité, ou sont même pénalisants, dès qu'il s'agit de créer, d'organiser ou de transmettre de la pensée complexe.

Les progrès de l'informatique dans les méthodes mises en oeuvre pour générer des formalisations non triviales peuvent sembler extrêmement lents, et ce particulièrement en regard de la puissance l'outil et de sa diffusion de masse. Pourquoi ? Je m'appuie une fois encore sur Douglas Engelbart pour affirmer que la structuration actuelle des programmes, y compris celle de la plupart des systèmes d'exploitation avec leur structure de fichier arborescente, est tellement influencée par des modèles de représentation naïfs ou de sens commun qu'il vaut mieux reprendre le problème à la base. Nous avons d'abord besoin d'une représentation correcte de la manière dont nous traitons de manière ordinaire les données.

La méthode classificatoire et arborescente, de sens commun dans l'espace occidental, opère selon une logique de segmentation, et d'inclusion et d'exclusion. dans des ensembles hiérarchisés et fermés. Cette méthode était déjà critiquée en 45 par Vannevar Bush; elle est radicalement opposée au principe même des hypertextes. Elle oblige tout concepteur, lié par la structure, à se reposer continuellement la célèbre question du capitaine Haddock : dormir avec la barbe au-dessus ou au-dessous du drap, ou l'épineuse question de savoir si les anges ont un sexe ou non. Il s'agit là, inscrit dans nos systèmes d'exploitation de données, d'une tradition classificatoire particulière dont quelques travaux d'ethnologues de terrain peuvent nous montrer qu'elle est liée à une culture particulière, hiérarchique, transcendante, voire totalitaire, et qu'elle n'est pas partagée par des cultures non touchées par l'entreprise religieuse et étatique. Deux chemins sont possibles pour réussir à créer des systèmes hypertextuels dépassant une application particulière : la création de programmes de gestion de données "au dessus" des applications et des formats de données préexistants [DAV 92] [RIZ 92], et, à l'inverse, la création de systèmes d'exploitation intégrant la possibilité de liens hypertextuels. Troisième voie : mettre à profit l'existence d'un réseau mondial pour créer un "Web" n'offrant pas pour l'instant de possibilités étendues de traitement local des données.

Le "Web", fondé sur un format de description de document appelé "HTML", adoptant la syntaxe du langage SGML, permet de gérer des relations, principalement de type hypertextuel, au niveau mondial. De fait, l'existence du Web démontre aujourd'hui clairement que la syntaxe hypertextuelle simple des nœuds et des liens peut être adoptée comme support de la circulation d'informations aussi bien par des physiciens nucléaires, historiquement premiers utilisateurs, que par des géographes, artistes, anthropologues ou journalistes, en bref par toutes les personnes ayant une habitude même minimale de structurer ses données. De mon point de vue, l'expression de type littéraire, sans doute beaucoup trop marquée par la tradition classificatoire-arborescente, passe très mal sur un réseau qui s'accommode mal de la vision "globale", voire "totalitaire", présente dans l'œuvre littéraire affectée de la nécessité d'un parcours temporel (début-fin, introduction-conclusion, etc.).

La méthode "noeuds-liens", aujourd'hui généralisée, ne permet pas en elle-même de traitements spécifiques et locaux des données. Ces traitements, s'il y en a, dépendent des programmes résidents sur les serveurs. Il est très difficile, et peut-être peu souhaitable, de les normaliser, dans la mesure où les besoins d'un anthropologue, par exemple, sont assez éloignés de ceux d'un artiste ou d'un physicien. Pour l'instant, les projets d'amélioration de la norme portent sur l'amélioration des possibilités d'affichage du "browser" : zones sélectives dans une image, définitions de plusieurs types de liens, zones de sélection avec ascenseur. Quelques équipes travaillent sur l'interfaçage avec les systèmes d'interrogation de données standard (SQL, en particulier).

Je ne m'intéresse ici qu'aux méthodes permettant à un chercheur en anthropologie de créer le réseau de données dont il a besoin pour l'organisation de son travail.

L'anthropologie est une science un peu particulière, en ce sens qu'elle couvre un champ extrêmement large, et que les données y sont particulièrement disparates. Les méthodes de type "full-text", qui peuvent s'appliquer dans des champs bien formés, et en particulier dans les domaines techniques où la sémantique est relativement close, ne peuvent s'appliquer efficacement au champ de l'anthropologie.

Les méthodes de type "full-text" s'appliquent correctement à des ensembles de textes dans lesquels tous les documents sont considérés comme potentiellement pertinents, et donc tous également traités par le dispositif. C'est parfaitement le cas dans une documentation technique, où la redondance est relativement limitée et où chaque document correspond à un besoin ou une requête particulier. En quelque sorte, le système de requête qui peut être employé dans une documentation technique est implicite dans la structuration des documents eux-mêmes. A l'inverse, presque aucun des documents intéressant un anthropologue n'a été conçu en fonction d'un travail anthropologique.

La présélection des textes est donc une étape indispensable. Cette étape, dans le domaine, est presque entièrement "manuelle". Elle consiste à sélectionner dans un corpus immense des documents significatifs, c'est-à-dire peu redondants. De fait, le document significatif est également celui où plusieurs concepts intéressant le chercheur sont "liés"; dans la terminologie des hypertextes, le document est donc un "nœud" d'informations, les concepts jouant alors le rôle de "liens".

Le travail informatique dans ces conditions consiste en l'application d'opérateurs sur une base de données textuelles présélectionnées. Il consiste à mettre en évidence des liens multiples entre les documents, sans se poser le problème d'un hypothétique accès à l'intégralité de l'information.

D'autre part, il s'agit d'opérateurs conçus par un chercheur pour son domaine particulier : il ne s'agit pas du tout de proposer un parcours de type "pédagogique", et il est probable que ce type d'opérateurs est inutilisable à cette fin.

Enfin, je tiens à souligner qu'en l'occurrence, le travail de recherche en anthropologie, avec sa problématique propre, et le développement d'application ont été menés en commun, et que l'élaboration d'opérateurs informatiques particuliers n'est pas une activité qui peut être radicalement séparée des activités "ordinaires" du traitement de l'information. Les outils de programmation sont de plus en plus puissants et de plus en plus simples à mettre en oeuvre; je fonde pour ma part beaucoup d'espoirs sur l'adaptabilité grandissante de ces outils aux besoins de leurs utilisateurs.

Je prends le parti d'une description historique des méthodes mises en œuvre, parce qu'elles me semblent répondre, chacune en leur temps, aux insuffisances des systèmes ordinaires de traitement de données disponibles sur le marché.

Dans un premier temps, il faut définir une unité sémantique de base. Les travaux du groupe "Paragraphe" ont montré que l'unité la plus commode est... le paragraphe, qui peut être étendu éventuellement à un ensemble de quelques paragraphes, selon la prolixité des auteurs. Ce ou ces paragraphes doivent autant que possible synthétiser une pensée, lier des concepts, et fournir plutôt un résultat, un ensemble de liens, qu'une démonstration rhétorique plus ou moins laborieuse. Je souligne ce point parce qu'il n'est pas évident que les procédures hypertextuelles puissent s'adapter aux structures argumentaires, voire, pire, militantes, qui forment la trame de fond de beaucoup d'écrits en sciences humaines.

Ensuite, chaque document se verra attribuer plusieurs appartenances. On distinguera évidemment les documents référencés, de quelque nature qu'ils soient, des notes personnelles. Chaque document ou note peut se voir affecter un nombre illimité de mot-clés créés au gré du lecteur-concepteur. En l'occurrence, il apparaît assez rapidement que le nombre des mot-clés affectés à un texte n'est pas du tout fonction de la taille du texte lui-même; la "condensation" des concepts dans les textes est excessivement variable. Evidemment, dans ce type de base, un texte fortement polysémique sera toujours favorisé. Par effet de convergence, l'écriture des notes elles-mêmes tend à suivre le même modèle : en condensant d'une manière peut-être un peu brutale, on peut dire que si l'écriture classique vise à produire de belles démonstrations ou descriptions, l'écriture hypertextuelle vise à produire des textes sur lesquels on pourra appliquer un grand nombre de liens. La structure des liens, en elle-même, tient lieu de démonstration. Ou, pour l'exprimer autrement, elle forme en elle même un "métatexte" qui donne des sens particuliers, par les rapprochements qu'il génère, aux documents qu'il relie.

 

Si l'opération de condensation que représente la pose des mot-clés est relativement maîtrisable par l'opérateur, le métatexte constitué de l'ensemble des liens devient rapidement beaucoup trop complexe pour être perçu, même par le créateur de la base. Une recherche sur un concept, il est vrai particulièrement difficile à classer, comme celui d'"Idée", ramène, outre quelques textes de philosophie qui n'ont rien de surprenant, un nombre important de textes sur les auteurs grecs anciens, sur la démocratie, et sur les hypertextes. Même si je n'ai jamais opéré consciemment de rapprochement entre ces concepts, il serait évidemment tentant de bâtir une petite théorie là-dessus; tout le monde peut imaginer ce que cela pourrait donner.. Mais l'introduction d'opérateurs hypertextuels peut être affectée d'une autre fonction, moins banale : mettre à jour les présupposés non conscients qui ont présidé au choix de certains textes que j'ai considérés comme pertinents, et à l'affectation des mot-clés à ces textes. Ce sont là des opérations hautement "indexicales", au sens des ethnométhodologues; la rationalité mise en oeuvre dans ces opérations doit être considérée comme une "rationalité locale", qui ne peut prouver que sa propre existence. Depuis Gödel, nous savons bien sûr qu'aucune science ne peut prouver ses présupposés. Quand nous sélectionnons et écrivons des textes, nous constituons un "champ" dont, la plupart du temps, les propriétés ne nous apparaissent pas de manière consciente. Ce sont ces propriétés que les opérateurs hypertextuels permettent de mettre à jour; en faisant ressortir de l'amas des textes les liens sémantiques qui les unissent. En ce sens, les opérateurs hypertextuels mettent à jour un "infratexte", qui sous-tend et structure l'ensemble des choix de lecture et d'écriture.

 

 

La figure 1 présente un schéma, déjà ancien, de liens "de base" entre des textes et des concepts. Le schéma propose de multiples appartenances des textes, et la multiple appartenance de chaque mot-clé à des ensembles de mot-clés.

Ce schéma s'est vu apporter de multiples améliorations; entre autres, les contraintes d'appartenance des mot-clés à des ensembles ont été précisées. Mais, malgré sa simplicité, il permettait déjà un grand nombre d'opérations intéressantes sur l'ensemble de la base, opérations qui n'auraient pas été possibles avec un système de gestion de fichiers hiérarchique n'affectant qu'une place, repérée textuellement par l'arborescence et le nom de fichier, à chaque document, et ne permettant pas l'utilisation intensive des opérateurs booléens classiques des bases de données.

 

 

 

Un schéma un peu moins classique (figure 2) permet, non plus de sélectionner les textes en fonction des mot-clés, mais d'utiliser les textes eux-mêmes comme liens entre les mot-clés. Dans ce schéma, le texte, préalablement réduit à quelques descripteurs, ne joue plus que le rôle de lien entre eux. Ordinairement, et à juste titre, considéré comme nœud d'information, il est ici réduit au rôle de lien.

Cette opération, dont je peux comprendre qu'elle puisse choquer les âmes sensibles, donne assez souvent des résultats intéressants. Dans notre exemple, l'application au mot-clé "bonheur", en l'occurrence affecté aux textes après une recherche "full-text", lie ce concept aussi bien à Freud et Socrate qu'à l'inceste (Sophocle, Oedipe Roi), au cannibalisme (la chair humaine étant nommée "notre bonheur" par les cannibales mélanésiens) et à Saint-Just ("Nous vous parlâmes de bonheur : l'égoïsme abusa de cette idée pour exaspérer les cris et les fureurs de l'aristocratie; on réveilla soudain les désirs de ce bonheur qui consiste dans l'oubli des autres et la jouissance du superflu..." 23 Ventôse an II). Le raccourci qui apparaît ainsi entre les textes est saisissant. Il est possible de faire une longue digression sur les rapports entre la chair de l'autre chez les Mélanésiens, l'inceste et la notion de mesure chez les Grecs, l'égoïsme et les cris et fureurs de l'aristocratie à la Révolution Française, voire même de bâtir sur ces éléments une théorie de l'évolution des cultures. La condensation opérée par les mot-clés, même si elle est relativement arbitraire, ou, peut-être, parce qu'elle est une opération arbitraire d'un analyseur particulier, permet de calculer des relations entre des espaces qu'une analyse conduite avec des méthodes classiques, soucieuse de ne pas mélanger les torchons et les serviettes, n'aurait probablement pas mises à jour. La question n'est ici évidemment pas de savoir si les liens calculés ont ou non un sens "en soi"; le fait est que je peux affecter un sens à un lien automatiquement calculé que je n'aurais probablement pas perçu avec les ressources de mes savoirs mémorisés. Aussi étrange que cela puisse paraître, mon sentiment est qu'une utilisation intensive des procédures de liaison hypertextuelles peut remplir une fonction poétique, au sens fort et premier de création de combinaisons signifiantes dans la langue. C'est la principale conclusion que je retirerai pour l'instant de l'utilisation d'un dispositif expérimental dont les résultats sont assez éloignés de ce que l'on pouvait raisonnablement en attendre.

 

Bibliographie

[BER 95] BERNERS-LEE T., "World Wide Hypermedia", ACM Conference on Hypertext, ECHT94, (1994)

[BUS 45] BUSH V., "As We May Think", The Atlantic Monthly, July 1945

[DAV 92} DAVIS H., HALL W., HEATH I., HILL G., WILKINS R., "Towards an Integrated Information Environment With Open Hypermedia Systems", Proceedings of the ACM Conference on Hypertext, ECHT92, (1992)

[ENG 94] ENGELBART D., ENGELBART C., "Long Distance Perspectives on Hypermedia", ACM Conference on Hypertext, ECHT94, (1994)

[[LEP 74] LEPERS J. M., Travail et castration, thèse d'Etat, Paris, 1974

[NEL 70] NELSON T., Computer Lib and Dream Machines, Microsoft Press, 1970

[RIZ 92] RIZK A., SAUTER L., "Multicard : an open hypermedia System", Proceedings of the ACM Conference on Hypertext, ECHT92 (1992)