Feeds:
Articles
Commentaires

On peut distinguer plusieurs grandes tendances dans la recherche d’information [1] :
de la dépendance à l’autonomie des usagers,
de la maîtrise des stocks à la surabondance des flux,
de la validation a priori à la validation a posteriori,
de la rareté et de la distinction à l’explosion et à l’hybridation des outils et des modes de recherche,
du modèle de l’accès à celui du traitement de l’information,
de la gratuité à la commercialisation de la recherche.

Du côté des usagers : de la dépendance à l’autonomie
C’est sans doute l’évolution la plus significative : depuis les premières recherches des années 60, où l’utilisateur posait sa question au documentaliste qui la transmettait à l’informaticien, jusqu’à l’utilisation actuelle des moteurs de recherche, en passant par l’interrogation des banques de données par le Minitel, les usagers sont passés d’une situation de dépendance totale vis-à-vis des professionnels à une interaction directe avec les outils. Cette autonomisation des utilisateurs est la conséquence directe d’une tendance lourde de l’évolution des outils : la simplification des accès, des interfaces, des procédures. La complexité et l’intelligence technique sont de plus en plus « enfouies » dans la technologie même des outils, et ceux-ci deviennent des « boîtes noires », auto-simplifiantes, utilisables par le grand public (cf le succès de Google). Nous sommes loin d’avoir tiré toutes les leçons de ce phénomène de démocratisation dans l’accès à l’information et de popularisation de pratiques jusqu’alors réservées aux professionnels. Les problèmes de la recherche d’information sont aujourd’hui inséparables des enjeux politiques, culturels, sociaux, liés à l’utilisation des technologies de l’information.

Du côté de l’offre informationnelle
Nous sommes passés de « l’explosion documentaire » des années 60, qui concernait surtout l’information scientifique et technique (essor des banques de données, etc.) à celle du « déluge informationnel » d’Internet. Il s’agit :
d’un changement d’échelle, dans la production documentaire, mesurée désormais en milliards et non plus en millions (sur le Web « visible », i.e. indexé par les moteurs de recherche, et impossible à évaluer précisément, le nombre de pages Web serait entre 20 et 30 milliards ; quant au Web « invisible », il serait estimé à 900 milliards de documents !) ;
d’un changement de support, avec la numérisation généralisée des textes, des sons, des images et de tous types de traces, l’Internet devenant un gigantesque espace « multimédia » ;
d’un changement de système éditorial, le Web étant avant toute chose un vaste système d’auto-publication, permettant à chacun de publier pour le meilleur et pour le pire.

Du côté de la « chaîne de production » de l’information
Contrairement aux centres documentaires protégés et balisés, le Web est un océan ou une poubelle, selon l’appréciation. Ce qui constitue d’ailleurs l’un des enjeux éducatifs les plus forts, c’est bien ce retournement de la validation de l’information : jusqu’alors effectuée « en amont » de la chaîne de production de l’information, d’abord par les chercheurs et les auteurs, qui n’écrivent pas (théoriquement) n’importe quoi, puis par les éditeurs, qui ne publient pas tout ce qui s’écrit, ensuite par les libraires, qui ne vendent pas tout ce qui se publie et enfin par les bibliothécaires-documentalistes, qui n’achètent pas tout ce qui se vend, la validation de l’information (i. e. l’évaluation, la sélection, le filtrage…) sur le Web : est maintenant généralement reportée sur l’utilisateur, « en aval », avec tous les problèmes et les risques possibles.

Du côté des outils : vers l’hybridation des outils et des modes de recherche
Première observation : nous sommes passés, en deux décennies, d’une relative rareté à une prolifération d’outils de recherche. Deuxième observation : l’hybridation des modes de recherche et des outils. On peut distinguer, schématiquement, quatre modalités de recherche d’information : la navigation arborescente (dans les annuaires thématiques, les classifications), la navigation hypertextuelle (dans les sites Web, les encyclopédies), la recherche par requête sur des mots-clés dans des champs délimités (l’interrogation des banques de données) et la recherche par requête sur le contenu (recherche en texte intégral, moteurs de recherche). A chacune de ces modalités correspondaient des pratiques, des usages de recherche, des outils, jusqu’alors bien distincts. Or l’une des évolutions profondes de la recherche d’informations a consisté à entremêler ces modalités. Depuis quelques années, la mixité entre annuaires et moteurs, combinant recherche arborescente et sur le contenu, et le développement des portails, proposant tous les types de recherche, témoignent de cette imbrication de techniques et de modalités de recherche différentes.

Du côté des processus de recherche
Ces évolutions ont induit une autre transformation profonde, tenant à la fois aux procédures et aux usages de la recherche d’information. Dans l’univers familier aux documentalistes, c’est-à-dire dans le monde de ce qu’on appelait la « RDI » (Recherche Documentaire Informatisée), les recherches se font avant tout selon la logique booléenne (par l’utilisation des opérateurs booléens, de troncature, éventuellement de proximité) et selon des règles de syntaxe plus ou moins formelles et complexes. La principale caractéristique de la « RDI » tient au fait qu’il s’agit toujours de retrouver des références de documents préalablement saisies : la recherche porte toujours sur un fonds ou une base fermée dont on peut connaître à l’avance le contenu exact ou la composition, et elle fait peu de place au hasard : on sait ce qu’on (re)cherche. La recherche sur le Web est différente : le contenu est, par définition, impossible à cerner et les modes de recherche sont variés. On peut certes maîtriser toute la gamme des opérateurs, utiliser pleinement les fonctionnalités et les astuces de recherche des outils. Mais quiconque a fait l’expérience d’une recherche sur le Web sait que nombre de découvertes se font souvent par hasard, au gré des navigations de site en site, ou dans la liste des résultats d’un moteur.

Du côté des modèles de la recherche d’information
La question centrale, face au « déluge informationnel », n’est plus tant la recherche elle-même que l’exploitation des résultats. A quoi peuvent servir les milliers de documents trouvés sur Google sur un sujet quelconque ? Comment filtrer le nombre de références? Comment exploiter les listes de résultats de manière plus « intelligente »? Comment obtenir une analyse de tel corpus de données?, etc., bref, comment mieux exploiter et gérer les informations : le défi est là. [2]

Du côté de l’économie de l’information : de la gratuité à la vente des mots-clés
La nouveauté réside dans cette nouvelle forme d’économie et de marché, apparue autour des outils de recherche privés du Web et des enjeux financiers énormes, à la mesure du trafic généré par ces outils. Liens sponsorisés, liens commerciaux, « addwords », etc., les techniques de ce qu’on appelle le « positionnement payant » ne cessent de se développer, ajoutant un nouveau défi pour les usagers : savoir distinguer un lien « sponsorisé » d’un résultat « normal ». Le positionnement payant consiste en un système compliqué de vente aux enchères de mots-clés, par des sociétés spécialisées (comme Overture, Espotting ) ou certains moteurs de recherche (comme Google). Cette vente de mots-clés permettra par exemple à un site commercial, spécialisé dans le voyage, d’apparaître en haut d’une page de résultats pour toute requête comprenant le mot « voyage ». Avec le positionnement payant, c’est la notion même de pertinence qui est atteinte.

Panorama des outils de recherche actuels
Un premier critère, le mode de recherche proposé, distinguait autrefois entre les outils par navigation arborescente (comme les annuaires) ou hypertexte (comme les listes de signets), et les outils par requête (comme les moteurs, fondés sur l’utilisation de mots-clés). Cette distinction n’est plus pertinente aujourd’hui, tant l’imbrication est forte sur les mêmes outils. Un deuxième critère reste toujours valable, en dépit des apparences : celui du mode d’indexation des ressources. Selon ce critère, on distingue les annuaires thématiques, qui procèdent à un référencement des sites Web (par exemple la partie annuaire de Yahoo, l’Open Directory) et les moteurs de recherche (Google, Wisenut, YST… ), qui fonctionnent par collecte et indexation automatisées des pages Web (et non des sites). Cette distinction, « historique », est moins nette aujourd’hui, à cause de l’imbrication des annuaires et des moteurs : Google utilise l’annuaire de l’Open Directory, Yahoo a son propre moteur, etc. Mais le critère des modes d’indexation reste essentiel, car il induit des usages et des technologies très différentes. Ainsi un annuaire thématique va-t-il référencer des sites Web, là où un moteur indexera toutes les pages d’un site ; l’annuaire facilitera le défrichage, le premier repérage des ressources dans un domaine ou un secteur défini par l’organisation arborescente proposée, alors qu’un moteur de recherche permettra de trouver un document très précis.

En résumé, la tripartition entre annuaires thématiques, moteurs de recherche et métamoteurs reste une typologie valide. A ces trois catégories d’outils, il faut ajouter deux autres familles : celles des portails et des outils dits annexes. Un portail se distingue notamment des autres outils traditionnels par un ensemble de services personnalisés offerts aux usagers (compte personnel, messagerie, commerce, commande de documents, veille, etc.) [3]. Quant aux « outils annexes », il s’agit d’un ensemble d’outils diversifiés, pouvant servir à la recherche d’information et à la veille : « aspirateurs de sites » Web, organisateurs de signets, outils collaboratifs de partage des signets.

Vers la spécialisation généralisée
Un quatrième critère a pris une importance considérable depuis quelques années : la nature des ressources proposées. Il s’agit de la distinction classique entre outils généralistes et outils spécialisés. La spécialisation revêt différentes formes : spécialisation sur un domaine particulier (tourisme, industrie, culture, médecine, sciences exactes, sciences humaines et sociales, etc.) [4], sur une zone linguistique ou géographique, selon la nature des documents (forums, listes de diffusion, bases de données, dépêches d’actualité, bibliothèques électroniques…), selon le type de fichier, selon la nature du média (images, sons) [5].

Les différents niveaux d’analyse linguistique
On peut relever quatre niveaux d’analyse automatisée, correspondant aux quatre premières « couches » d’un texte: morphologique, lexicale, syntaxique, sémantique. A quels niveaux d’indexation se situent les moteurs de recherche ? On sait que lorsqu’on tape un mot-clé sur un moteur, il va chercher dans sa base de données toutes les pages Web contenant ce mot : aucune « intelligence » dans le procédé, mais une simple reconnaissance de chaînes de caractères, qui doivent être identiques. Dans certains cas, le moteur élimine les « mots-vides » (articles, prépositions, etc.). On est dans le domaine de l’analyse morphologique, fondée sur la seule reconnaissance de la forme des mots. Actuellement, la plupart des moteurs fonctionnent encore à ce premier niveau de l’analyse morphologique (comme Google).

Quelques moteurs ont poussé l’analyse automatisée jusqu’au niveau du lexique, pratiquant ce qu’on appelle la lemmatisation : la réduction d’un mot à sa racine (ou lemme). Du coup, les index sont considérablement allégés, la recherche plus pertinente. La lemmatisation permet également de chercher tous les termes partageant la même racine ou toutes les déclinaisons d’un terme : par exemple, sur Exalead, une recherche sur « cheval de course » trouvait non seulement « chevaux de course » mais aussi « course de cheval » [6].

Avec le troisième niveau d’analyse, on passe au stade de la syntaxe, qui permettra de reconnaître des expressions, des groupes nominaux (pollution de l’air, agence de presse, etc .). Assez peu d’outils du Web offrent ces possibilités et on peut citer de nouveau ce moteur français, Exalead, qui, en plus de la lemmatisation, permettrait la reconnaissance des groupes nominaux et surtout la proposition de nouveaux mots-clés, par extraction des groupes nominaux du corpus de résultats. La génération automatique de mots-clés constitue d’ailleurs l’une des innovations les plus intéressantes pour l’usager, lui permettant d’affiner ses recherches. On trouve cette fonctionnalité sur quelques moteurs, comme Teoma, Voilà, à des degrés différents.

Enfin le quatrième niveau d’analyse et d’indexation, celui de la sémantique, concerne la signification d’un texte, par extraction de concepts, de notions. Ce dernier niveau reste peu répandu sur le Web, et se rapproche des pratiques d’indexation avec thésaurus, familières aux documentalistes. L’analyse sémantique est cependant présente sur le Web, selon des méthodes plus statistiques que linguistiques [7] : elle concerne surtout le traitement des résultats après une requête et non l’indexation a priori des documents. Un exemple intéressant de l’indexation sémantique d’un corpus de textes est fourni par le service de Google, News, dans lequel le moteur propose une « revue de presse » entièrement automatisée, établie à partir des articles et dépêches de journaux.

Les progrès dans les fonctionnalités de recherche et de filtrage de l’information
Ce deuxième domaine d’innovations concerne les interfaces de requêtes. On désigne par là les fonctionnalités, de plus en plus nombreuses, offertes par les outils de recherche (surtout les moteurs) [8] pour la gestion des requêtes proprement dites : utilisation des opérateurs booléens et, parfois, de proximité, troncature, équations de recherche avec parenthésage, mais surtout filtrage des requêtes. Certains métamoteurs [9] permettent désormais de poser plusieurs filtres sur les requêtes : sur la langue, sur les dates de publication, sur l’espace Internet (Web mondial, francophone…), sur le type de ressources (images, journaux, forums, Weblogs…), mais aussi sur les formats de documents (possibilité de chercher des fichiers PDF, DOC, XLS, PPT…), sur les pages similaires, sur différents champs des pages Web (titre, liens, URL, métadonnées, etc.). La plupart de ces fonctionnalités de recherche restent généralement méconnues des utilisateurs, alors que leur connaissance et leur maîtrise sont l’une des conditions d’une recherche d’information efficace.

Catégorisation, réseaux sémantiques, analyse de contenu
Trois innovations importantes sont apparues depuis quelques années et concernent la manière dont certains outils de recherche traitent et présentent les résultats d’une requête : la catégorisation des résultats, les réseaux sémantiques et l’analyse de contenu. Mise en œuvre sur le moteur de recherche Exalead, et sur le métamoteur Vivisimo [10] , la catégorisation dynamique du résultat des recherches permet de « classer » les documents trouvés dans des catégories, des rubriques porteuses de sens (notamment sur Exalead). L’intérêt de cette technologie provient du caractère « dynamique » de cette catégorisation, opérée à partir des caractéristiques réelles du lot de documents trouvés, et non selon des rubriques établies a priori. Concrètement, à partir de la requête « cheval de course », Exalead a généré, à partir des 68 111 résultats, quatre grandes rubriques (Sport, Commerce et Economie, Régional, Sciences), avec des sous-rubriques (Elevage dans la rubrique Commerce et Economie). (Serres, 2004) Les technologies de catégorisation des résultats réintroduisent ainsi du sens, de la structuration dans le Web et elles sont appelées, d’une certaine manière, à jouer le même rôle que les thésaurus classiques, avec la différence de taille entre une indexation humaine a priori et une indexation automatisée a posteriori … Deux autres métamoteurs, Kartoo [11] et MapStan [12], ont développé une autre manière de présenter les résultats, non sous forme de rubriques calculées à partir des thèmes propres aux documents, mais sous forme de cartes, de réseaux sémantiques, calculés à partir des liens sémantiques entre les pages Web. Au lieu de référer les documents à des catégories thématiques, les pages Web sont reliées les unes aux autres, en fonction des mots-clés qu’elles partagent. Les résultats sont donc présentés graphiquement, sous forme de nœuds et de liens : les nœuds, qui correspondent aux pages Web trouvées, sont de taille variable, selon le degré de pertinence [13] des pages Web ; les liens entre les nœuds représentent les relations entre les pages Web, c’est-à-dire leur proximité, leur similarité. Représentés sous forme de sphères et de liens autrefois sur Kartoo (disparu en 2010), de places et de rues sur MapStan, ces réseaux sémantiques, parfois difficiles à décoder, offrent plusieurs intérêts pour l’utilisateur : possibilité d’affiner les requêtes (par choix de mots-clés), de visualiser des liens entre sites Web que l’on n’aurait pas pensé à associer, d’élargir les recherches sur les sites proches, de mettre en évidence (notamment sur MapStan) des réseaux d’acteurs sur telle ou telle thématique, avec des indications sur l’importance de tel ou tel site (par le nombre de liens qu’il reçoit) [14]. Une troisième orientation technologique porte sur l’analyse automatique du contenu des documents. Elle est développée notamment par un métamoteur américain, SurfWax [15]. Après une requête sur ce métamoteur (qui permet d’interroger près de 500 sources !), une fonction, appelée SiteSnaps, offre une sorte de synthèse de l’information sur chaque document trouvé, sous forme de fiche récapitulative : on y trouve ainsi le nombre de mots, de liens, d’images, éventuellement le résumé de l’auteur, les mots-clés de la requête dans leur contexte, les points clés (Key Points) de la page. En bref, une sorte d’analyse des documents, permettant à l’utilisateur de mieux faire ses choix, d’affiner et d’élargir sa recherche.

Comme on l’a vu rapidement, ces innovations dans le traitement des résultats induisent des usages différents et offrent des intérêts spécifiques pour la recherche d’information : d’un côté la mise en catégories de documents, de l’autre la représentation cartographique d’un réseau, ou encore l’analyse du contenu.

Vers le « Web sémantique » ?
On ne peut terminer un panorama de la recherche d’information sur Internet sans évoquer ce qui peut représenter une mutation tout à fait majeure, non seulement de la recherche d’information, mais des usages du Web : le « Web sémantique ». Il s’agit d’un projet de recherche déjà vieux de plusieurs années, lancé par le fondateur du Web lui-même, Tim Berners-Lee, au sein de l’organisation qui préside aux destinées du Web : le W3C (World Wide Web Consortium). Le W3C est un consortium créé en 1994, fondé sur trois pôles de recherche internationaux (le MIT, la Keio University au Japon et un regroupement de 18 centres de recherche européens, ERCIM 33 ), soit au total plus de 500 organisations, universités, entreprises, acteurs importants du Web. Le W3C est donc un acteur essentiel de la « gouvernance » d’Internet, et son rôle est de produire les standards informatiques pour le maintien et l’évolution du World Wide Web [16].

Quels sont les objectifs du Web sémantique ?
Organisation responsable du devenir de la « Toile », le W3C et son président, Berners-Lee, ont été les premiers insatisfaits des nombreux inconvénients du Web, qui ont transformé celui-ci en fourre-tout informationnel. Si le Web originel s’est révélé un fantastique outil pour la production, la publication et la diffusion de l’information, il n’a pu en revanche fournir encore les outils pour structurer et décrire les ressources de manière satisfaisante et permettre un accès pertinent à l’information. Par exemple, les liens hypertextes entre les sites Web, bien que porteurs de sens pour les humains, n’ont aucune signification utilisable par les machines [17]. On peut citer encore : l’absence ou la faiblesse d’une véritable description des ressources par les métadonnées, la non-exploitation de la sémantique des liens hypertextes par les machines, les limites des outils de recherche, incapables encore d’analyser vraiment les pages Web. Comme l’indiquait Philippe Laublet (Laublet 2004), le Web est prisonnier d’un paradoxe : « l’information et les services sur le Web sont aujourd’hui peu exploitables par des machines, mais de moins en moins exploitables sans l’aide des machines. »

Il s’agit surtout de pouvoir identifier, décrire et indexer les ressources du Web, un peu à l’instar de ce que font les bibliothécaires depuis longtemps à propos des documents.

Sur quelles techniques repose ce projet ?
Le chantier du Semantic Web repose sur un empilement complexe de plusieurs « couches » de langages et d’applications informatiques, plus ou moins autonomes. Schématiquement, on peut relever au moins quatre « couches », complémentaires : l’identification, la structuration, la description et la représentation des ressources.
L’identification précise des ressources : les URI
C’est l’objet des URI (Uniform Resource Identifier), sorte d’équivalent numérique de l’ISBN pour les livres.
Une structuration logique des ressources : XML
Structuration à la fois homogène et permettant « l’interopérabilité » (mot-clé essentiel du Web sémantique), c’est la « couche » XML (eXtensible Markup Language). [18] 18Ce « méta-langage » (XML n’est pas un simple langage de description et de codage de documents, comme HTML ou PDF, mais une sorte de syntaxe informatique universelle, fondée sur un principe simple : la distinction entre la structure physique d’un document (la mise en page, la typographie, etc.) et sa structure logique (les chapitres, la table des matières), permettant le codage et la description logique de n’importe quel type de ressources (texte, images, données numériques, mathématiques, graphiques).

Une description structurée et pertinente des ressources : les métadonnées
On parle de métadonnées à propos de tous les systèmes de description des ressources (depuis les simples balises Meta d’un document HTML jusqu’aux systèmes très élaborés de description, comme le Dublin Core [19] , la TEI [20]. Il existe une grande variété de systèmes et de standards de métadonnées et le Web sémantique peut être perçu comme une « surcouche », un cadre général qui vient se superposer à toutes les normes existantes. L’outil développé par le W3C pour le Web sémantique s’appelle le RDF (Resource Description Framework) : il s’agit, non d’un nouveau format de métadonnées, mais d’un métalangage, offrant une syntaxe universelle qui permettra aux machines d’échanger des informations de métadonnées incompatibles. RDF distingue trois types d’éléments : un sujet, une propriété, un objet, ou encore une ressource, une propriété, une valeur. Même si ce projet relève encore en partie de la science-fiction, on peut pressentir qu’il changera en profondeur la recherche d’information, en introduisant ce qui manque totalement sur le Web : un système d’indexation portant sur les concepts, les notions.

Une représentation partagée d’un domaine de connaissance : les « ontologies » (OWL)
Une ontologie informatique est une manière de représenter un domaine quelconque de connaissance (disciplinaire, thématique ou autre), sous la forme d’un ensemble de concepts, organisés par des relations structurantes, dont la principale est la relation « est-un » (« is-a » pour les anglo-saxons) [21] . L’intérêt des ontologies est à rapprocher de celui des thésaurus, avec lesquels elles partagent d’ailleurs beaucoup d’aspects : il s’agit d’outils visant à formaliser un domaine, à permettre à une communauté précise d’acteurs (qu’il s’agisse de bibliothécaires, de professionnels du tourisme ou de la santé…) de se mettre d’accord sur une représentation commune de leur champ et des concepts qui le constituent, et sur les relations entre les notions. Une ontologie est une « vue sur le monde », ni vraie ni fausse, mais opératoire, partagée et utilisable par les machines. Dans le Web sémantique : les ontologies jouent le même rôle que les classifications, les thésaurus et autres langages documentaires dans les bibliothèques. Ce rôle est essentiel puisqu’il s’agit de permettre aux machines d’établir les liens sémantiques entre différentes ressources.

De nouvelles formes de recherche et d’usage de l’information
Les fondements techniques du Web sémantique ouvrent la voie à de multiples applications nouvelles. Dans la recherche d’information, si les standards RDF et OWL se généralisent sur le Web, de nouveaux moteurs de recherche permettront bientôt de répondre aussi bien à des requêtes génériques, du type : « quelles sont les publications de l’Education nationale consacrées à la documentation ? » qu’à des requêtes beaucoup plus fines, croisant le contenu de plusieurs documents hétérogènes. En bref, le Web sémantique pourrait permettre de surmonter l’hétérogénéité actuelle des ressources du Web, et d’intégrer ces ressources sur une même interface, à partir d’outils simples à utiliser.

Arguments clés

Les problématiques du traitement de l’information et des nouvelles connaissances numérisées vont s’avérer à terme un enjeu économique, culturel et politique fondamental (cf le projet de très grande bibliothèque numérique de Google).
Ce sont en vérité de nouvelles modalités de transformation des modes de pensée dans les modes d’accès à la connaissance.
L’enjeu pour la recherche française est crucial : il s’agit de résister aux formats imposés, aux catégorisations et aux indexations figées, qui tendent à imposer une « nouvelle » culture mondiale, qui laisse peu de place à l’individu et à la liberté de ses stratégies.

Références
FOENIX-RIOU, Béatrice. Recherche et veille sur le Web visible et invisible. Agents intelligents, Annuaires sélectifs, Interfaces des grands serveurs, Portails thématiques. Paris : Bases, Ed. TEC&DOC, 2001
LARDY, Jean-Pierre. Recherche d’information sur Internet. Méthodes et outils. Paris : ADBS, 2001.
LAUBLET, Philippe. Introduction au Web sémantique. Rennes : URFIST, 2004.
LEFEVRE, Philippe. La Recherche d’informations. Du texte intégral au thésaurus. Paris : Hermès, 2000
LELOUP, Catherine. Moteurs d’indexation et de recherche. Paris : Eyrolles, 1998
SERRES, Alexandre. Sélection de ressources sur les outils de recherche. Rennes : URFIST, 2003. Disponible sur : http://www.uhb.fr/urfist/Supports/ApprofMoteurs_Ressources.htm

Notes
[1] Ce bref panorama prend origine dans la synthèse intéressante établie par Alexandre Serres en 2004 : http://www.urfist.cict.fr/lettres/lettre34/lettre34-31.html
[2] Citons par exemple les métamoteurs MapStan, SurfWax, Vivisimo…
[3] Tous les annuaires et moteurs de recherche. (Paris) : disponible sur http://www.enfin.com Répertoire francophone recensant de nombreux annuaires thématiques, généralistes et spécialisés, des moteurs de recherche, des portails, etc.
[4] Internet Search Engine Database. Cleveland (OH) (USA) : ISEDB.com, 2002-2004. Disponible sur http://www.isedb.com. Plus de 1500 outils de recherche référencés, articles, dossiers, actualités. In-Extenso.org, moteur de recherche en sciences sociales. Voir http://www.in-extenso.org/index.html
[5] Profusion, métamoteur spécialisé sur les ressources du Web invisible. Disponible sur http://www.profusion.com
[6] http://www.exalead.com/cgi/exalead. Exalead équipe également la plate-forme de recherche d’AOL France : voir : http://www.aol.fr/
[7] Par méthodes statistiques, on entend notamment le calcul des co-occurrences, c.à.d. le nombre de fois où deux termes apparaissent simultanément dans un texte. Ce type de méthode d’analyse permet d’établir des cartographies des termes et de leurs relations et de dégager ainsi la signification principale, les concepts majeurs d’un texte ou d’un corpus de textes.
[8] D’après un travail de comparaison de 7 moteurs de recherche, fait à l’URFIST de Rennes, ce sont Google,  et Voilà, qui offrent les fonctionnalités de recherche les plus nombreuses
[9] Kartoo ou Ixquick : voir également le travail de comparaison de six métamoteurs mené à l’URFIST de Rennes.
[10] Voir Vivisimo
[11] http://kartoo.com »
[12] http://search.mapstan.net »
[13] L’indice de pertinence permet de classer les documents selon les mots-clés (nombre, emplacement, « poids » des mots-clés.
[14] Selon cet indice de popularité (le fameux PageRank de Google), les pages Web sont classées, non plus selon leur « pertinence » intrinsèque, mais selon leur notoriété sur le Web (cad le nombre et le type de liens pointant vers elles).
[15] Entre autres fonctionnalités, SurfWax propose une fonction linguistique tout à fait originale, le Focus, qui permet de préciser les mots-clés d’une requête, en proposant pour un terme les termes synonymes, génériques et spécifiques. Ce Focus se présente comme un véritable thésaurus, un outil d’aide à la recherche.
[16] C’est le W3C qui a produit et diffusé le standard HTML, le protocole HTTP, le langage XML, et tous les formats et standards propres au Web.
[17] Même si des outils, comme Google ou Teoma, exploitent la structure hypertextuelle du Web, il ne s’agit toujours que de calculs statistiques sur des mots-clés, et non d’une véritable prise en compte de la signification des liens entre sites Web.
[18] Pour un bref historique et une présentation simplifiée de XML, voir : http://www.uhb.fr/urfist/Supports/Rechinfo2/Rechinfo2_cadre.htm
[19] Le Dublin Core : système de métadonnées élaboré en 1995 avec la participation de bibliothécaires, permet de décrire une grande variété de ressources sur internet, à partir d’un ensemble de 15 rubriques de description.
[20] La TEI (Text Encoding Initiative) permet l’échange de données textuelles, mais aussi d’images et de sons, et vient des communautés scientifiques, notamment d’informatique et de linguistique.
[21] L’ontologie, dans son acception philosophique habituelle, signifie la « science de l’être », portant sur les concepts généraux, tels que la substance, l’existence, l’essence, ou encore « la partie de la métaphysique qui étudie les êtres tels qu’ils sont en eux-mêmes, et relativement à leur cause » (d’après Nouveau vocabulaire des études philosophiques, S. Auroux et Y. Weil, Hachette, 1975).

Publicités

Du mythe au mythe rationnel : 14. Neuromarketing : Attention manipulation !.

Du mythe au mythe rationnel : 13. La pensée magique.

Les ontologies


Le développement des ontologies – spécifications formelles de termes d’un domaine et de relations entre elles[1] et formes modernes de la catégorisation – a quitté le champ de l’Intelligence Artificielle pour gagner les postes informatiques des experts de domaines. Les ontologies sont devenues courantes dans le World-Wide Web. Le champ de ces ontologies varie de taxonomies larges servant à catégoriser les sites Web (tels que dans Yahoo!) aux catégorisations de produits destinés à la vente et de leurs caractéristiques (tel que dans Amazon.com). Le Defence Advances Research Projects Agency (DARPA), conjointement avec le W3C, développe actuellement le DARPA Agent Markup Language (DAML) en vue de procurer  des ontologies normalisées utilisables par les experts de domaines pour partager et commenter l’information dans leurs domaines. La médecine par exemple, a produit de vastes vocabulaires normalisés structurés tels que SNOMED[2] et le réseau sémantique du Unified Medical Language System.[3] De même apparaissent de grandes ontologies universelles : par exemple le Programme des Nations Unies pour le développement et Dun & Bradstreet ont unis leurs efforts pour développer l’ontologie UNSPSC qui fournit une terminologie pour les produits et les services.

Une ontologie définit un vocabulaire commun pour les chercheurs qui ont besoin de partager l’information dans un domaine.[4] Elle inclut des définitions lisibles en machine des concepts de base de ce domaine et de leurs relations. Une ontologie sert notamment à :

– Partager la compréhension commune de la structure de l’information entre les personnes ou les fabricants de logiciels.

– Analyser le savoir sur un domaine.

– Permettre la réutilisation du savoir sur un domaine : c’était une des raisons majeures qui ont poussé la recherche sur les ontologies. Par exemple, les modèles de plusieurs domaines ont eu besoin de représenter la notion de temps. Cette représentation comprend les notions d’intervalles de temps, de moments précis de temps, de mesures relatives de temps, etc.

– On peut, également, réutiliser une ontologie générale tel que le UNSPSC et l’étendre pour permettre de décrire un domaine d’intérêt spécifique.

– Distinguer le savoir sur un domaine du savoir opérationnel est une autre des finalités courantes desontologies. Nous pouvons décrire la tâche de configuration d’un produit à partir de ses constituants, en respectant les spécifications requises et implémenter un programme qui réalisera cette configuration indépendamment des produits et de leurs composants.  On peut ainsi développer une ontologie des parties composantes et des caractéristiques d’un PC et appliquer l’algorithme pour configurer des PC sur mesure.

Analyser le savoir sur un domaine est possible dès que la spécification des termes du domaine est faite. L’analyse formelle des termes est extrêmement précieuse aussi bien quand on veut réutiliser les ontologies existantes, que quand on veut les étendre.[5] Souvent une ontologie de domaine n’est pas toujours un but en soi. Développer une ontologie s’apparente à définir un ensemble de données et leur structure pour qu’elles soient utilisées par d’autres programmes. Les ontologies et les bases de connaissances élaborées à partir des ontologies sont utilisées comme données par les méthodes de solutions de problèmes, les applications indépendantes des domaines et les fabricants de logiciels. Par exemple, Natalya F. Noy et Deborah L. McGuinness ont développé une ontologie sur le vin, les mets et les alliances appropriées des vins et des plats.[6] Cette ontologie peut être utilisée comme base pour toute une série d’applications visant le management des restaurants.  L’exemple du vin et des mets est inspiré d’un exemple de base de connaissances présenté dans un article décrivant CLASSIC – un système de représentation de connaissances basé sur une approche de description-logique (Brachman et al. 1991).

Qu’est une ontologie ?

On dira qu’une ontologie est une description formelle explicite des concepts dans un domaine du discours (classes (appelées parfois concepts)), des propriétés de chaque concept décrivant des caractéristiques et attributs du concept : attributs (appelés parfois rôles ou propriétés)) et des restrictions sur les attributs (facettes (appelées parfois restrictions de rôles)). Une ontologie ainsi que l’ensemble des instances individuelles des classes constituent une base de connaissances.

Les classes décrivent les concepts dans le domaine. Par exemple une classe de vins représente tous les vins. Les vins spécifiques sont des instances de cette classe. Ainsi, on peut diviser la classe de tous les vins en vins rouges, blancs et rosés. Alternativement, nous pouvons diviser une classe de tous les vins en effervescents et non effervescents. Les attributs décrivent les propriétés des classes et des instances: le vin Château Lafite Rothschild Pauillac est un vin charpenté ; il est produit par l’établissement vinicole de Château Lafite Rothschild. Nous avons deux attributs décrivant le vin dans cet exemple : l’attribut corps ayant pour valeur charpenté et l’attribut producteur ayant pour valeur établissement vinicole Château Lafite Rothschild. Au niveau de la classe, on peut dire que les instances dela classe Vin auront des attributs décrivant leur odeur, leur corps, leur niveau de sucre, le

producteur du vin et ainsi de suite.

En termes pratiques, développer une ontologie implique donc de :

– définir les classes dans l’ontologie,

– arranger les classes en une hiérarchie taxinomique (sous-classe – super-classe),

– définir les attributs et décrire les valeurs autorisées pour ces attributs

– renseigner les valeurs pour les attributs des instances

Une simple méthodologie de génie cognitif

Le développement d’une ontologie est nécessairement un processus itératif. Les concepts dans une ontologie doivent être très proches des objets (physiques ou logiques) et des relations dans un domaine d’intérêt. Fort probablement ils sont des noms (objets) ou verbes (relations) dans des phrases qui décrivent un domaine. Il faut également se rappeler qu’une ontologie est un modèle de la « réalité » du monde et que les concepts dans l’ontologie doivent refléter cette réalité.

Etape 1

Quel est le domaine que va couvrir l’ontologie ? A quels types de questions l’ontologie devra-t-elle fournir des réponses ? Qui va utiliser et maintenir l’ontologie ? Naturellement, les concepts qui décrivent les différents types de vins, les types de mets, la notion d’une bonne alliance d’un vin et d’un plat ainsi que celle d’une mauvaise alliance figureront dans une ontologie des vins.  Si l’ontologie est destinée à aider les clients des restaurants à décider quel vin commander, nous aurons besoin d’utiliser des informations sur les prix de vente au détail. Si elle est utilisée par les grossistes en vin, des informations sur la disponibilité de la marchandise peuvent être nécessaires.

Une des méthodes pour déterminer la portée d’une ontologie est de rédiger une liste de questions auxquelles une base de connaissances fondée sur une ontologie devrait pouvoir répondre, appelées questions de compétence.[7] Elles serviront plus tard de test décisif.

Voici quelques questions de compétence possibles dans le domaine du vin et des mets :

– Sur quelles caractéristiques dois-je me fonder pour choisir un vin ?

– Un Cabernet Sauvignon peut-il accompagner les plats de fruits de mer ou de poissons ?

– Quel serait le meilleur vin pour accompagner des grillades ?

– Quelles sont les caractéristiques du vin qui affectent sur son accord avec un plat ?

Etape 2. Envisager une éventuelle réutilisation des ontologies existantes

Il existe des bibliothèques d’ontologies réutilisables sur le Web et dans la littérature. Par exemple, on peut  utiliser la bibliothèque des ontologies Ontolingua

(http://www.ksl.stanford.edu/software/ontolingua/ ) ou bien la bibliothèque des ontologies DAML (http://www.daml.org/ontologies/ ).

Etape 3. Enumérer les termes importants dans l’ontologie

Il est utile de noter sous forme de liste tous les termes à traiter ou à expliquer à un utilisateur. Par exemple, parmi les termes importants relatifs aux vins il existe : vin, cépage, établissement vinicole, localisation, couleur d’un vin, corps, odeur et contenance en sucre ; différents types de mets, tels que poisson et viande rouge, sous-types de vin tels que vin blanc, etc. Tout d’abord, il est important d’établir une liste exhaustive de termes et de ne pas se soucier de l’éventuelle chevauchement entre les concepts qu’ils représentent, les relations entre les termes ou tout autre propriété des concepts, ni si ces concepts sont des classes ou des facettes.

Etape 4. Définir les classes et la hiérarchie des classes

Il existe un certain nombre d’approches possibles pour développer une hiérarchie de classes. Un procédé de développement de haut en bas commence par une définition des concepts les plus généraux du domaine et se poursuit par la spécialisation des concepts. Par exemple, on peut commencer en créant des classes pour les concepts généraux Vin et Mets. Puis on spécialise la classe Vin en créant des sous-classes : Vin blanc, Vin rouge, Vin rosé. On peut en outre catégoriser la classe Vin rouge, par exemple, Bourgogne rouge, Cabernet Sauvignon, et ainsi de suite.

Un procédé de développement de bas en haut commence par la définition des classes les plus spécifiques, et se poursuit avec le regroupement de ces classes en concepts plus généraux. Par exemple, on peut commencer en définissant des classes pour les vins Pauillac et Margaux. On peut ensuite créer une super-classe commune – Medoc – qui à son tour est une sous-classe de Bordeaux.

Une procédé combiné de développement est une combinaison des deux approches, de haut en bas et de bas en haut. Au tout début, les concepts les plus saillants sont définis, ensuite ils sont généralisés ou spécialisés, suivant le cas. Nous pourrions commencer par quelques concepts du haut niveau tels que Vin et quelques concepts spécifiques, tels que Margaux. Puis, on peut les mettre en relation avec d’autres concepts de niveau intermédiaire, tels que Medoc. Ensuite, on peut poursuivre en créant toutes les classes de vins régionaux de France.

.

La figure ci-dessous montre une possibilité d’articulation entre les différents niveaux de généralité.

Aucune de ces trois méthodes n’est fondamentalement meilleure que les autres. L’approche combinée est souvent, la plus facile à utiliser pour la plupart des développeurs d’ontologies, étant donné que les concepts “ du milieu ” ont tendance à être les concepts les plus descriptifs du domaine.[8]

Si une classe A est super-classe d’une classe B, alors toute instance de B est également, une instance de A. En d’autres termes, la classe B représente un concept qui est “ une sorte ” de A. Par exemple, chaque vin Pinot Noir est obligatoirement un vin rouge. Par conséquent la classe Pinot Noir est une sous-classe de la classe Vin Rouge.

Étape 5. Définir les propriétés des classes – attributs

Les classes seules ne fourniront pas assez d’information pour répondre aux questions de compétence de l’Étape 1. Après avoir défini quelques classes, on doit décrire la structure interne des concepts. On a déjà sélectionné des classes à partir de la liste des termes que nous avons créée pendant l’Étape 3. La plupart des termes restants ont de fortes chances d’être des propriétés de ces classes. Ces termes comprennent, par exemple, la couleur d’un vin, son corps, son odeur et sa teneur en sucre ainsi que la localisation de l’établissement vinicole. Ces propriétés deviennent des attributs rattachés aux classes. Ainsi, la classe Vin aura les attributs suivants : couleur, corps, odeur, et sucre. Et la classe Etablissement vinicole aura l’attribut localisation. En général, certains types de propriétés d’objets peuvent devenir des attributs dans une ontologie : propriétés “ intrinsèques ” telle que l’odeur d’un vin ; propriétés “ extrinsèques ” telles que le nom d’un vin et son terroir; parties, si l’objet est structuré ; elles peuvent être des “ parties ” physiques ou abstraites (ex : les plats d’un repas).

Toutes les sous-classes d’une classe héritent les attributs de cette classe. Par exemple, tous les attributs de la classe Vin seront hérités par toutes les sous-classes de la classe Vin, y compris Vin Rouge et Vin Blanc. Nous ajouterons l’attribut supplémentaire niveau de tannin (bas, modéré, élevé) à la classe Vin Rouge. L’attribut niveau de tanin sera hérité par toutes les classes représentant des vins rouges (telles que Bordeaux et Beaujolais). Un attribut doit être rattaché à la classe la plus générale pouvant avoir cette propriété. Par exemple, corps et couleur d’un vin doivent être rattachés à la classe Vin, puisque c’est la classe la plus générale dont les instances auront un corps et une couleur.

Étape 6. Définir les facettes des attributs

Les attributs peuvent avoir plusieurs facettes décrivant la valeur du type, les valeurs autorisées, le nombre de valeurs (cardinalité), et d’autres caractéristiques de valeurs que les attributs peuvent avoir. Par exemple, l’attribut produit (comme dans « un établissement vinicole produit tels vins ») peut avoir de multiples valeurs et ces valeurs sont des instances de la classe Vin. C’est à dire, produit est un attribut ayant pour type de valeur Instance et pour classe autorisée Vin.

Étape 7. Créer les instances

La dernière étape consiste à créer les instances des classes dans la hiérarchie. Définir une instance individuelle d’une classe exige (1) choisir une classe, (2) créer une instance individuelle de cette classe, et (3) la renseigner avec les valeurs des attributs. Par exemple, on peut créer une instance individuelle Château-Morgon-Beaujolais pour représenter un type spécifique des vins Beaujolais. Château-Morgon-Beaujolais est une instance de la classe Beaujolais qui, à son tour, représente tous les vins Beaujolais. Cette instance a les valeurs d’attributs suivantes:

Corps : Léger

Couleur : Rouge

Odeur : Délicate

Niveau de tanin : Bas

Cépage : Gamay (instance de la classe Raisin (wine grape))

Producteur : Château-Morgon (instance de la classe Établissement vinicole)

Région : Beaujolais (instance de la classe Région viticole)

Sucre : Sec

Les classes et leurs noms

Il est important de distinguer entre une classe et son nom : Les classes représentent des concepts dans le domaine et non pas des mots désignant ces concepts. Le nom d’une classe peut varier suivant la terminologie choisie, mais le terme lui-même représente la réalité objective du monde. Par exemple, nous pouvons créer une classe Salicoques et le rebaptiser ensuite Crevettes – la classe représente toujours le même concept. Les associations appropriées de vin et de plats de salicoques devraient se référer aux plats de crevettes. Plus concrètement, la règle suivante devrait toujours être suivie : Les synonymes pour le même concept ne représentent pas de classes différentes. Les synonymes sont juste des noms différents pour un concept ou un terme. Donc, nous ne devrions pas avoir une classe appelée Crevette et une classe appelée Salicoque. Il y aura une seule classe, nommée soit Crevette soit Salicoque.

Héritages multiples

La plupart des systèmes de représentation des connaissances permettent l’héritage multiple dans la hiérarchie des classes : une classe peut être une sous-classe de plusieurs classes. Supposons que nous voulons créer une classe distincte pour les vins de dessert, la classe Vin doux. Le vin de Porto est à la fois un vin rouge et un vin doux. Par conséquent, nous définissons une classe Porto pour avoir deux super-classes : Vin rouge et Vin doux. Toutes les instances de la classe Porto seront aussi bien des instances de la classe Vin rouge que de la classe Vin doux. La classe Porto héritera les attributs et les facettes des attributs de ses deux parents. Ainsi, elle héritera la valeur DOUX pour l’attribut de la classe Vin doux et l’attribut Niveau de tanin et la valeur de son attribut couleur de la classe Vin rouge.

Une instance ou une classe

Décider si un concept particulier est une classe ou une instance individuelle dans une ontologie dépend des applications potentielles de l’ontologie. Trancher sur : où finissent les classes et où commencent les instances individuelles, commence par la définition du niveau le plus bas de granularité dans la représentation. Le niveau de granularité est à son tour défini par l’application potentielle de l’ontologie. Autrement dit, quelles sont les entités les plus spécifiques qui seront représentées dans la base de connaissances ? Par exemple, si nous devons parler seulement d’accord des vins avec des mets, nous ne serons pas intéressés par les bouteilles physiques particulières de vin. Donc, des termes tels que Merlot des Vignobles de Sterling seront probablement les termes les plus spécifiques que nous utiliserons. En d’autres termes, la classe Vin rassemble non pas des bouteilles individuelles de vins mais des vins particulières produits par des établissements vinicoles particuliers. Donc, le Merlot des Vignobles de Sterling serait une instance dans la base de connaissances. Par ailleurs, si nous souhaitons maintenir un inventaire des vins dans le restaurant, alors les bouteilles individuelles de chaque vin peuvent devenir des instances individuelles dans notre base de connaissances. De même, si nous souhaitons enregistrer les propriétés différentes de chaque millésime spécifique du Merlot des Vignobles de Sterling, alors tout millésime spécifique de ce vin sera une instance dans la base de connaissances et le Merlot des Vignobles de Sterling sera une classe contenant des instances pour toutes ses millésimes.

Qu’y a-t-il dans un nom ?

Définir des conventions à suivre lorsqu’on nomme les concepts dans une ontologie et y adhérer, non seulement rend l’ontologie plus compréhensible, mais aide également à éviter les quelques erreurs les plus fréquentes de modélisation. Plusieurs alternatives existent pour nommer les concepts. Souvent, il n’y a pas de raison particulière pour privilégier l’une ou l’autre de ces alternatives. Néanmoins nous avons besoin de définir une convention de nomination pour les classes et les attributs et y adhérer :

– Le système a-t-il le même espace de nomination pour les classes, attributs et instances ? C’est-à-dire, permet–il d’avoir une classe et un attribut ayant le même nom (tels qu’une classe établissement vinicole et un attribut établissement vinicole) ?

– Le système est-il sensible à la casse ? C’est-à-dire, traite-t-il de la même façon les noms selon qu’ils sont entrés en majuscules ou en minuscules (tels que Établissement vinicole et établissement vinicole)?

– Quels délimiteurs le système autorise-t-il pour les noms ? C’est-à-dire, les noms peuvent-ils contenir

des espaces, des virgules, des astérisques, etc. ?

Actuellement, les chercheurs mettent l’accent non seulement sur le développement des ontologies, mais aussi sur l’analyse des ontologies. Étant donné le nombre croissant d’ontologies qui vont être générées et réutilisées, l’offre des outils d’analyse augmentera proportionnellement. Par exemple, Chimaera (McGuinness et al.) fournit des outils de diagnostic pour analyser les ontologies.[9] L’analyse effectuée par Chimaera comprend aussi bien une vérification de la rigueur logique d’une ontologie que le diagnostic des erreurs habituelles dans sa conception.

Conclusion

Nous avons décrit ici une méthodologie de développement d’ontologie pour les systèmes déclaratifs de type FRL. Nous avons listé les étapes dans le processus de développement d’une ontologie et abordé les problèmes complexes de définition d’une hiérarchie de classes, des propriétés des classes et des instances. Toutefois, après avoir suivi toutes les règles et suggestions, la remarque la plus importante à retenir est : il n’y a pas qu’une seule ontologie correcte de référence pour un domaine précis. La conception des ontologies est un processus créatif et il ne peut pas y avoir d’ontologies identiques faites par des personnes différentes. Les applications potentielles d’une ontologie et la compréhension du concepteur, ainsi que le point de vue qu’il a du domaine traité, affecteront indubitablement les choix de conception de l’ontologie. Nous pouvons tester la qualité de notre ontologie uniquement en l’utilisant dans les applications pour lesquelles elle a été conçue.

Georges Vignaux

Références

Booch, G., Rumbaugh, J. and Jacobson, I. (1997). The Unified Modeling Language user guide: Addison-Wesley.

Brachman, R.J., McGuinness, D.L., Patel-Schneider, P.F., Resnick, L.A. and Borgida, A. (1991). Living with CLASSIC: When and how to use KL-ONE-like language. Principles of Semantic Networks. J. F., Sowa, editor, Morgan Kaufmann: 401-456.

Brickley, D. and Guha, R.V. (1999). Resource Description Framework (RDF) Schema Specification. Proposed Recommendation, World Wide Web Consortium: http://www.w3.org/TR/PR-rdf-schema.

Chimaera (2000). Chimaera Ontology Environment. http://www.ksl.stanford.edu/software/chimaera

Duineveld, A.J., Stoter, R., Weiden, M.R., Kenepa, B. and Benjamins, V.R. (2000). WonderTools? A comparative study of ontological engineering tools. International Journal of Human-Computer Studies

52(6): 1111-1133.

Farquhar, A. (1997). Ontolingua tutorial. http://ksl-web.stanford.edu/people/axf/tutorial.pdf

Gómez-Pérez, A. (1998). Knowledge sharing and reuse. Handbook of Applied Expert Systems. Liebowitz, editor, CRC Press.

Musen, M.A. (1992). Dimensions of knowledge sharing and reuse. Computers and Biomedical Research 25: 435-467.

Ontolingua (1997). Ontolingua System Reference Manual. http://www-kslsvc., stanford.edu:5915/doc/frame-editor/index.html

Rothenfluh, T.R., Gennari, J.H., Eriksson, H., Puerta, A.R., Tu, S.W. and Musen, M.A. (1996). Reusable ontologies, knowledge-acquisition tools, and performance systems: PROTÉGÉ-II solutions to Sisyphus-2. International Journal of Human-Computer Studies 44: 303-332.

Rumbaugh, J., Blaha, M., Premerlani, W., Eddy, F. and Lorensen, W. (1991). Object-oriented modeling and design. Englewood Cliffs, New Jersey: Prentice Hall.


[1] Gruber, T.R., A Translation Approach to Portable Ontology Specification. Knowledge Acquisition 5: 1993, 199-220.

[2] Price, C. and Spackman, K., SNOMED clinical terms. BJHC&IM-British Journal of Healthcare Computing & Information Management, 2000, 17(3): 27-31.

[3] Humphreys, B.L. and Lindberg, D.A.B., « The UMLS project: making the conceptual connection between users and the information they need ». Bulletin of the Medical Library Association, 1993, 81(2): 170.

[4] Natalya F. Noy et Deborah L. McGuinness, « Développement d’une ontologie », Université de Stanford, Stanford, CA, 94305

[5] McGuinness, D.L., Fikes, R., Rice, J. and Wilder, S., An Environment for Merging and Testing Large Ontologies. Principles of Knowledge Representation and Reasoning: Proceedings of the Seventh International Conference (KR2000). A. G. Cohn, F. Giunchiglia and B. Selman, editors. San Francisco, CA, Morgan Kaufmann Publishers, 2000.

[6] Natalya F. Noy et Deborah L. McGuinness, « Développement d’une ontologie », Université de Stanford, Ca.

[7] Gruninger, M. and Fox, M.S., « Methodology for the Design and Evaluation of Ontologies ». In: Proceedings of the Workshop on Basic Ontological Issues in Knowledge Sharing, IJCAI-95, Montreal.

Hendler, J. and McGuinness, D.L.,The DARPA Agent Markup Language. IEEE Intelligent Systems, 2000, 16(6): 67-73.

[8] Rosch, E., Principles of Categorization. Cognition and Categorization. R. E. and B. B. Lloyd, Hillside, NJ, Lawrence Erlbaum Publishers, 1978, 27-48.

[9] McGuinness, D.L., Abrahams, M.K., Resnick, L.A., Patel-Schneider, P.F., Thomason, R.H., Cavalli-Sforza, V. and Conati, C. Classic Knowledge Representation System Tutorial. http://www.belllabs.com/project/classic/papers/ClassTut/ClassTut.html

Pour que  l’analyse d’une idée soit vraiment efficace il faut disposer d’un minimum d’informations à analyser. Même si la chose semble paradoxale, le meilleur moyen d’arriver au bon résultat c’est de ne pas trop avoir d’informations. Ce qu’il faut pour prendre une décision, c’est d’avoir une faible densité informative. Ma proposition peut sembler à contre-courant alors que partout on nous dit qu’il faut disposer d’un maximum d’informations pour prendre une bonne décision. Aussi paradoxale que la chose puisse paraître, moins nous avons d’informations, plus simple et efficace est notre catégorisation du monde qui nous entoure.

Par exemple, si vous présentez une image floue à quelqu’un sur un écran d’ordinateur, et que vous la rendez de moins en moins floue, le cerveau émettra des hypothèses au fur et à mesure que l’image sera de moins en moins floue. Si vous le faites, disons en dix étapes séparées et peu espacées les unes des autres dans le temps, votre cerveau émettra plus de dix hypothèses quant à la nature de l’image avant de la résoudre. Si vous le faites en cinq étapes un peu plus espacées dans le temps, le cerveau n’émettra que cinq hypothèses pour identifier l’image. Le principe derrière ce phénomène est le biais de confirmation. Notre cerveau, dès qu’il émet une hypothèse, cherche par tous les moyens à confirmer son hypothèse. Donc, plus vous avez d’informations, moins vous êtes efficace et plus vous cherchez à valider de fausses hypothèses. En fait, plus nous avançons dans le temps, plus nous avons d’informations à propos du mode de fonctionnement des événements, moins nos prédictions par rapport à ces mêmes événements sont valides.

Faible densité informative

Lorsque vous êtes en présence de trop d’informations, vous êtes perplexe et vous vous demandez quoi faire. Dans plusieurs cas, certains s’en remettent à la puissance de traitement des ordinateurs pour colliger toutes les données et les mettre en relation afin de déceler le schéma informatif sous-jacent. Et pourtant, en réalité, la seule vraie façon de pouvoir soutirer de la pertinence d’un ensemble d’informations, c’est lorsque vous êtes en présence d’une faible densité informative. Ça vous semble contre-intuitif? Voici mon point de vue sur la chose. John D. Barrow, dans son livre « La grande théorie[1] », aborde le problème de la façon suivante :

« […] inextricablement liée à la compressibilité algorithmique du monde est la capacité de l’esprit d’effectuer des compressions. Nos esprits ont pris comme supports les éléments du monde physique et ont été aiguisés, tout au moins partiellement, par le processus de sélection naturelle, pour devenir aujourd’hui coupants. Leur aptitude à censurer l’environnement et leur capacité de survie sont reliées de manière évidente à leur qualité de compression algorithmique. Plus le stockage et la codification de l’expérience naturelle de l’organisme sont efficaces et plus l’organisme peut écarter les dangers. Dans la phase la plus récente de l’histoire de l’homo sapiens, cette capacité a atteint de nouveaux sommets de sophistication. […] Plus précisément, nos esprits génèrent des simulations d’expériences passées dans le contexte de situations nouvelles, ce qui requiert un cerveau passablement exercé. Il est clair que les capacités mentales doivent passer un certain seuil pour effectuer une compression algorithmique digne de ce nom. On peut comprendre que ce ne soit pas le cas : s’ils étaient si fins qu’ils puissent consigner la plus petite information possible au sujet de tout ce que nous voyons et entendons, alors nos esprits seraient surchargés d’informations. […] Le fait que nos esprits abandonnent toute ambition de collection et de traitement total de l’information a pour conséquence que le cerveau effectue une compression algorithmique de l’Univers, qu’il soit ou non effectivement compressible. En pratique, le cerveau opère par troncature. »

Lorsque j’ai fait mes études doctorales en sciences cognitives au début des années 2000, cette idée simple et élégante de Barrow m’avait séduite, à savoir que le cerveau opère par troncature et compression algorithmique. Au fil des années, je me suis rendu compte d’une chose : le cerveau n’effectue pas de compression algorithmique. Il comble plutôt les trous d’informations. Je m’explique. S’il fallait que le cerveau procède par compression algorithmique, cela impliquerait forcément que lorsqu’il restitue l’information, celle-ci serait accessible dans son intégralité. Ce qui veut donc dire que le cerveau serait dans un constant processus de décompression pour ramener à notre conscience les événements passés et les informations dont nous avons besoin pour agir et réagir aux situations. Mais, la nature a une particularité bien précise : s’il y a un million de façons de faire une chose, elle choisira toujours l’option la plus simple.

Par exemple, nous savons tous que lorsque nous nous remémorons un fait ou un événement, celui-ci ne nous est jamais présenté dans son intégralité. Il faut donc supposer que le cerveau s’appuie plutôt sur une faible densité informative, et qu’il comble les trous pour nous fournir un portrait d’ensemble. Lors d’un procès, les avocats savent fort bien que la mémoire est une faculté qui oublie, et ils se servent de cette faille pour tenter de discréditer l’une ou l’autre partie. Donc, si le cerveau compresse l’information, c’est qu’il doit être capable de la décompresser. Et s’il est capable de la décompresser, il devrait au moins nous retourner une image assez fidèle de la totalité de cette même information. À l’évidence, ce n’est pas le cas, car nous avons toujours des trous béants.

Acquisition comprimée

Je n’aime pas l’exemple que je vais vous présenter, car il a tendance à faire un lien direct entre le fonctionnement d’un système informatique et le fonctionnement du cerveau. Par contre, il a au moins l’avantage de clarifier mon propos. Lorsque vous décompressez un fichier informatique, vous retrouvez l’intégralité de l’information de celui-ci. Il n’y a pas de trous dans l’information retournée. Elle est tout simplement restituée dans son intégralité. Même si le cerveau avait cette capacité de compresser l’information, même s’il est massivement parallèlement connecté du point de vue neuronal, il lui serait strictement impossible de conserver toutes les informations compressées. Il faut donc supposer que le cerveau utilise une tout autre méthode, soit celle de l’acquisition comprimée. L’analogie que je pourrais utiliser pour expliquer l’acquisition comprimée est la suivante : il suffit de relier l’ensemble des points pour obtenir une image globale, un peu comme dans les dessins où il faut relier les points selon une séquence déterminée.

Le cerveau fonctionne par acquisition comprimée. C’est-à-dire qu’il ne retient que l’essentiel et qu’il rejette dès le départ tout ce qui est superflu. Donc il ne compresse pas. C’est par la suite qu’il reconstruit une « image » globale en comblant les informations manquantes.

Si le cerveau ne compresse pas, alors comment fait-il pour relier les points entre eux et ajouter l’information manquante entre ceux-ci ? Encore ici, je vais procéder par analogie. Avez-vous entendu parler de la ℓ1 minimization ? Il s’agit d’un procédé algorithmique qui permet de reconstruire des images ou d’autres types d’informations à partir de données manquantes.

Un jour de février 2004, Emmanuel Candès, alors chercheur au CalTech, se demandait comment clarifier une image en provenance d’un système d’imagerie par résonance magnétique. Le problème, c’est que, parfois, le système n’a pas assez de temps pour compléter le processus de scanning. L’idée lui vint d’appliquer le filtre de la ℓ1 minimization, et surprise, il obtint au bout de l’opération une image tout à fait claire et détaillée. Surpris, il considéra la chose comme impossible et reprit l’opération sur d’autres images et le résultat fut le même. Il était donc possible de reconstituer une image à partir d’un minimum d’informations. Ce fut le début de l’ouverture d’un tout nouveau champ de recherche : le compressed sensing. Rapidement, des fonds de recherche furent alloués à plusieurs scientifiques pour développer les mathématiques les plus appropriées pour traiter différents types d’informations. Imaginez un peu la chose : des systèmes de résonance magnétique qui peuvent fournir une image au bout de quelques minutes plutôt que de quelques heures, sans compter tout le champ de traitement des données, de l’écoute électronique, des applications militaires, des applications économiques, de la génomique, etc. C’est donc un tout nouveau champ d’applications qui se développe.

Dans le domaine de l’informatique et des communications, il faut s’attendre à une révolution du traitement des données. Au lieu d’avoir des algorithmes de compression qui seront devenus obsolètes dans vingt ou cinquante ans, une simple procédure mathématique universelle permettra de reconstruire les images, les vidéos, les données, etc. Dans le domaine de l’imagerie médicale et astronomique, les retombées seront absolument sidérantes. Par exemple, si vous avez une sonde spatiale qui orbite autour de Saturne, vous n’avez pas le luxe d’avoir une mémoire embarquée importante et plusieurs processeurs pour compresser l’information. Il vous suffit donc de procéder par acquisition comprimée d’images et vous laissez le soin aux ordinateurs sur Terre de faire tout le travail de reconstitution. Voici comment fonctionne le processus :

  1. Une caméra capture seulement qu’une partie de l’information disponible de façon aléatoire.
  2. L’algorithme ℓ1 minimization est appliqué. Celui-ci commence tout d’abord par choisir arbitrairement l’une des multiples façons de combler l’information manquante.
  3. L’algorithme tente de définir la nature de la faible densité informative de l’image. Pour ce faire, il tente de modifier l’image par des couches colorées successives.
  4. L’algorithme insère de simples rectangles qui se marient à la couleur du pixel adjacent. S’il détecte quatre pixels verts adjacents, il ajoute un pixel vert.
  5. Itération après itération, l’algorithme ajoute les plus simples formes possible tout en poursuivant sa recherche de faible densité informative. Éventuellement, il arrive à produire une image qui est presque la reconstitution parfaite de l’image originale.

Maintenant, imaginez cette technique appliquée aux enquêtes policières. À partir de bandes vidéo pas toujours très claires et souvent floues, il devient désormais possible de clarifier le tout et d’avoir une image nette et précise. Dans le domaine de la sécurité, il est certain que cette technique a un bel avenir, surtout que nous exigeons de plus en plus de mesures de contrôle pour nous protéger de l’imprévisible. Mais au-delà des prouesses techniques, la notion d’acquisition comprimée a un avantage encore plus intéressant pour nous. Elle nous permet d’envisager comment pourrait fonctionner le cerveau dans la classification du monde qu’il nous propose. Imaginez maintenant toutes les possibilités qui s’offrent à nous en terme de classification et d’organisation du Web.


[1] Barrow John D., La grande théorie, coll. Champs, Flammarion, Paris, 1996, p. 250.

Il y a certaines idées fausses qu’il est nécessaire de corriger. (1) L’une est celle de la métamorphose telle celle de la chrysalide en papillon ou du têtard en grenouille. C’est la métamorphose au sens que lui donne le poète latin Ovide. L’autre idée fausse répandue est celle de « l’échelle des êtres » ou « Scala Naturae ». Selon cette idée, les organismes peuvent être classés par ordre de complexité croissante. Cette idée était déjà chez Aristote. Elle sera reprise par Leibniz (1646-1718). Selon ce principe de complexité, en bas on trouverait  les quatre éléments – l’eau, la terre, le feu, l’air -, au-dessus il y aurait les pierres et les minéraux, au-dessus encore les plantes, et enfin, les animaux, avec au sommet de l’échelle : l’homme. Cette classification linéaire continue d’imprégner nombre d’esprits…

Il est vrai que les idées neuves ont bien du mal à s’imposer. Dans les sciences modernes du vivant, une première idée neuve va bousculer ces idées naïves précédentes : c’est celle de « plan d’organisation ». Elle permet une première approche du concept d’« homologie » qui sera central dans la théorie de l’évolution. L’idée est que si deux animaux possèdent le même plan d’organisation, alors on peut comparer les organes, les caractères de ces animaux. Cette idée, on la doit à Etienne Geoffroy Saint-Hilaire. Il la nomme « principe des connexions ». Cela signifie que des organes qui se situent de la même façon dans un plan d’organisation interne des animaux sont comparables ou « homologues » : on les définit par leurs « connexions » entre eux et avec les autres organes et non plus, comme autrefois, par leur fonction ou leur forme. Exemple : les membres antérieurs des vertébrés (oiseaux ou homme) ont tous un humérus. Chez tous ces vertébrés, on appellera humérus cet os parce qu’il est, à chaque fois, situé entre la ceinture scapulaire et un couple d’os longs parallèles – radius et cubitus – eux aussi définis selon le même principe géométrique.

Une deuxième idée neuve est celle, géniale, de Georges Cuvier, fondateur de la paléontologie des vertébrés au début du XIXe siècle. Cuvier établit, le premier, qu’à des époques très anciennes, existaient des animaux qui ont aujourd’hui disparu. Notamment à cause des changements climatiques sur de longues périodes. Par exemple, on trouvait, il y a très longtemps, des crocodiles sur les berges de la Seine. Le fait alors que certains de ces animaux n’existent plus, met en évidence « la mort des espèces » : des espèces peuvent disparaître à jamais.

Au début du XIXe sècle, on dispose donc, grâce au concept d’homologie, d’une méthode efficace de comparaison des organes et des caractères. On sait que les métamorphoses, au sens antique du terme, n’existent pas. L’idée de « génération spontanée » est réfutée et on sait surtout que la terre a été formée il y a très longtemps et que les espèces peuvent disparaître. Si on réfléchit alors à la formation des espèces, deux hypothèses sont en concurrence.

L’hypothèse créationniste avance qu’à un moment donné, un certain nombre d’espèces ont été créées. Mais si les espèces meurent avec le temps, on peut imaginer que leur nombre va tendre vers zéro. Comment se sortir de cette contradiction ? Cuvier propose l’hypothèse de créations multiples : les temps géologiques ont été ponctués par des séries de catastrophes qui ont fait disparaître des espèces et en même temps contribué à créer de nouvelles espèces – ce qui a compensé les disparitions. Le fixisme est donc vérifié : le nombre d’espèces créées est stable.

L’hypothèse transformiste considère au contraire, que les espèces se transforment les unes les autres au cours des temps. Lamarck est le premier à avancer cette hypothèse. Il l’expose dans le « Discours d’ouverture du cours de l’an X » qu’il prononce en 1802 au Muséum d’histoire naturelle. Il redéveloppe l’idée dans son ouvrage : « Philosophie zoologique » paru en 1809. Il fait l’hypothèse de plusieurs types de transformations, qui depuis ont été remis en cause, notamment lors de l’apparition de la théorie darwinienne.

(1) On lira avec profit le petit ouvrage d’Hervé Le Guyader : « Classification et évolution », Paris, Le Pommier, 2003.

Le Web sémantique désigne un ensemble de technologies visant à rendre les ressources du Web accessibles et utilisables par les programmes, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C. C’est un cadre commun qui permet le partage de données au-delà des frontières entre applications et communautés. C’est un effort collaboratif mené par un grand nombre de chercheurs et de partenaires socio-économiques. Il se fonde sur le cadre fourni par le « Resource Description Framework (RDF) ». Le Web sémantique, en tant que projet et programme, répond à deux types de préoccupations. Il s’agit d’abord de construire des formats communs, propres à l’intégration de données de diverses sources et à l’échange des documents. Il s’agit aussi d’élaborer un langage rendant compte de la relation entre ces données et les objets du monde réel, et permettant donc de « circuler » dans des ensembles de bases de données.

C’est dans ce contexte que Tim Berners Lee proposa dès 1994, la notion de « métadonnées » utilisables par les machines, lors de la conférence WWW 94 où fut annoncée la création du W3C. Ces métadonnées formelles depuis, sont présentées comme une représentation utilisable par les machines de l’information contenue dans les documents, par exemple le fait qu’une personne X est employée par une organisation Y.

Le développement de cette idée aboutit à la publication en 1999 de la première version de RDF (Resource Description Framework), langage qui définit un cadre général pour la standardisation des métadonnées des ressources Web.

Sur la base de RDF se sont ensuite développés des vocabulaires spécifiques destinés à des applications particulières, comme FOAF conçu pour décrire les relations entre personnes, puis des langages destinés à structurer ces vocabulaires, comme RDFS et le langage d’ontologie OWL, publiés dans leur forme finale en février 2004.

Au cours de cette évolution, la notion de ressource a quitté son sens original de « document publié sur le Web » pour s’étendre à des sens plus généraux et plus abstraits. Dans les langages d’ontologie, les ressources décrites sont des concepts comme des classes, des propriétés, ou des concepts utilisés pour l’indexation. À ce titre, les langages et technologies du Web sémantique sont parfois présentés comme des outils de représentation des connaissances adaptés à l’environnement Web, et permettant de transformer automatiquement les données en information, et les informations en savoirs.

Le Web sémantique s’appuie donc sur la fonction primaire du Web « classique » : un moyen de publier et consulter des documents. Mais les documents traités par le Web sémantique contiennent non pas des textes en langage naturel (français, espagnol, chinois, etc.), mais des informations formalisées pour être traitées automatiquement. Ces documents sont générés, traités, échangés par des logiciels. Ces logiciels permettent souvent, sans connaissance informatique, de :

* générer des données sémantiques à partir de la saisie d’information par les utilisateurs ;
* agréger des données sémantiques afin d’être publiées ou traitées ;
* échanger automatiquement des données en fonction de leurs relations sémantiques ;
* générer des données sémantiques automatiquement, à partir de règles d’inférences.

Cela implique en premier lieu de s’interroger sur les principes de classification à l’œuvre aussi bien dans les savoirs humains que dans le Web. Des millions de documents sont en effet, « installés » sur le Web. Mais l’accessibilité à ces documents n’est que partielle. Un moteur de recherche usuel permet un accès non sémantique.

Un accès « sémantique » sera réalisé lorsque les mots entrés par l’internaute dans son moteur de recherche seront décodés en termes de sens puis reliés à des documents eux mêmes indexés selon leur sens, grâce à des marqueurs spéciaux dans les pages Web (« balises » permettant de relier les pages). C’est ce que l’on nomme le « Web sémantique » comme on vient de le voir. Pour ce faire, comme cela a été dit précédemment, il faut développer un langage de traitement/classification sémantique par exemple à base d’ontologie.

Une classification ou système de classification est un système organisé et hiérarchisé de classification d’«objets ». Les classifications sont utilisées dans tous les domaines d’activités humaines (les espèces vivantes, les maladies, les produits ou services, les documents dans une bibliothèque…). Les classifications portant sur un domaine limité sont généralement bien admises par les spécialistes du domaine. Les classifications à vocation universelle, en revanche, sont toujours tributaires d’un point de vue et sont donc l’objet de nombreuses critiques. Elles apportent cependant un éclairage utile aux réflexions sur la nature de la connaissance et les processus cognitifs mis en jeu.

Les classifications sont donc importantes pour organiser les connaissances. Classer les objets ou les connaissances, c’est dire comment ils/elles se situent les un(e)s par rapport aux autres.

Maintenant que l’ouvrage « Tendances » est paru, il nous a paru pertinent à Pierre Fraser et moi-même, de tenter une aventure commune sur la notion de « Web sémantique ». Elle prendra l’allure de fragments écrits, échangés entre nous deux, avec des fils conducteurs !
L’idéal est une sorte de blog que l’on ouvrira à d’autres ! Le fil conducteur général pourrait suivre, dans l’immédiat, les étapes d’interrogation suivantes :

– Le web sémantique ? Classer, penser. Penser, classer.
– La tradition du classement ? Idées éternelles, idées opportunes ? Depuis le conflit Platon-Aristote…
– Le statut des objets : quelles entités ? comment classer ? La « forêt des taxinomies »…
– Les relations : le langage et la réalité ?
– Le lecteur comme constructeur de parcours. Chemins de la connaissance ?
– Le Web, lieu de navigation ? Comment s’y perdre ? Comment s’y retrouver ? Quels processus ?
– Le Web univers ? Paradis ou enfer ? Un océan de données : s’y noyer ? Quelles balises ? Quels repères ?
– Des routes à tracer : l’avenir n’est pas à savoir classer, mais à savoir relier: de nouvelles compétences ?