Feeds:
Articles
Commentaires

Archive for the ‘Uncategorized’ Category

On peut distinguer plusieurs grandes tendances dans la recherche d’information [1] :
de la dépendance à l’autonomie des usagers,
de la maîtrise des stocks à la surabondance des flux,
de la validation a priori à la validation a posteriori,
de la rareté et de la distinction à l’explosion et à l’hybridation des outils et des modes de recherche,
du modèle de l’accès à celui du traitement de l’information,
de la gratuité à la commercialisation de la recherche.

Du côté des usagers : de la dépendance à l’autonomie
C’est sans doute l’évolution la plus significative : depuis les premières recherches des années 60, où l’utilisateur posait sa question au documentaliste qui la transmettait à l’informaticien, jusqu’à l’utilisation actuelle des moteurs de recherche, en passant par l’interrogation des banques de données par le Minitel, les usagers sont passés d’une situation de dépendance totale vis-à-vis des professionnels à une interaction directe avec les outils. Cette autonomisation des utilisateurs est la conséquence directe d’une tendance lourde de l’évolution des outils : la simplification des accès, des interfaces, des procédures. La complexité et l’intelligence technique sont de plus en plus « enfouies » dans la technologie même des outils, et ceux-ci deviennent des « boîtes noires », auto-simplifiantes, utilisables par le grand public (cf le succès de Google). Nous sommes loin d’avoir tiré toutes les leçons de ce phénomène de démocratisation dans l’accès à l’information et de popularisation de pratiques jusqu’alors réservées aux professionnels. Les problèmes de la recherche d’information sont aujourd’hui inséparables des enjeux politiques, culturels, sociaux, liés à l’utilisation des technologies de l’information.

Du côté de l’offre informationnelle
Nous sommes passés de « l’explosion documentaire » des années 60, qui concernait surtout l’information scientifique et technique (essor des banques de données, etc.) à celle du « déluge informationnel » d’Internet. Il s’agit :
d’un changement d’échelle, dans la production documentaire, mesurée désormais en milliards et non plus en millions (sur le Web « visible », i.e. indexé par les moteurs de recherche, et impossible à évaluer précisément, le nombre de pages Web serait entre 20 et 30 milliards ; quant au Web « invisible », il serait estimé à 900 milliards de documents !) ;
d’un changement de support, avec la numérisation généralisée des textes, des sons, des images et de tous types de traces, l’Internet devenant un gigantesque espace « multimédia » ;
d’un changement de système éditorial, le Web étant avant toute chose un vaste système d’auto-publication, permettant à chacun de publier pour le meilleur et pour le pire.

Du côté de la « chaîne de production » de l’information
Contrairement aux centres documentaires protégés et balisés, le Web est un océan ou une poubelle, selon l’appréciation. Ce qui constitue d’ailleurs l’un des enjeux éducatifs les plus forts, c’est bien ce retournement de la validation de l’information : jusqu’alors effectuée « en amont » de la chaîne de production de l’information, d’abord par les chercheurs et les auteurs, qui n’écrivent pas (théoriquement) n’importe quoi, puis par les éditeurs, qui ne publient pas tout ce qui s’écrit, ensuite par les libraires, qui ne vendent pas tout ce qui se publie et enfin par les bibliothécaires-documentalistes, qui n’achètent pas tout ce qui se vend, la validation de l’information (i. e. l’évaluation, la sélection, le filtrage…) sur le Web : est maintenant généralement reportée sur l’utilisateur, « en aval », avec tous les problèmes et les risques possibles.

Du côté des outils : vers l’hybridation des outils et des modes de recherche
Première observation : nous sommes passés, en deux décennies, d’une relative rareté à une prolifération d’outils de recherche. Deuxième observation : l’hybridation des modes de recherche et des outils. On peut distinguer, schématiquement, quatre modalités de recherche d’information : la navigation arborescente (dans les annuaires thématiques, les classifications), la navigation hypertextuelle (dans les sites Web, les encyclopédies), la recherche par requête sur des mots-clés dans des champs délimités (l’interrogation des banques de données) et la recherche par requête sur le contenu (recherche en texte intégral, moteurs de recherche). A chacune de ces modalités correspondaient des pratiques, des usages de recherche, des outils, jusqu’alors bien distincts. Or l’une des évolutions profondes de la recherche d’informations a consisté à entremêler ces modalités. Depuis quelques années, la mixité entre annuaires et moteurs, combinant recherche arborescente et sur le contenu, et le développement des portails, proposant tous les types de recherche, témoignent de cette imbrication de techniques et de modalités de recherche différentes.

Du côté des processus de recherche
Ces évolutions ont induit une autre transformation profonde, tenant à la fois aux procédures et aux usages de la recherche d’information. Dans l’univers familier aux documentalistes, c’est-à-dire dans le monde de ce qu’on appelait la « RDI » (Recherche Documentaire Informatisée), les recherches se font avant tout selon la logique booléenne (par l’utilisation des opérateurs booléens, de troncature, éventuellement de proximité) et selon des règles de syntaxe plus ou moins formelles et complexes. La principale caractéristique de la « RDI » tient au fait qu’il s’agit toujours de retrouver des références de documents préalablement saisies : la recherche porte toujours sur un fonds ou une base fermée dont on peut connaître à l’avance le contenu exact ou la composition, et elle fait peu de place au hasard : on sait ce qu’on (re)cherche. La recherche sur le Web est différente : le contenu est, par définition, impossible à cerner et les modes de recherche sont variés. On peut certes maîtriser toute la gamme des opérateurs, utiliser pleinement les fonctionnalités et les astuces de recherche des outils. Mais quiconque a fait l’expérience d’une recherche sur le Web sait que nombre de découvertes se font souvent par hasard, au gré des navigations de site en site, ou dans la liste des résultats d’un moteur.

Du côté des modèles de la recherche d’information
La question centrale, face au « déluge informationnel », n’est plus tant la recherche elle-même que l’exploitation des résultats. A quoi peuvent servir les milliers de documents trouvés sur Google sur un sujet quelconque ? Comment filtrer le nombre de références? Comment exploiter les listes de résultats de manière plus « intelligente »? Comment obtenir une analyse de tel corpus de données?, etc., bref, comment mieux exploiter et gérer les informations : le défi est là. [2]

Du côté de l’économie de l’information : de la gratuité à la vente des mots-clés
La nouveauté réside dans cette nouvelle forme d’économie et de marché, apparue autour des outils de recherche privés du Web et des enjeux financiers énormes, à la mesure du trafic généré par ces outils. Liens sponsorisés, liens commerciaux, « addwords », etc., les techniques de ce qu’on appelle le « positionnement payant » ne cessent de se développer, ajoutant un nouveau défi pour les usagers : savoir distinguer un lien « sponsorisé » d’un résultat « normal ». Le positionnement payant consiste en un système compliqué de vente aux enchères de mots-clés, par des sociétés spécialisées (comme Overture, Espotting ) ou certains moteurs de recherche (comme Google). Cette vente de mots-clés permettra par exemple à un site commercial, spécialisé dans le voyage, d’apparaître en haut d’une page de résultats pour toute requête comprenant le mot « voyage ». Avec le positionnement payant, c’est la notion même de pertinence qui est atteinte.

Panorama des outils de recherche actuels
Un premier critère, le mode de recherche proposé, distinguait autrefois entre les outils par navigation arborescente (comme les annuaires) ou hypertexte (comme les listes de signets), et les outils par requête (comme les moteurs, fondés sur l’utilisation de mots-clés). Cette distinction n’est plus pertinente aujourd’hui, tant l’imbrication est forte sur les mêmes outils. Un deuxième critère reste toujours valable, en dépit des apparences : celui du mode d’indexation des ressources. Selon ce critère, on distingue les annuaires thématiques, qui procèdent à un référencement des sites Web (par exemple la partie annuaire de Yahoo, l’Open Directory) et les moteurs de recherche (Google, Wisenut, YST… ), qui fonctionnent par collecte et indexation automatisées des pages Web (et non des sites). Cette distinction, « historique », est moins nette aujourd’hui, à cause de l’imbrication des annuaires et des moteurs : Google utilise l’annuaire de l’Open Directory, Yahoo a son propre moteur, etc. Mais le critère des modes d’indexation reste essentiel, car il induit des usages et des technologies très différentes. Ainsi un annuaire thématique va-t-il référencer des sites Web, là où un moteur indexera toutes les pages d’un site ; l’annuaire facilitera le défrichage, le premier repérage des ressources dans un domaine ou un secteur défini par l’organisation arborescente proposée, alors qu’un moteur de recherche permettra de trouver un document très précis.

En résumé, la tripartition entre annuaires thématiques, moteurs de recherche et métamoteurs reste une typologie valide. A ces trois catégories d’outils, il faut ajouter deux autres familles : celles des portails et des outils dits annexes. Un portail se distingue notamment des autres outils traditionnels par un ensemble de services personnalisés offerts aux usagers (compte personnel, messagerie, commerce, commande de documents, veille, etc.) [3]. Quant aux « outils annexes », il s’agit d’un ensemble d’outils diversifiés, pouvant servir à la recherche d’information et à la veille : « aspirateurs de sites » Web, organisateurs de signets, outils collaboratifs de partage des signets.

Vers la spécialisation généralisée
Un quatrième critère a pris une importance considérable depuis quelques années : la nature des ressources proposées. Il s’agit de la distinction classique entre outils généralistes et outils spécialisés. La spécialisation revêt différentes formes : spécialisation sur un domaine particulier (tourisme, industrie, culture, médecine, sciences exactes, sciences humaines et sociales, etc.) [4], sur une zone linguistique ou géographique, selon la nature des documents (forums, listes de diffusion, bases de données, dépêches d’actualité, bibliothèques électroniques…), selon le type de fichier, selon la nature du média (images, sons) [5].

Les différents niveaux d’analyse linguistique
On peut relever quatre niveaux d’analyse automatisée, correspondant aux quatre premières « couches » d’un texte: morphologique, lexicale, syntaxique, sémantique. A quels niveaux d’indexation se situent les moteurs de recherche ? On sait que lorsqu’on tape un mot-clé sur un moteur, il va chercher dans sa base de données toutes les pages Web contenant ce mot : aucune « intelligence » dans le procédé, mais une simple reconnaissance de chaînes de caractères, qui doivent être identiques. Dans certains cas, le moteur élimine les « mots-vides » (articles, prépositions, etc.). On est dans le domaine de l’analyse morphologique, fondée sur la seule reconnaissance de la forme des mots. Actuellement, la plupart des moteurs fonctionnent encore à ce premier niveau de l’analyse morphologique (comme Google).

Quelques moteurs ont poussé l’analyse automatisée jusqu’au niveau du lexique, pratiquant ce qu’on appelle la lemmatisation : la réduction d’un mot à sa racine (ou lemme). Du coup, les index sont considérablement allégés, la recherche plus pertinente. La lemmatisation permet également de chercher tous les termes partageant la même racine ou toutes les déclinaisons d’un terme : par exemple, sur Exalead, une recherche sur « cheval de course » trouvait non seulement « chevaux de course » mais aussi « course de cheval » [6].

Avec le troisième niveau d’analyse, on passe au stade de la syntaxe, qui permettra de reconnaître des expressions, des groupes nominaux (pollution de l’air, agence de presse, etc .). Assez peu d’outils du Web offrent ces possibilités et on peut citer de nouveau ce moteur français, Exalead, qui, en plus de la lemmatisation, permettrait la reconnaissance des groupes nominaux et surtout la proposition de nouveaux mots-clés, par extraction des groupes nominaux du corpus de résultats. La génération automatique de mots-clés constitue d’ailleurs l’une des innovations les plus intéressantes pour l’usager, lui permettant d’affiner ses recherches. On trouve cette fonctionnalité sur quelques moteurs, comme Teoma, Voilà, à des degrés différents.

Enfin le quatrième niveau d’analyse et d’indexation, celui de la sémantique, concerne la signification d’un texte, par extraction de concepts, de notions. Ce dernier niveau reste peu répandu sur le Web, et se rapproche des pratiques d’indexation avec thésaurus, familières aux documentalistes. L’analyse sémantique est cependant présente sur le Web, selon des méthodes plus statistiques que linguistiques [7] : elle concerne surtout le traitement des résultats après une requête et non l’indexation a priori des documents. Un exemple intéressant de l’indexation sémantique d’un corpus de textes est fourni par le service de Google, News, dans lequel le moteur propose une « revue de presse » entièrement automatisée, établie à partir des articles et dépêches de journaux.

Les progrès dans les fonctionnalités de recherche et de filtrage de l’information
Ce deuxième domaine d’innovations concerne les interfaces de requêtes. On désigne par là les fonctionnalités, de plus en plus nombreuses, offertes par les outils de recherche (surtout les moteurs) [8] pour la gestion des requêtes proprement dites : utilisation des opérateurs booléens et, parfois, de proximité, troncature, équations de recherche avec parenthésage, mais surtout filtrage des requêtes. Certains métamoteurs [9] permettent désormais de poser plusieurs filtres sur les requêtes : sur la langue, sur les dates de publication, sur l’espace Internet (Web mondial, francophone…), sur le type de ressources (images, journaux, forums, Weblogs…), mais aussi sur les formats de documents (possibilité de chercher des fichiers PDF, DOC, XLS, PPT…), sur les pages similaires, sur différents champs des pages Web (titre, liens, URL, métadonnées, etc.). La plupart de ces fonctionnalités de recherche restent généralement méconnues des utilisateurs, alors que leur connaissance et leur maîtrise sont l’une des conditions d’une recherche d’information efficace.

Catégorisation, réseaux sémantiques, analyse de contenu
Trois innovations importantes sont apparues depuis quelques années et concernent la manière dont certains outils de recherche traitent et présentent les résultats d’une requête : la catégorisation des résultats, les réseaux sémantiques et l’analyse de contenu. Mise en œuvre sur le moteur de recherche Exalead, et sur le métamoteur Vivisimo [10] , la catégorisation dynamique du résultat des recherches permet de « classer » les documents trouvés dans des catégories, des rubriques porteuses de sens (notamment sur Exalead). L’intérêt de cette technologie provient du caractère « dynamique » de cette catégorisation, opérée à partir des caractéristiques réelles du lot de documents trouvés, et non selon des rubriques établies a priori. Concrètement, à partir de la requête « cheval de course », Exalead a généré, à partir des 68 111 résultats, quatre grandes rubriques (Sport, Commerce et Economie, Régional, Sciences), avec des sous-rubriques (Elevage dans la rubrique Commerce et Economie). (Serres, 2004) Les technologies de catégorisation des résultats réintroduisent ainsi du sens, de la structuration dans le Web et elles sont appelées, d’une certaine manière, à jouer le même rôle que les thésaurus classiques, avec la différence de taille entre une indexation humaine a priori et une indexation automatisée a posteriori … Deux autres métamoteurs, Kartoo [11] et MapStan [12], ont développé une autre manière de présenter les résultats, non sous forme de rubriques calculées à partir des thèmes propres aux documents, mais sous forme de cartes, de réseaux sémantiques, calculés à partir des liens sémantiques entre les pages Web. Au lieu de référer les documents à des catégories thématiques, les pages Web sont reliées les unes aux autres, en fonction des mots-clés qu’elles partagent. Les résultats sont donc présentés graphiquement, sous forme de nœuds et de liens : les nœuds, qui correspondent aux pages Web trouvées, sont de taille variable, selon le degré de pertinence [13] des pages Web ; les liens entre les nœuds représentent les relations entre les pages Web, c’est-à-dire leur proximité, leur similarité. Représentés sous forme de sphères et de liens autrefois sur Kartoo (disparu en 2010), de places et de rues sur MapStan, ces réseaux sémantiques, parfois difficiles à décoder, offrent plusieurs intérêts pour l’utilisateur : possibilité d’affiner les requêtes (par choix de mots-clés), de visualiser des liens entre sites Web que l’on n’aurait pas pensé à associer, d’élargir les recherches sur les sites proches, de mettre en évidence (notamment sur MapStan) des réseaux d’acteurs sur telle ou telle thématique, avec des indications sur l’importance de tel ou tel site (par le nombre de liens qu’il reçoit) [14]. Une troisième orientation technologique porte sur l’analyse automatique du contenu des documents. Elle est développée notamment par un métamoteur américain, SurfWax [15]. Après une requête sur ce métamoteur (qui permet d’interroger près de 500 sources !), une fonction, appelée SiteSnaps, offre une sorte de synthèse de l’information sur chaque document trouvé, sous forme de fiche récapitulative : on y trouve ainsi le nombre de mots, de liens, d’images, éventuellement le résumé de l’auteur, les mots-clés de la requête dans leur contexte, les points clés (Key Points) de la page. En bref, une sorte d’analyse des documents, permettant à l’utilisateur de mieux faire ses choix, d’affiner et d’élargir sa recherche.

Comme on l’a vu rapidement, ces innovations dans le traitement des résultats induisent des usages différents et offrent des intérêts spécifiques pour la recherche d’information : d’un côté la mise en catégories de documents, de l’autre la représentation cartographique d’un réseau, ou encore l’analyse du contenu.

Vers le « Web sémantique » ?
On ne peut terminer un panorama de la recherche d’information sur Internet sans évoquer ce qui peut représenter une mutation tout à fait majeure, non seulement de la recherche d’information, mais des usages du Web : le « Web sémantique ». Il s’agit d’un projet de recherche déjà vieux de plusieurs années, lancé par le fondateur du Web lui-même, Tim Berners-Lee, au sein de l’organisation qui préside aux destinées du Web : le W3C (World Wide Web Consortium). Le W3C est un consortium créé en 1994, fondé sur trois pôles de recherche internationaux (le MIT, la Keio University au Japon et un regroupement de 18 centres de recherche européens, ERCIM 33 ), soit au total plus de 500 organisations, universités, entreprises, acteurs importants du Web. Le W3C est donc un acteur essentiel de la « gouvernance » d’Internet, et son rôle est de produire les standards informatiques pour le maintien et l’évolution du World Wide Web [16].

Quels sont les objectifs du Web sémantique ?
Organisation responsable du devenir de la « Toile », le W3C et son président, Berners-Lee, ont été les premiers insatisfaits des nombreux inconvénients du Web, qui ont transformé celui-ci en fourre-tout informationnel. Si le Web originel s’est révélé un fantastique outil pour la production, la publication et la diffusion de l’information, il n’a pu en revanche fournir encore les outils pour structurer et décrire les ressources de manière satisfaisante et permettre un accès pertinent à l’information. Par exemple, les liens hypertextes entre les sites Web, bien que porteurs de sens pour les humains, n’ont aucune signification utilisable par les machines [17]. On peut citer encore : l’absence ou la faiblesse d’une véritable description des ressources par les métadonnées, la non-exploitation de la sémantique des liens hypertextes par les machines, les limites des outils de recherche, incapables encore d’analyser vraiment les pages Web. Comme l’indiquait Philippe Laublet (Laublet 2004), le Web est prisonnier d’un paradoxe : « l’information et les services sur le Web sont aujourd’hui peu exploitables par des machines, mais de moins en moins exploitables sans l’aide des machines. »

Il s’agit surtout de pouvoir identifier, décrire et indexer les ressources du Web, un peu à l’instar de ce que font les bibliothécaires depuis longtemps à propos des documents.

Sur quelles techniques repose ce projet ?
Le chantier du Semantic Web repose sur un empilement complexe de plusieurs « couches » de langages et d’applications informatiques, plus ou moins autonomes. Schématiquement, on peut relever au moins quatre « couches », complémentaires : l’identification, la structuration, la description et la représentation des ressources.
L’identification précise des ressources : les URI
C’est l’objet des URI (Uniform Resource Identifier), sorte d’équivalent numérique de l’ISBN pour les livres.
Une structuration logique des ressources : XML
Structuration à la fois homogène et permettant « l’interopérabilité » (mot-clé essentiel du Web sémantique), c’est la « couche » XML (eXtensible Markup Language). [18] 18Ce « méta-langage » (XML n’est pas un simple langage de description et de codage de documents, comme HTML ou PDF, mais une sorte de syntaxe informatique universelle, fondée sur un principe simple : la distinction entre la structure physique d’un document (la mise en page, la typographie, etc.) et sa structure logique (les chapitres, la table des matières), permettant le codage et la description logique de n’importe quel type de ressources (texte, images, données numériques, mathématiques, graphiques).

Une description structurée et pertinente des ressources : les métadonnées
On parle de métadonnées à propos de tous les systèmes de description des ressources (depuis les simples balises Meta d’un document HTML jusqu’aux systèmes très élaborés de description, comme le Dublin Core [19] , la TEI [20]. Il existe une grande variété de systèmes et de standards de métadonnées et le Web sémantique peut être perçu comme une « surcouche », un cadre général qui vient se superposer à toutes les normes existantes. L’outil développé par le W3C pour le Web sémantique s’appelle le RDF (Resource Description Framework) : il s’agit, non d’un nouveau format de métadonnées, mais d’un métalangage, offrant une syntaxe universelle qui permettra aux machines d’échanger des informations de métadonnées incompatibles. RDF distingue trois types d’éléments : un sujet, une propriété, un objet, ou encore une ressource, une propriété, une valeur. Même si ce projet relève encore en partie de la science-fiction, on peut pressentir qu’il changera en profondeur la recherche d’information, en introduisant ce qui manque totalement sur le Web : un système d’indexation portant sur les concepts, les notions.

Une représentation partagée d’un domaine de connaissance : les « ontologies » (OWL)
Une ontologie informatique est une manière de représenter un domaine quelconque de connaissance (disciplinaire, thématique ou autre), sous la forme d’un ensemble de concepts, organisés par des relations structurantes, dont la principale est la relation « est-un » (« is-a » pour les anglo-saxons) [21] . L’intérêt des ontologies est à rapprocher de celui des thésaurus, avec lesquels elles partagent d’ailleurs beaucoup d’aspects : il s’agit d’outils visant à formaliser un domaine, à permettre à une communauté précise d’acteurs (qu’il s’agisse de bibliothécaires, de professionnels du tourisme ou de la santé…) de se mettre d’accord sur une représentation commune de leur champ et des concepts qui le constituent, et sur les relations entre les notions. Une ontologie est une « vue sur le monde », ni vraie ni fausse, mais opératoire, partagée et utilisable par les machines. Dans le Web sémantique : les ontologies jouent le même rôle que les classifications, les thésaurus et autres langages documentaires dans les bibliothèques. Ce rôle est essentiel puisqu’il s’agit de permettre aux machines d’établir les liens sémantiques entre différentes ressources.

De nouvelles formes de recherche et d’usage de l’information
Les fondements techniques du Web sémantique ouvrent la voie à de multiples applications nouvelles. Dans la recherche d’information, si les standards RDF et OWL se généralisent sur le Web, de nouveaux moteurs de recherche permettront bientôt de répondre aussi bien à des requêtes génériques, du type : « quelles sont les publications de l’Education nationale consacrées à la documentation ? » qu’à des requêtes beaucoup plus fines, croisant le contenu de plusieurs documents hétérogènes. En bref, le Web sémantique pourrait permettre de surmonter l’hétérogénéité actuelle des ressources du Web, et d’intégrer ces ressources sur une même interface, à partir d’outils simples à utiliser.

Arguments clés

Les problématiques du traitement de l’information et des nouvelles connaissances numérisées vont s’avérer à terme un enjeu économique, culturel et politique fondamental (cf le projet de très grande bibliothèque numérique de Google).
Ce sont en vérité de nouvelles modalités de transformation des modes de pensée dans les modes d’accès à la connaissance.
L’enjeu pour la recherche française est crucial : il s’agit de résister aux formats imposés, aux catégorisations et aux indexations figées, qui tendent à imposer une « nouvelle » culture mondiale, qui laisse peu de place à l’individu et à la liberté de ses stratégies.

Références
FOENIX-RIOU, Béatrice. Recherche et veille sur le Web visible et invisible. Agents intelligents, Annuaires sélectifs, Interfaces des grands serveurs, Portails thématiques. Paris : Bases, Ed. TEC&DOC, 2001
LARDY, Jean-Pierre. Recherche d’information sur Internet. Méthodes et outils. Paris : ADBS, 2001.
LAUBLET, Philippe. Introduction au Web sémantique. Rennes : URFIST, 2004.
LEFEVRE, Philippe. La Recherche d’informations. Du texte intégral au thésaurus. Paris : Hermès, 2000
LELOUP, Catherine. Moteurs d’indexation et de recherche. Paris : Eyrolles, 1998
SERRES, Alexandre. Sélection de ressources sur les outils de recherche. Rennes : URFIST, 2003. Disponible sur : http://www.uhb.fr/urfist/Supports/ApprofMoteurs_Ressources.htm

Notes
[1] Ce bref panorama prend origine dans la synthèse intéressante établie par Alexandre Serres en 2004 : http://www.urfist.cict.fr/lettres/lettre34/lettre34-31.html
[2] Citons par exemple les métamoteurs MapStan, SurfWax, Vivisimo…
[3] Tous les annuaires et moteurs de recherche. (Paris) : disponible sur http://www.enfin.com Répertoire francophone recensant de nombreux annuaires thématiques, généralistes et spécialisés, des moteurs de recherche, des portails, etc.
[4] Internet Search Engine Database. Cleveland (OH) (USA) : ISEDB.com, 2002-2004. Disponible sur http://www.isedb.com. Plus de 1500 outils de recherche référencés, articles, dossiers, actualités. In-Extenso.org, moteur de recherche en sciences sociales. Voir http://www.in-extenso.org/index.html
[5] Profusion, métamoteur spécialisé sur les ressources du Web invisible. Disponible sur http://www.profusion.com
[6] http://www.exalead.com/cgi/exalead. Exalead équipe également la plate-forme de recherche d’AOL France : voir : http://www.aol.fr/
[7] Par méthodes statistiques, on entend notamment le calcul des co-occurrences, c.à.d. le nombre de fois où deux termes apparaissent simultanément dans un texte. Ce type de méthode d’analyse permet d’établir des cartographies des termes et de leurs relations et de dégager ainsi la signification principale, les concepts majeurs d’un texte ou d’un corpus de textes.
[8] D’après un travail de comparaison de 7 moteurs de recherche, fait à l’URFIST de Rennes, ce sont Google,  et Voilà, qui offrent les fonctionnalités de recherche les plus nombreuses
[9] Kartoo ou Ixquick : voir également le travail de comparaison de six métamoteurs mené à l’URFIST de Rennes.
[10] Voir Vivisimo
[11] http://kartoo.com »
[12] http://search.mapstan.net »
[13] L’indice de pertinence permet de classer les documents selon les mots-clés (nombre, emplacement, « poids » des mots-clés.
[14] Selon cet indice de popularité (le fameux PageRank de Google), les pages Web sont classées, non plus selon leur « pertinence » intrinsèque, mais selon leur notoriété sur le Web (cad le nombre et le type de liens pointant vers elles).
[15] Entre autres fonctionnalités, SurfWax propose une fonction linguistique tout à fait originale, le Focus, qui permet de préciser les mots-clés d’une requête, en proposant pour un terme les termes synonymes, génériques et spécifiques. Ce Focus se présente comme un véritable thésaurus, un outil d’aide à la recherche.
[16] C’est le W3C qui a produit et diffusé le standard HTML, le protocole HTTP, le langage XML, et tous les formats et standards propres au Web.
[17] Même si des outils, comme Google ou Teoma, exploitent la structure hypertextuelle du Web, il ne s’agit toujours que de calculs statistiques sur des mots-clés, et non d’une véritable prise en compte de la signification des liens entre sites Web.
[18] Pour un bref historique et une présentation simplifiée de XML, voir : http://www.uhb.fr/urfist/Supports/Rechinfo2/Rechinfo2_cadre.htm
[19] Le Dublin Core : système de métadonnées élaboré en 1995 avec la participation de bibliothécaires, permet de décrire une grande variété de ressources sur internet, à partir d’un ensemble de 15 rubriques de description.
[20] La TEI (Text Encoding Initiative) permet l’échange de données textuelles, mais aussi d’images et de sons, et vient des communautés scientifiques, notamment d’informatique et de linguistique.
[21] L’ontologie, dans son acception philosophique habituelle, signifie la « science de l’être », portant sur les concepts généraux, tels que la substance, l’existence, l’essence, ou encore « la partie de la métaphysique qui étudie les êtres tels qu’ils sont en eux-mêmes, et relativement à leur cause » (d’après Nouveau vocabulaire des études philosophiques, S. Auroux et Y. Weil, Hachette, 1975).

Publicités

Read Full Post »

Du mythe au mythe rationnel : 14. Neuromarketing : Attention manipulation !.

Read Full Post »

Du mythe au mythe rationnel : 13. La pensée magique.

Read Full Post »

Les ontologies


Le développement des ontologies – spécifications formelles de termes d’un domaine et de relations entre elles[1] et formes modernes de la catégorisation – a quitté le champ de l’Intelligence Artificielle pour gagner les postes informatiques des experts de domaines. Les ontologies sont devenues courantes dans le World-Wide Web. Le champ de ces ontologies varie de taxonomies larges servant à catégoriser les sites Web (tels que dans Yahoo!) aux catégorisations de produits destinés à la vente et de leurs caractéristiques (tel que dans Amazon.com). Le Defence Advances Research Projects Agency (DARPA), conjointement avec le W3C, développe actuellement le DARPA Agent Markup Language (DAML) en vue de procurer  des ontologies normalisées utilisables par les experts de domaines pour partager et commenter l’information dans leurs domaines. La médecine par exemple, a produit de vastes vocabulaires normalisés structurés tels que SNOMED[2] et le réseau sémantique du Unified Medical Language System.[3] De même apparaissent de grandes ontologies universelles : par exemple le Programme des Nations Unies pour le développement et Dun & Bradstreet ont unis leurs efforts pour développer l’ontologie UNSPSC qui fournit une terminologie pour les produits et les services.

Une ontologie définit un vocabulaire commun pour les chercheurs qui ont besoin de partager l’information dans un domaine.[4] Elle inclut des définitions lisibles en machine des concepts de base de ce domaine et de leurs relations. Une ontologie sert notamment à :

– Partager la compréhension commune de la structure de l’information entre les personnes ou les fabricants de logiciels.

– Analyser le savoir sur un domaine.

– Permettre la réutilisation du savoir sur un domaine : c’était une des raisons majeures qui ont poussé la recherche sur les ontologies. Par exemple, les modèles de plusieurs domaines ont eu besoin de représenter la notion de temps. Cette représentation comprend les notions d’intervalles de temps, de moments précis de temps, de mesures relatives de temps, etc.

– On peut, également, réutiliser une ontologie générale tel que le UNSPSC et l’étendre pour permettre de décrire un domaine d’intérêt spécifique.

– Distinguer le savoir sur un domaine du savoir opérationnel est une autre des finalités courantes desontologies. Nous pouvons décrire la tâche de configuration d’un produit à partir de ses constituants, en respectant les spécifications requises et implémenter un programme qui réalisera cette configuration indépendamment des produits et de leurs composants.  On peut ainsi développer une ontologie des parties composantes et des caractéristiques d’un PC et appliquer l’algorithme pour configurer des PC sur mesure.

Analyser le savoir sur un domaine est possible dès que la spécification des termes du domaine est faite. L’analyse formelle des termes est extrêmement précieuse aussi bien quand on veut réutiliser les ontologies existantes, que quand on veut les étendre.[5] Souvent une ontologie de domaine n’est pas toujours un but en soi. Développer une ontologie s’apparente à définir un ensemble de données et leur structure pour qu’elles soient utilisées par d’autres programmes. Les ontologies et les bases de connaissances élaborées à partir des ontologies sont utilisées comme données par les méthodes de solutions de problèmes, les applications indépendantes des domaines et les fabricants de logiciels. Par exemple, Natalya F. Noy et Deborah L. McGuinness ont développé une ontologie sur le vin, les mets et les alliances appropriées des vins et des plats.[6] Cette ontologie peut être utilisée comme base pour toute une série d’applications visant le management des restaurants.  L’exemple du vin et des mets est inspiré d’un exemple de base de connaissances présenté dans un article décrivant CLASSIC – un système de représentation de connaissances basé sur une approche de description-logique (Brachman et al. 1991).

Qu’est une ontologie ?

On dira qu’une ontologie est une description formelle explicite des concepts dans un domaine du discours (classes (appelées parfois concepts)), des propriétés de chaque concept décrivant des caractéristiques et attributs du concept : attributs (appelés parfois rôles ou propriétés)) et des restrictions sur les attributs (facettes (appelées parfois restrictions de rôles)). Une ontologie ainsi que l’ensemble des instances individuelles des classes constituent une base de connaissances.

Les classes décrivent les concepts dans le domaine. Par exemple une classe de vins représente tous les vins. Les vins spécifiques sont des instances de cette classe. Ainsi, on peut diviser la classe de tous les vins en vins rouges, blancs et rosés. Alternativement, nous pouvons diviser une classe de tous les vins en effervescents et non effervescents. Les attributs décrivent les propriétés des classes et des instances: le vin Château Lafite Rothschild Pauillac est un vin charpenté ; il est produit par l’établissement vinicole de Château Lafite Rothschild. Nous avons deux attributs décrivant le vin dans cet exemple : l’attribut corps ayant pour valeur charpenté et l’attribut producteur ayant pour valeur établissement vinicole Château Lafite Rothschild. Au niveau de la classe, on peut dire que les instances dela classe Vin auront des attributs décrivant leur odeur, leur corps, leur niveau de sucre, le

producteur du vin et ainsi de suite.

En termes pratiques, développer une ontologie implique donc de :

– définir les classes dans l’ontologie,

– arranger les classes en une hiérarchie taxinomique (sous-classe – super-classe),

– définir les attributs et décrire les valeurs autorisées pour ces attributs

– renseigner les valeurs pour les attributs des instances

Une simple méthodologie de génie cognitif

Le développement d’une ontologie est nécessairement un processus itératif. Les concepts dans une ontologie doivent être très proches des objets (physiques ou logiques) et des relations dans un domaine d’intérêt. Fort probablement ils sont des noms (objets) ou verbes (relations) dans des phrases qui décrivent un domaine. Il faut également se rappeler qu’une ontologie est un modèle de la « réalité » du monde et que les concepts dans l’ontologie doivent refléter cette réalité.

Etape 1

Quel est le domaine que va couvrir l’ontologie ? A quels types de questions l’ontologie devra-t-elle fournir des réponses ? Qui va utiliser et maintenir l’ontologie ? Naturellement, les concepts qui décrivent les différents types de vins, les types de mets, la notion d’une bonne alliance d’un vin et d’un plat ainsi que celle d’une mauvaise alliance figureront dans une ontologie des vins.  Si l’ontologie est destinée à aider les clients des restaurants à décider quel vin commander, nous aurons besoin d’utiliser des informations sur les prix de vente au détail. Si elle est utilisée par les grossistes en vin, des informations sur la disponibilité de la marchandise peuvent être nécessaires.

Une des méthodes pour déterminer la portée d’une ontologie est de rédiger une liste de questions auxquelles une base de connaissances fondée sur une ontologie devrait pouvoir répondre, appelées questions de compétence.[7] Elles serviront plus tard de test décisif.

Voici quelques questions de compétence possibles dans le domaine du vin et des mets :

– Sur quelles caractéristiques dois-je me fonder pour choisir un vin ?

– Un Cabernet Sauvignon peut-il accompagner les plats de fruits de mer ou de poissons ?

– Quel serait le meilleur vin pour accompagner des grillades ?

– Quelles sont les caractéristiques du vin qui affectent sur son accord avec un plat ?

Etape 2. Envisager une éventuelle réutilisation des ontologies existantes

Il existe des bibliothèques d’ontologies réutilisables sur le Web et dans la littérature. Par exemple, on peut  utiliser la bibliothèque des ontologies Ontolingua

(http://www.ksl.stanford.edu/software/ontolingua/ ) ou bien la bibliothèque des ontologies DAML (http://www.daml.org/ontologies/ ).

Etape 3. Enumérer les termes importants dans l’ontologie

Il est utile de noter sous forme de liste tous les termes à traiter ou à expliquer à un utilisateur. Par exemple, parmi les termes importants relatifs aux vins il existe : vin, cépage, établissement vinicole, localisation, couleur d’un vin, corps, odeur et contenance en sucre ; différents types de mets, tels que poisson et viande rouge, sous-types de vin tels que vin blanc, etc. Tout d’abord, il est important d’établir une liste exhaustive de termes et de ne pas se soucier de l’éventuelle chevauchement entre les concepts qu’ils représentent, les relations entre les termes ou tout autre propriété des concepts, ni si ces concepts sont des classes ou des facettes.

Etape 4. Définir les classes et la hiérarchie des classes

Il existe un certain nombre d’approches possibles pour développer une hiérarchie de classes. Un procédé de développement de haut en bas commence par une définition des concepts les plus généraux du domaine et se poursuit par la spécialisation des concepts. Par exemple, on peut commencer en créant des classes pour les concepts généraux Vin et Mets. Puis on spécialise la classe Vin en créant des sous-classes : Vin blanc, Vin rouge, Vin rosé. On peut en outre catégoriser la classe Vin rouge, par exemple, Bourgogne rouge, Cabernet Sauvignon, et ainsi de suite.

Un procédé de développement de bas en haut commence par la définition des classes les plus spécifiques, et se poursuit avec le regroupement de ces classes en concepts plus généraux. Par exemple, on peut commencer en définissant des classes pour les vins Pauillac et Margaux. On peut ensuite créer une super-classe commune – Medoc – qui à son tour est une sous-classe de Bordeaux.

Une procédé combiné de développement est une combinaison des deux approches, de haut en bas et de bas en haut. Au tout début, les concepts les plus saillants sont définis, ensuite ils sont généralisés ou spécialisés, suivant le cas. Nous pourrions commencer par quelques concepts du haut niveau tels que Vin et quelques concepts spécifiques, tels que Margaux. Puis, on peut les mettre en relation avec d’autres concepts de niveau intermédiaire, tels que Medoc. Ensuite, on peut poursuivre en créant toutes les classes de vins régionaux de France.

.

La figure ci-dessous montre une possibilité d’articulation entre les différents niveaux de généralité.

Aucune de ces trois méthodes n’est fondamentalement meilleure que les autres. L’approche combinée est souvent, la plus facile à utiliser pour la plupart des développeurs d’ontologies, étant donné que les concepts “ du milieu ” ont tendance à être les concepts les plus descriptifs du domaine.[8]

Si une classe A est super-classe d’une classe B, alors toute instance de B est également, une instance de A. En d’autres termes, la classe B représente un concept qui est “ une sorte ” de A. Par exemple, chaque vin Pinot Noir est obligatoirement un vin rouge. Par conséquent la classe Pinot Noir est une sous-classe de la classe Vin Rouge.

Étape 5. Définir les propriétés des classes – attributs

Les classes seules ne fourniront pas assez d’information pour répondre aux questions de compétence de l’Étape 1. Après avoir défini quelques classes, on doit décrire la structure interne des concepts. On a déjà sélectionné des classes à partir de la liste des termes que nous avons créée pendant l’Étape 3. La plupart des termes restants ont de fortes chances d’être des propriétés de ces classes. Ces termes comprennent, par exemple, la couleur d’un vin, son corps, son odeur et sa teneur en sucre ainsi que la localisation de l’établissement vinicole. Ces propriétés deviennent des attributs rattachés aux classes. Ainsi, la classe Vin aura les attributs suivants : couleur, corps, odeur, et sucre. Et la classe Etablissement vinicole aura l’attribut localisation. En général, certains types de propriétés d’objets peuvent devenir des attributs dans une ontologie : propriétés “ intrinsèques ” telle que l’odeur d’un vin ; propriétés “ extrinsèques ” telles que le nom d’un vin et son terroir; parties, si l’objet est structuré ; elles peuvent être des “ parties ” physiques ou abstraites (ex : les plats d’un repas).

Toutes les sous-classes d’une classe héritent les attributs de cette classe. Par exemple, tous les attributs de la classe Vin seront hérités par toutes les sous-classes de la classe Vin, y compris Vin Rouge et Vin Blanc. Nous ajouterons l’attribut supplémentaire niveau de tannin (bas, modéré, élevé) à la classe Vin Rouge. L’attribut niveau de tanin sera hérité par toutes les classes représentant des vins rouges (telles que Bordeaux et Beaujolais). Un attribut doit être rattaché à la classe la plus générale pouvant avoir cette propriété. Par exemple, corps et couleur d’un vin doivent être rattachés à la classe Vin, puisque c’est la classe la plus générale dont les instances auront un corps et une couleur.

Étape 6. Définir les facettes des attributs

Les attributs peuvent avoir plusieurs facettes décrivant la valeur du type, les valeurs autorisées, le nombre de valeurs (cardinalité), et d’autres caractéristiques de valeurs que les attributs peuvent avoir. Par exemple, l’attribut produit (comme dans « un établissement vinicole produit tels vins ») peut avoir de multiples valeurs et ces valeurs sont des instances de la classe Vin. C’est à dire, produit est un attribut ayant pour type de valeur Instance et pour classe autorisée Vin.

Étape 7. Créer les instances

La dernière étape consiste à créer les instances des classes dans la hiérarchie. Définir une instance individuelle d’une classe exige (1) choisir une classe, (2) créer une instance individuelle de cette classe, et (3) la renseigner avec les valeurs des attributs. Par exemple, on peut créer une instance individuelle Château-Morgon-Beaujolais pour représenter un type spécifique des vins Beaujolais. Château-Morgon-Beaujolais est une instance de la classe Beaujolais qui, à son tour, représente tous les vins Beaujolais. Cette instance a les valeurs d’attributs suivantes:

Corps : Léger

Couleur : Rouge

Odeur : Délicate

Niveau de tanin : Bas

Cépage : Gamay (instance de la classe Raisin (wine grape))

Producteur : Château-Morgon (instance de la classe Établissement vinicole)

Région : Beaujolais (instance de la classe Région viticole)

Sucre : Sec

Les classes et leurs noms

Il est important de distinguer entre une classe et son nom : Les classes représentent des concepts dans le domaine et non pas des mots désignant ces concepts. Le nom d’une classe peut varier suivant la terminologie choisie, mais le terme lui-même représente la réalité objective du monde. Par exemple, nous pouvons créer une classe Salicoques et le rebaptiser ensuite Crevettes – la classe représente toujours le même concept. Les associations appropriées de vin et de plats de salicoques devraient se référer aux plats de crevettes. Plus concrètement, la règle suivante devrait toujours être suivie : Les synonymes pour le même concept ne représentent pas de classes différentes. Les synonymes sont juste des noms différents pour un concept ou un terme. Donc, nous ne devrions pas avoir une classe appelée Crevette et une classe appelée Salicoque. Il y aura une seule classe, nommée soit Crevette soit Salicoque.

Héritages multiples

La plupart des systèmes de représentation des connaissances permettent l’héritage multiple dans la hiérarchie des classes : une classe peut être une sous-classe de plusieurs classes. Supposons que nous voulons créer une classe distincte pour les vins de dessert, la classe Vin doux. Le vin de Porto est à la fois un vin rouge et un vin doux. Par conséquent, nous définissons une classe Porto pour avoir deux super-classes : Vin rouge et Vin doux. Toutes les instances de la classe Porto seront aussi bien des instances de la classe Vin rouge que de la classe Vin doux. La classe Porto héritera les attributs et les facettes des attributs de ses deux parents. Ainsi, elle héritera la valeur DOUX pour l’attribut de la classe Vin doux et l’attribut Niveau de tanin et la valeur de son attribut couleur de la classe Vin rouge.

Une instance ou une classe

Décider si un concept particulier est une classe ou une instance individuelle dans une ontologie dépend des applications potentielles de l’ontologie. Trancher sur : où finissent les classes et où commencent les instances individuelles, commence par la définition du niveau le plus bas de granularité dans la représentation. Le niveau de granularité est à son tour défini par l’application potentielle de l’ontologie. Autrement dit, quelles sont les entités les plus spécifiques qui seront représentées dans la base de connaissances ? Par exemple, si nous devons parler seulement d’accord des vins avec des mets, nous ne serons pas intéressés par les bouteilles physiques particulières de vin. Donc, des termes tels que Merlot des Vignobles de Sterling seront probablement les termes les plus spécifiques que nous utiliserons. En d’autres termes, la classe Vin rassemble non pas des bouteilles individuelles de vins mais des vins particulières produits par des établissements vinicoles particuliers. Donc, le Merlot des Vignobles de Sterling serait une instance dans la base de connaissances. Par ailleurs, si nous souhaitons maintenir un inventaire des vins dans le restaurant, alors les bouteilles individuelles de chaque vin peuvent devenir des instances individuelles dans notre base de connaissances. De même, si nous souhaitons enregistrer les propriétés différentes de chaque millésime spécifique du Merlot des Vignobles de Sterling, alors tout millésime spécifique de ce vin sera une instance dans la base de connaissances et le Merlot des Vignobles de Sterling sera une classe contenant des instances pour toutes ses millésimes.

Qu’y a-t-il dans un nom ?

Définir des conventions à suivre lorsqu’on nomme les concepts dans une ontologie et y adhérer, non seulement rend l’ontologie plus compréhensible, mais aide également à éviter les quelques erreurs les plus fréquentes de modélisation. Plusieurs alternatives existent pour nommer les concepts. Souvent, il n’y a pas de raison particulière pour privilégier l’une ou l’autre de ces alternatives. Néanmoins nous avons besoin de définir une convention de nomination pour les classes et les attributs et y adhérer :

– Le système a-t-il le même espace de nomination pour les classes, attributs et instances ? C’est-à-dire, permet–il d’avoir une classe et un attribut ayant le même nom (tels qu’une classe établissement vinicole et un attribut établissement vinicole) ?

– Le système est-il sensible à la casse ? C’est-à-dire, traite-t-il de la même façon les noms selon qu’ils sont entrés en majuscules ou en minuscules (tels que Établissement vinicole et établissement vinicole)?

– Quels délimiteurs le système autorise-t-il pour les noms ? C’est-à-dire, les noms peuvent-ils contenir

des espaces, des virgules, des astérisques, etc. ?

Actuellement, les chercheurs mettent l’accent non seulement sur le développement des ontologies, mais aussi sur l’analyse des ontologies. Étant donné le nombre croissant d’ontologies qui vont être générées et réutilisées, l’offre des outils d’analyse augmentera proportionnellement. Par exemple, Chimaera (McGuinness et al.) fournit des outils de diagnostic pour analyser les ontologies.[9] L’analyse effectuée par Chimaera comprend aussi bien une vérification de la rigueur logique d’une ontologie que le diagnostic des erreurs habituelles dans sa conception.

Conclusion

Nous avons décrit ici une méthodologie de développement d’ontologie pour les systèmes déclaratifs de type FRL. Nous avons listé les étapes dans le processus de développement d’une ontologie et abordé les problèmes complexes de définition d’une hiérarchie de classes, des propriétés des classes et des instances. Toutefois, après avoir suivi toutes les règles et suggestions, la remarque la plus importante à retenir est : il n’y a pas qu’une seule ontologie correcte de référence pour un domaine précis. La conception des ontologies est un processus créatif et il ne peut pas y avoir d’ontologies identiques faites par des personnes différentes. Les applications potentielles d’une ontologie et la compréhension du concepteur, ainsi que le point de vue qu’il a du domaine traité, affecteront indubitablement les choix de conception de l’ontologie. Nous pouvons tester la qualité de notre ontologie uniquement en l’utilisant dans les applications pour lesquelles elle a été conçue.

Georges Vignaux

Références

Booch, G., Rumbaugh, J. and Jacobson, I. (1997). The Unified Modeling Language user guide: Addison-Wesley.

Brachman, R.J., McGuinness, D.L., Patel-Schneider, P.F., Resnick, L.A. and Borgida, A. (1991). Living with CLASSIC: When and how to use KL-ONE-like language. Principles of Semantic Networks. J. F., Sowa, editor, Morgan Kaufmann: 401-456.

Brickley, D. and Guha, R.V. (1999). Resource Description Framework (RDF) Schema Specification. Proposed Recommendation, World Wide Web Consortium: http://www.w3.org/TR/PR-rdf-schema.

Chimaera (2000). Chimaera Ontology Environment. http://www.ksl.stanford.edu/software/chimaera

Duineveld, A.J., Stoter, R., Weiden, M.R., Kenepa, B. and Benjamins, V.R. (2000). WonderTools? A comparative study of ontological engineering tools. International Journal of Human-Computer Studies

52(6): 1111-1133.

Farquhar, A. (1997). Ontolingua tutorial. http://ksl-web.stanford.edu/people/axf/tutorial.pdf

Gómez-Pérez, A. (1998). Knowledge sharing and reuse. Handbook of Applied Expert Systems. Liebowitz, editor, CRC Press.

Musen, M.A. (1992). Dimensions of knowledge sharing and reuse. Computers and Biomedical Research 25: 435-467.

Ontolingua (1997). Ontolingua System Reference Manual. http://www-kslsvc., stanford.edu:5915/doc/frame-editor/index.html

Rothenfluh, T.R., Gennari, J.H., Eriksson, H., Puerta, A.R., Tu, S.W. and Musen, M.A. (1996). Reusable ontologies, knowledge-acquisition tools, and performance systems: PROTÉGÉ-II solutions to Sisyphus-2. International Journal of Human-Computer Studies 44: 303-332.

Rumbaugh, J., Blaha, M., Premerlani, W., Eddy, F. and Lorensen, W. (1991). Object-oriented modeling and design. Englewood Cliffs, New Jersey: Prentice Hall.


[1] Gruber, T.R., A Translation Approach to Portable Ontology Specification. Knowledge Acquisition 5: 1993, 199-220.

[2] Price, C. and Spackman, K., SNOMED clinical terms. BJHC&IM-British Journal of Healthcare Computing & Information Management, 2000, 17(3): 27-31.

[3] Humphreys, B.L. and Lindberg, D.A.B., « The UMLS project: making the conceptual connection between users and the information they need ». Bulletin of the Medical Library Association, 1993, 81(2): 170.

[4] Natalya F. Noy et Deborah L. McGuinness, « Développement d’une ontologie », Université de Stanford, Stanford, CA, 94305

[5] McGuinness, D.L., Fikes, R., Rice, J. and Wilder, S., An Environment for Merging and Testing Large Ontologies. Principles of Knowledge Representation and Reasoning: Proceedings of the Seventh International Conference (KR2000). A. G. Cohn, F. Giunchiglia and B. Selman, editors. San Francisco, CA, Morgan Kaufmann Publishers, 2000.

[6] Natalya F. Noy et Deborah L. McGuinness, « Développement d’une ontologie », Université de Stanford, Ca.

[7] Gruninger, M. and Fox, M.S., « Methodology for the Design and Evaluation of Ontologies ». In: Proceedings of the Workshop on Basic Ontological Issues in Knowledge Sharing, IJCAI-95, Montreal.

Hendler, J. and McGuinness, D.L.,The DARPA Agent Markup Language. IEEE Intelligent Systems, 2000, 16(6): 67-73.

[8] Rosch, E., Principles of Categorization. Cognition and Categorization. R. E. and B. B. Lloyd, Hillside, NJ, Lawrence Erlbaum Publishers, 1978, 27-48.

[9] McGuinness, D.L., Abrahams, M.K., Resnick, L.A., Patel-Schneider, P.F., Thomason, R.H., Cavalli-Sforza, V. and Conati, C. Classic Knowledge Representation System Tutorial. http://www.belllabs.com/project/classic/papers/ClassTut/ClassTut.html

Read Full Post »

Les tentatives de classification naturelle prennent source dès l’Antiquité. On en trouve trace chez Aristote (384-322 av. J.-C.) et chez Théophraste (v.  372-v. 287 av.J.-C.), son successeur à la direction du Lycée, sous la forme d’une classification des végétaux. Jusqu’au XVIIIe siècle, ce sera en effet la botanique qui fera l’objet de toutes les classifications. La raison est simple : les animaux proches de l’homme ou en interaction avec lui sont peu nombreux et facilement mémorisables ; en revanche, le nombre de plantes utilisées en pharmacopée, en agriculture ou dans l’art des jardins est considérable. Très tôt donc, des professionnels de la botanique et des herbes médicinales vont vouloir consigner leurs connaissances. Les premières classifications sont donc utilitaires. Elles seront perfectionnées au moyen âge.

Une étape importante est celle de la Renaissance, époque à laquelle les philosophes vont se poser la question de savoir si ces classifications relèvent de la théorie ou sont effectivement le reflet d’un « ordre de la Nature ». La réponse viendra vite : non, les classifications utilitaires ne sont pas très structurées. D’où la conséquence : aux XVIIe et XVIIIe siècles, les réflexions, nombreuses, vont porter sur la méthode logique à emprunter. De multiples « systèmes » seront proposés. Surtout, vers le milieu du XVIIIe siècle, époque de Linné, les scientifiques constatent que de grandes familles de la botanique émergent des observations : les graminées, les rosacées, les orchidacées, etc. De cette constatation, Linné et ses contemporains vont conclure qu’en utilisant différents caractères, on retrouve à chaque fois ces grandes familles de la botanique. Si alors, on retrouve ainsi régulièrement cette classification, serait-ce qu’il existe un ordre sous-jacent : la « classification naturelle », traduisant l’ordre de la nature ? Linné est l’adepte le plus connu de ce courant. C’est en 1758 qu’il publie la dixième édition  de son « Systema Naturae », véritable encyclopédie des recherches en systématique animale et végétale en Europe. Cette édition, surtout, introduit le principe de la dénomination binomiale, qui consiste à donner un double nom – nom de genre suivi du nom d’espèce – à tout organisme vivant. C’est l’origine de la systématique moderne.

L’interrogation précédente se transforme alors : s’il existe une classification naturelle, y a-t-il une « méthode naturelle » pour y accéder ? D’avance, on peut dire qu’il s’agira là d’une quête inépuisable et sans issue… Le progrès essentiel, on le doit à Bernard de Jussieu (1699-1777), botaniste de Louis XV. Son neveu, Antoine Laurent de Jussieu (1748-1836), sera titulaire d’une des premières chaires de botanique au Muséum d’histoire naturelle de Paris.

L’histoire est la suivante : Louis XV charge Bernard de Jussieu de composer au Trianon de Versailles, un jardin botanique qui soit le reflet de la classification naturelle. Jussieu a une première idée géniale : il fabrique une carte du jardin qu’on appellera le « Système du Trianon » et que publiera en 1789 Antoine Laurent de Jussieu dans son « Genera plantarum ». Sur cette carte, chaque espèce est figurée par une petite surface. La surface est plus grande quand elle rassemble des espèces qui se ressemblent : c’est un petit « bosquet » qui représente un « genre ». Les différents genres sont regroupés dans une parcelle de plus grande taille, appelée « famille ». La question alors est celle de savoir quels sont les critères selon lesquels on va rapprocher espèces et genres. C’est là que Jussieu va avoir une seconde idée géniale : il va rechercher les caractères précis qui restent constants à l’intérieur de chacune des parcelles, c’est-à-dire pour chaque groupe d’organismes – ou « taxon » – rassemblés en espèce, genre ou famille. Jussieu comprend que, pour définir les familles, le caractère clé est le « plan d’organisation » de la fleur. Il existe ainsi une fleur de type « orchidacée », une fleur de type « rosacée », etc. On peut alors décrire avec précision un certain ordre de la nature. On pense même avoir trouvé la méthode naturelle pour parvenir à la classification naturelle.

Bientôt, les zoologistes adoptent l’idée. Ainsi, le botaniste puis zoologiste Jean-Baptiste Lamarck (1744-1829) va appliquer les techniques des Jussieu aux animaux qu’il caractérise comme « sans vertèbres ». Geoffroy Saint-Hilaire (1772-1844) va faire de même avec les vertébrés et Georges Cuvier va tenter de rassembler l’ensemble du règne animal à partir des idées de Lamarck. Il applique à la zoologie le concept de « plan d’organisation » qui avait servi à la botanique. Chacun des quatre embranchements qu’il conçoit alors est spécifié par un plan d’organisation particulier. Ainsi, pour les radiaires (méduses, oursins), les articulés (crustacés, insectes), les mollusques (gastéropodes, lamellibranches) et les vertebrés (« Vertebrata »).

Aujourd’hui, nous sommes passés de quatre à trente-sept embranchements. On a découvert aussi d’autres organismes avec de nouveaux plans d’organisation. Le concept de plan d’organisation est donc opérationnel et on dispose d’une méthode pour appliquer une classification. La nécessité est de s’accorder sur le sens à donner à cette classification.

Read Full Post »