7 – La Recherche Fédérée 7.1 – Objectifs 7.2 – Les connecteurs disponibles

7 – La Recherche Fédérée 7 – La Recherche Fédérée 7.1 – Objectifs 7.2 – Les connecteurs disponibles 7.3 – La sélection des sources 7.4 – Sources à accès protégé 7.5 – Les sites Web à indexer 7.6 – Le tri par pertinence 7.7 – L’exportation des données

7 – La Recherche Fédérée

7 – La Recherche Fédérée 7.1 - Objectifs Un dispositif original Rappels de quelques objectifs du SIST • Le SIST est un système de valorisation des fonds scientifiques existants dans les pays où il est installé • Le SIST facilite l’accès aux bases de données internationales des partenaires • Le SIST est un outil simple et pragmatique • Le SIST est un système de référencement rapide de l’IST et non un système de stockage • Le SIST est évolutif et doit pouvoir prendre en compte rapidement l’évolution de la production scientifique nationale • Le SIST traite l’IST au sens large : universalité et multi thèmes

7 – La Recherche Fédérée 7.1 - Objectifs Une réponse originale La réponse technique : le module de recherche fédérée Un méta moteur de recherche en IST • Traiter n’importe quelle forme de source IST quelle que soit sa nature, son type et son format • Une interface extrêmement simple qui s’apparente à celle de « Google » • Une homogénéisation des résultats • L’affichage de méta données mais la possibilité d’accéder à la totalité de l’information • Des temps de réponse courts • Une grande souplesse d’administration qui autorise le rajout simple de nouvelles sources à interroger

7 – La Recherche Fédérée 7.1 - Objectifs Le module de Recherche Fédérée Site Web Université C Centre de recherche D Agence E Base données Base données Bibliothèque F Texte intégral Archive ouverte Site Web SIST Pays A Institution A Base données Texte intégral Base données Organisme B Base données SIST Pays B Connecteurs Base données Base données en ligne SIST Base données Archive ouverte Texte intégral Site Web Module Recherche Fédérée Lien source originale Base données ? Base données Question Méta données Résultat 1 Résultat 2 Résultat n

7 – La Recherche Fédérée 7.1 - Objectifs Principes de fonctionnement Une utilisation simple • L’utilisateur rentre ses critères de recherche, un ou plusieurs mots séparés par des espaces • L’utilisateur sélectionne les sources d’information qu’il souhaite interroger simultanément • Il peut préciser le nombre de résultats par page qu’il souhaite visualiser • Il lance la recherche • Aussitôt qu’une source répond, le module de recherche fédérée affiche les premiers résultats • Les résultats sont affichés de manière homogène sous une forme « Titre, auteur, date, description et liens » • L’utilisateur peut cliquer sur le résultat qui l’intéresse et il accède directement à la source des données sur le site qui est propriétaire de cette information • Lorsqu’il revient sur le SIST, les résultats des autres sources qui ont répondues entre temps sont affichés • Il peut alors parcourir les différentes pages de résultats et suivre les liens vers les sources originelles

7 – La Recherche Fédérée 7.1 - Objectifs Principes de fonctionnement

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables Un connecteur par type de source de données Actuellement le SIST V2 est doté des connecteurs suivants : • A - Bases de données en ligne • B - Sites Web scientifiques • C - Réservoirs de texte intégral • D - Répertoires de documents • E - Archives ouvertes (OAI) • F - Bases de données MySQL (locales ou distantes) • G - Autres dispositifs SIST • H - Sources « partenaires »

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables A - Bases de données en ligne Quoi ? • Toute ressource accessible sur le WEB qui dispose d’un formulaire d’interrogation (bases de données, annuaire, bibliothèque ….) • Plus largement, toute ressource qui se trouve sur le Web et qui peut être retrouvée et affichée via un formulaire Web Comment ? • L’interrogation se passe en simulant l’action d’un utilisateur sur le formulaire • Les données récupérées sont retraitées et affichées dans le format standard utilisé par le SIST (RSS) Remarques : • Certains formulaires spécifiques (produits propriétaires) ne sont pas raccordables au SIST via ce connecteur. • Les bases de données interrogeables peuvent aussi être celles gérées en central par le SIST (catalogues, annuaires…)

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables B - Sites Web scientifiques Quoi ? • Tout site Web à vocation scientifique dont les contenus auront été jugés pertinents pour le SIST Comment ? • Exactement comme un moteur de recherche de type google ou Yahoo • Les sites Web désignés dans le SIST sont balayés périodiquement par un moteur d’indexation qui garde trace des mots clés contenus dans les pages Remarques : • Ne pas indexer à outrance pour limiter le bruit. Raisonner le choix des sites qui sont indexés. • La profondeur d’indexation est paramétrable

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables C - Réservoirs de texte intégral Quoi ? • Tout logiciel accessible via le Web disposant d’une interface Web, disposant d’un moteur d’indexation et capable de restituer un accès en ligne sur les documents Comment ? • Comme pour un formulaire Web, le SIST simule les actions que ferait un Internaute sur l’interface Web, puis il reformate dans le format standard (RSS) les résultats

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables D - Répertoires de documents Quoi ? • Tout emplacement local au SIST ou accessible par une URL qui contient des documents dans la plupart des formats classiques (Word, PDF, Excel …) Comment ? • Les contenus de ces documents sont alors indexés périodiquement par le SIST • Les mots clés repéré par le SIST sont utilisés lors de la recherche fédérée

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables E - Archives ouvertes Quoi ? • Tout entrepôt (institution) qui obéit à la norme OAI (qui utilise un logiciel de gestion d’archive ouverte Comment ? • Les notices contenues dans ces entrepôts sont lues périodiquement par le SIST qui constitue des index. • Lors de la recherche fédérée, le SIST interroge ces index • Lors d’une consultation de résultat, le SIST affiche la notice à la norme OAI et propose un lien sur la notice originelle directement sur le site propriétaire

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables F - Bases de données MySQL Quoi ? • Toute base de données structurées de type MySQL locale au serveur du SIST ou accessible via le réseau Comment ? • Le SIST se connecte à la base de données MySQL désignée • Il parcours alors toutes les rubriques à la recherche du critère de sélection • Lors d’une consultation de résultat, le SIST affiche la fiche signalétique de l’enregistrement concerné, puis permet un accès à toutes les information de l’enregistrement dans la base.

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables G - Autres dispositifs SIST Quoi ? • Tous les SIST nationaux possèdent un point d’entrée qui permet de traiter une interrogation provenant d’un autre SIST Comment ? • Les critères de recherche envoyés par le SIST appelant sont alors transmis à l’ensemble des ressources sélectionnées par défaut sur le SIST appelé. • Le SIST appelé effectue la recherche, met en forme les résultats et les transmet au SIST appelant Remarque : • Chaque SIST national peut, par ce biais là, se comporter comme un SIST central. En effet, il peut lancer une interrogation sur l’ensemble des sources accessibles par les SIST.

7 – La Recherche Fédérée 7.2 – Les connecteurs disponibles Ressources interrogeables H - Sources partenaires Quoi ? • Dans le cadre de conventions liées au projets SIST, les partenaires peuvent réaliser des accès spécifiques « SIST » à leurs ressources. • Il s’agit d’attribuer un point d’entrée spécifique au SIST et de retourner le résultat de la recherche directement sous le format utilisé par le SIST (RSS) Comment ? • Le SIST dialogue directement avec le serveur du partenaire • Ces accès sont plus rapides et fiables que les connexions normales et surtout ils permettent généralement une plus grande précision dans la recherche • Le partenaire garde la maîtrise de l’interrogation, c’est lui qui décide du périmètre d’action du SIST sur son système Remarque : • Nous tendons progressivement à généraliser ces accès auprès des partenaires du projet.

7 – La Recherche Fédérée 7.3 – La sélection des sources La sélection des sources LA SELECTION DES SOURCES Quatre possibilités pour sélectionner les sources à interroger : • Valeurs par défaut Vous ne faite rien, l’interrogation portera sur un jeu de sources sélectionnées par défaut • Sélection manuelle Vous cochez ou décochez les sources à votre grès • Sélection par groupes Vous disposez de quatre critères pour sélectionner automatiquement les sources • Sélection programmée Le lien qui appelle le moteur de recherche fédéré peut porter la liste des sources qui doivent être cochées

7 – La Recherche Fédérée 7.3 – La sélection des sources La sélection par groupe La Sélection par groupes • Sélection par Pays Les sources sont identifiées à un pays ou à une région du monde • Sélection par Thèmes Chaque source est associé à un thème principal lorsque cela est possible. • Sélection par Catégorie La sélection peut se faire selon le type de connecteur utilisé pour accéder à la source • Sélection par Type Les sources peuvent être classées par type (annuaire, base documentaire, base projet …) Remarque : le choix des valeurs pour les listes des Pays, Thèmes, et Types sont à la discrétion des administrateurs

7 – La Recherche Fédérée 7.3 – La sélection des sources La sélection par groupe

7 – La Recherche Fédérée 7.4 – Les sources à accès controlé Source et mot de passe Les sources à accès controlé • Certaines sources peuvent posséder des restriction d’accès (sources commerciales, sources nationales, sources privées mises à disposition d’une certaine communauté de scientifiques …. • Le SIST dispose d’un mécanisme qui permet de protéger par un mot de passe l’accès à la source • Une fois ce mot de passe saisi au niveau du moteur de recherche, la ou les sources protégées apparaissent dans le moteur de recherche, le temps de la session de l’utilisateur

7 – La Recherche Fédérée 7.4 – Les sources à accès controlé Source et mot de passe

7 – La Recherche Fédérée 7.5 – Les sites Web à indexer Périmètre d’indexation Les Sites Web à Indexer • Le SIST intègre un moteur d’indexation qui peut fonctionner comme les moteur de recherche disponibles sur le Web (Google, yahoo …) • Cela permet d’intégrer dans les recherches l’analyse des contenus de pages Web accessibles sur des sites Web identifiés • Il suffit d’indiquer au SIST les URL des sites sélectionnés pour figurer dans le périmètre de la recherche fédérée • Périodiquement le SIST va parcourir et indexer les pages de ces sites et rendre les index interrogeables par la recherche fédérée

7 – La Recherche Fédérée 7.5 – Les sites Web à indexer Périmètre d’indexation

7 – La Recherche Fédérée 7.6 – Le tri par pertinence Tri post-recherche Le tri par pertinence Option retenue par le SIST pour la recherche fédérée : aussitôt qu’une source répond, ses résultats sont immédiatement affichés Avantages : • Les temps de réponse du SIST ne sont pas calés sur le temps de réponse de la source la plus lente à répondre • L’utilisateur peut commencer à consulter les premiers résultats en quelques secondes Inconvénient : • Les résultats récupérés à la volée ne peuvent pas être triés par pertinence Solution : • Un tri par pertinence est possible une fois que tous les résultats sont arrivés • Il s’agit d’un algorithme classique qui pondère emplacement et fusion des critères de recherche dans le résultat obtenu

7 – La Recherche Fédérée 7.7 – L’exportation des données Récupération des résultats L’exportation des données • L’utilisateur une fois la recherche terminée à la possibilité de récupérer les résultats sur son poste de travail dans les outils bureautiques • Les résultats de la recherche sont exportables dans les formats suivants • Traitement de texte (RTF) • Tableur (CSV) • Abode (PDF) • Actualités Web (RSS)

7 – La Recherche Fédérée 7.7 – L’exportation des données Récupération des résultats

7 – La Recherche Fédérée Synthèse Avantages du dispositif de recherche fédérée • Une seule question pour couvrir un large panel de ressources • Rapide « aussitôt répondu, aussitôt affiché » • Croise toutes sortes de formes d’IST • Ne se préoccupe pas des formats de données • Nouvelles sources facilement connectables • Possibilité de créer de nouveaux connecteurs (adaptabilité) • Respecte la propriété des données • Pas d’intervention nécessaire chez le propriétaire de la source

Synthèse 7 – La Recherche Fédérée inconvénients Inconvénients • Pas de tri par pertinence immédiat • Du bruit possible (recherche plein texte) • Doublons possibles (malgré algorithme de dé doublonnage) • Fragilité potentielle des connecteurs « Bases de données en ligne »

Synthèse 7 – La Recherche Fédérée inconvénients Manipulations • Recherche globale sur la problématique des feux de brousse • Limiter cette recherche aux contenus des sites Web de nos partenaires • Recentrer cette recherche uniquement sur les bases de données documentaires

8 – Les archives ouvertes 8 – Les archives ouvertes

8 – Les archives ouvertes Généralités • Les Archives ouvertes (Open Archives) • Archives ouvertes (Open Archives) : mouvement lancé en 1999 par l'initiative dite de Budapest en vue de fédérer les banques informatisées d'archives d'articles scienfitiques de façon à ce qu'elles puissent être interrogées en une seule requête quelle que soit leur localisation sur le réseau mondial. Des protocoles d'échanges de données ont été définis quant à la description et à l'interrogation des données. • Ce mouvement s'est développé en réaction contre l'appropriation par des revues scientifiques prestigieuses de l'information scientifique, essentiellement dans les domaines scientifiques, techniques et biomédicaux. Il est en effet absurde que les universités paient des coûts exorbitants pour avoir accès (licences électroniques) aux publications résultant des recherches qu'elles ont elle-mêmes financées. • Cependant, l'acceptation d'un article par le comité scientifique de ces revues représente une valeur ajoutée extrêmement importante - ce qu'on appelle la validation par les pairs (peer review) - ainsi que la reconnaissance de la communauté scientifique. • Il ne s'agit donc pas d'avoir d'un côté des bases d'archives ouvertes complètement libres et gratuites et d'un autre côté des revues scientifiques très prestigieuses et très coûteuses, mais bien plutôt de rééquilibrer et d'harmoniser la diffusion de l'information scientifique en définissant de nouvelles modalités éditoriales, où les responsabilités de chacun soient mieux définies et partagées. • Cette problématique ne concerne pas seulement la publication de la recherche et sa diffusion, mais aussi sa mise à disposition à long terme (archives pérennes).

8 – Les archives ouvertes Exemples • Les Archives ouvertes : Quelques exemples • @chivesic du CNRS http://archivesic.ccsd.cnrs.fr/ • Pubmed central http://www.pubmedcentral.nih.gov/ • Hal SHS http://halshs.ccsd.cnrs.fr/ • Revue.org http://oai.revues.org/ • AJOL http://www.ajol.info/

8 – Les archives ouvertes OAI et SIST • Les Archives ouvertes et le SIST • Le SIST encourage l’utilisation ou la mise en place d’Archives ouvertes en Afrique (préconisations à venir) • Le SIST intègre un moissonneur d’entrepôts à la norme OAI • Les pays déterminent la liste des entrepôts OAI à surveiller • Le moissonneur SIST récupère automatiquement la première fois l’ensemble des notices (méta données) des entrepôts • Il récupère ensuite périodiquement les nouvelles notices créées dans les entrepôts • Il propose une interface pour l’interrogation structurée des notices moissonnées • Il intègre automatiquement l’interrogation « plein texte » des notices moissonnées dans le moteur de recherche fédérée

8 – Les archives ouvertes Le choix des entrepôts • La gestion des entrepôts d’archives ouvertes • Les pays doivent identifier les entrepôts de données à la norme OAI qu’ils souhaitent exploiter dans le SIST • Il suffit alors de rentrer l’URL de ces entrepôts dans l’interface d’administration du SIST • Il faut alors lancer le moissonnage des premières notices • Le SIST va surveiller périodiquement les mouvements de données des entrepôts et tenir automatiquement à jour des index sur les notices OAI • Chaque Internaute à la possibilité de suggérer une nouvelle archive ouverte à l’administrateur du SIST national

8 – Les archives ouvertes Le choix des entrepôts

8 – Les archives ouvertes L’interrogation • L’interrogation des d’archives ouvertes • Les archives ouvertes peuvent être interrogées en mode « Recherche simple » (un critère qui sera recherché dans l’ensemble des rubriques) • Il existe un mode « Recherche avancée » qui permet de combiner plusieurs critères sur les rubriques des notices • Le moteur de recherche fédérée du SIST opère une « recherche simple » lorsque la source « Archives ouvertes » est sélectionnée dans la liste des sources interrogeables

8 – Les archives ouvertes La recherche simple

8 – Les archives ouvertes La recherche avancée

8 – Les archives ouvertes La consultation • La consultation des archives • Il est possible de consulter la notice du résultat à la norme OAI • (lien « Voir la notice ») • Il est aussi possible de consulter directement sur le site propriétaire la notice originale • (lien « Voir l’original »)

8 – Les archives ouvertes Consultation de la notice OAI

9 – L’actualité scientifique en ligne 9 – L’actualité scientifique en ligne

9 – L’actualité scientifique en ligne

9 – L’actualité scientifique en ligne Agrégateur de fils RSS Objectifs : • Tenir informer régulièrement les scientifiques sur l’actualité propre à des thèmes identifiés Contraintes : • Le scientifique a rarement le temps de surfer sur le Web • Il n’est pas toujours possible de dédier une personne à la recherche d’information • L’information n’a de valeur que si elle est fraîche • L’information n’a de valeur que durant une période courte La réponse du SIST : • un agrégateur de fils RSS

9 – L’actualité scientifique en ligne La syndication de contenus Fils RSS et syndication • Le terme RSS (Really Simple Syndication)désigne une convention de structuration des fichiers garantissant qu’ils puissent être diffusés dans un format compréhensible par le plus grand nombre (on parle de "syndication de contenu"). • Il s’agit d’un fichier texte particulier dont le contenu est produit automatiquement (sauf cas exceptionnels) en fonction des mises à jour d’un site Web. • Ce contenu est laissé au libre choix du producteur du flux, mais très généralement se compose des titres des mises à jour (par exemple : "nouvelle promotion"), des liens hypertextes correspondants, et de descriptions, en quelques lignes, de ces mises à jour (par exemple : "Prix sacrifiés sur la mémoire pendant trois jours. Profitez-en").

9 – L’actualité scientifique en ligne SIST et syndication de contenus SIST et syndication • Le dispositif SIST est capable de gérer les fils RSS • Il contrôle périodiquement les mises à jour de ces fichiers et il sait les afficher de manière conviviale • Il suffit juste d’indiquer au SIST le lien sur le fichier syndiqué • Pour trouver des sites Web qui fournissent des fils RSS vous pouvez consulter les adresses suivantes : http://www.lamoooche.fr/http://www.retronimo.com/annuaire-rss.phphttp://www.rssfeeds.com/http://www.syndic8.com/

9 – L’actualité scientifique en ligne SIST et syndication SIST et syndication • Il faut identifier les thèmes prioritaires en fonction des besoins du pays où le SIST est implanté. • Il faut repérer les fils RSS qui peuvent apporter une actualité pertinente sur ces thèmes • Ces thèmes sont alors mis sous forme de rubriques dans la partie « Poste de travail>S’informer>Actualité scientifique • Chaque thème devient un agrégateur de fils RSS qui se charge de récolter l’actualité scientifique du jour et de la présenter de manière conviviale • En général, chaque actualité contient un lien vers l’article complet

9 – L’actualité scientifique en ligne

9 – L’actualité scientifique en ligne SIST et syndication de contenus Site Web A Site Web A Site Web A Site Web A Site Web A Fils RSS Fils RSS Fils RSS Thème 2 Thème 3 Thème 1 Actualité scientifique Actualité 1 Actualité 1 Actualité 1 Actualité 2 Actualité 2 Actualité 3

10 – Les bases de données locales

7 – La Recherche Fédérée 7.1 – Objectifs 7.2 – Les connecteurs disponibles