• Annotez,
    • imprimez,
    • envoyez à un ami,
    • ajoutez dans mes documents,

    en une seule fois, toute la liste des documents de ma "Ma sélection".

    Ma sélection contient
  • Dans "Mon historique",

    retrouvez la liste de l'ensemble des documents que vous venez de consulter.


    Accédez à l'un de ces documents, en un seul clic.

    Mon historique contient
    Votre recherche

    OK

    Article d'auteur

    Fonctions documentaires » IV - Rechercher, partager l'information, veiller  » IV-10 Recherche d'informations et veille  » IV-10-10 Recherche d’informations sur Internet : outils, méthodologie, et évolutions
    imprimer
    DOC-IV-10-10
    Recherche d’informations sur Internet : outils, méthodologie, et évolutions
    Thèmes de l'article : Recherche d'information
    Résumé

    1- Une facilité apparente

    L’arrivée du web, il y a désormais plus de vingt ans, a révolutionné les pratiques et méthodes de recherche d’information, que ce soit dans les sphères professionnelles, universitaires ou tout simplement pour les besoins de la vie quotidienne. L’accès à l’information est devenu plus simple, plus direct et moins onéreux. La vague du « web 2.0 » a de plus, depuis le milieu des années 2000, généré une mutation des usages dans la production, l’enrichissement, la diffusion et la recherche d’information. Plusieurs générations d’outils de recherche se sont succédé, dont le fonctionnement est pourtant encore mal connu : les utilisateurs maîtrisent souvent mal les options de recherche avancée ainsi que l’aptitude à identifier des sources pertinentes. Cet article dresse un panorama des outils et méthodes avancées de recherche d’information sur le web, et en présente les perspectives d’évolution.

    L’Internet – dont le web n’est qu’une des applications – n’a pas été conçu comme un outil de recherche documentaire, mais comme un moyen décentralisé d’échange d’informations via les réseaux. La complexité de l’Internet, son histoire totalement originale ainsi que la diversité des contenus disponibles sur le réseau, viennent renforcer et aggraver les difficultés à trouver une information répondant aux besoins de l’internaute.

    Plusieurs facteurs contribuent à en augmenter la complexité.

    1.1 L’abondance et l’hétérogénéité de l’information

    En 1992, on estimait à moins de cinquante le nombre de sites web. Vingt ans plus tard, en début 2012, la société Netcraft recense plus de 582 millions de sites web. Ces sites sont de nature très diverses et émanent de producteurs variés : institutions, entreprises, universités et établissements d’enseignement, medias, associations, mais aussi particuliers (blogs)… L’hétérogénéité concerne également la nature des contenus : textuels et multimédias. Enfin, rappelons que le web ne représente qu’une des applications qui exploitent l’Internet, parmi de nombreux autres services : le courrier électronique, les forums de discussion, le chat, le peer-to-peer… Tous ces services peuvent participer également au processus de recherche d’information et de veille. L’abondance et l’hétérogénéité des contenus du web peuvent constituer un frein pour la recherche, l’internaute étant souvent submergé de résultats non pertinents.

    1.2 Le renouvellement perpétuel et le manque d’archivage

    Chaque minute désormais, près de 60 heures de vidéos sont envoyées sur la plateforme YouTube. Chaque jour, des milliers de pages web apparaissent ou disparaissent, leur contenu ou les adresses URL peuvent être modifiés. L’émergence du real time web (web temps réel), ainsi que l’utilisation croissante des médias sociaux, des plates-formes de microblogging comme Twitter, ou des flux au format RSS accentuent encore le caractère volatil de l’information.

    Il n’existe pas d’archivage systématique et organisé du web, mais plusieurs initiatives publiques et privées ont été lancées. Le service Wayback machine permet, entre autres, de retrouver certaines pages qui ne sont plus en ligne ou dont le contenu a été modifié.

    1.3 Le manque de structuration

    Le langage HTML est un langage de description et de balisage de documents, mais non un langage structuré. Sur le web coexistent des formats disparates : pages statiques et « dynamiques », accès à des documents aux divers formats (doc, pdf, xls, jpg…) ou à des bases de données structurées (catalogues de bibliothèques, par exemple).

    Les pages dynamiques sont générées à la volée par un code (php, asp, cgi…) exécuté par un serveur. L’intérêt principal de ce système est de pouvoir construire de véritables applications web qui s’appuient sur des services comme des bases de données structurées. Les moteurs de recherche web sont désormais capables de collecter automatiquement le contenu d’un grand nombre de pages dynamiques, mais certains aspects techniques peuvent rendre cette collecte plus difficile.

    1.4 Le multilinguisme

    Le web est une véritable tour de Babel, et la barrière des langues peut constituer un obstacle dans la recherche ou la veille. Selon les statistiques de l’Internet World Stats, l’anglais reste la langue prédominante sur le web, mais on constate une importante progression du chinois ; la langue française ne se situe qu’à la huitième position, derrière l’allemand. Se pose également la question de l’écriture des noms de domaines en caractères non latins.


    Vous devez être connecté et abonné pour consulter l'intégralité de l'article.
    Ajouter une note Ajouter dans mes documents Imprimer l'intégralité de l'article Envoyer à un ami
    Sommaire Articles cités Articles du même auteur Articles du même thème Documents téléchargeables Normes citées