Web invisible – les données inaccessibles aux moteurs de recherche

| 8 Commentaires

0saves

Définition de ce qu’on appelle le web invisible, ou web profond, c’est à dire l’ensemble des données présents sur le réseau mais non indexées par le réseau et le Web, et donc non présentes sur les principaux moteurs de recherche. Un contenu mystérieux qui révèle parfois des données rares et extrêmement précieuse pour tout veilleur.

ethernet networking cable Web invisible   les données inaccessibles aux moteurs de recherche

Définition du web invisible

Le web invisible, parfois également appelé web profond, est donc l’ensemble des données présentes sur la toile, sur le “world wide web, au sein de serveurs divers, mais qui ne sont pas trouvables par des moteurs de recherche généralistes tels que Google ou Bing.
Pour la simple et bonne raison que ce contenu n’est pas indexé sur les moteurs de recherche classiques (sauf certains, et encore en partie, comme BASE), et donc très difficile à localiser. Pour autant, il n’est pas introuvable, par opposition au web sombre qui lui est tout bonnement inaccessible car nécessitant une authentification.

web invisible Web invisible   les données inaccessibles aux moteurs de recherche
Crédit photo : Search Engin Journal

Etendu du web profond

Si l’on se réfère à une étude menée par l’Université de Californie, Berkeley, ou par l’entreprise BrightPlanet en 2000-2001, on peut estimé que ce web profond, c’est à dire cette toile invisible, quasiment “underground”, représentaient près de 91 000 téraoctets de données enfouies dans près de 550 milliards de documents individuels et de pages “cachés”, contre un web visible représentant environ 3000 téraoctets.

Et cette proportion autour de 70-75% de web invisible sur le web visible s’est maintenu dans le temps ces dix dernières années, avec un web invisible estimé à environ un trilliard de pages non indexées en 2008 (source wikipedia).

Type de données du web profond

Le fait que ce contenu soit indexable mais pas indexés tient à la forme même des données qui compose le web profond:

  • tout le contenu dynamique non archivé. Comme de plus en plus de sites sont composés de pages dynamiques, et que parfois le vieux contenu n’est pas archivé, et ne bénéficie pas d’une URL fixe (pas de permaliens), alors celui-ci existe quelque part sans être indexé par le site, sauf à trouver une version “cache”,
  • il en ait de même du contenu émanant de réponse à des formulaires en ligne, ou résultat de l’exécution de programmes et de script (JavaScript, Ajax ou Flash),
  • on trouve également du contenu non lié, c’est à dire n’étant pas relié par des liens hypertextes en provenance de pages plus visibles, sans backlinks. C’est ce que appelle des pages orphelines : trouvables via une requête d’URL mais introuvables en naviguant sur un site,
  • mais également toutes les pages volontairement non indexés par les administrateurs de site, via le robots.txt, et cachés aux bots des moteurs de recherche, ou grâce aux meta tags et à la balise robots meta (noindex),
  • mais également toutes les pages nécessitant un droit d’accès (payant souvent ou interne), comme les archives payantes (journaux en ligne, bases de données de météorologie, bases de données images, bases de données spécialisées, etc…). C’est ce qu’on appelle le web privé.
  • et enfin toutes les données dont le format n’est pas supporté par les moteurs de recherche (flash encore dans certains cas, pdf en partie, frame souvent, javascript toujours…). Sans oublier les pages n’étant pas au format HTML ou ne supportant pas le protocole HTTP (comme les fichiers et données présents sur des FTP).

0saves
Si vous avez aimé ce "post", n'hésitez pas à laisser un commentaire ou vous abonnez à notre flux RSS.

Auteur : Monsieur Moustache

Fort de très nombreuses années expériences au service de grands groupes industriels, Monsieur Moustache possède une réelle expertise sur les questions de géopolitique et sur la perception de l'intelligence économique dans les entreprises.

Ad Plugin made by Free Wordpress Themes