Le Tendançologue
Comment ça marche ?
Le Tendançologue permet de suivre et ceci jusqu'aux élections présidentielles de 2007, le bruit médiatique que font les principaux hommes politiques pressentis pour cette élection.
Il s'intéresse à trois "sphères d'information" que sont les sites d'actualités en ligne, les blogs et les newsgroups ou groupes de discussion. Chaque jour à partir des résultats fournis par plusieurs moteurs de recherche spécialisés et généralistes sur le nombre de nouvelles ressources publiées dans les dernières 24 heures, la courbe de bruit médiatique de chaque homme politique est tracée et ceci pour chaque sphère d'information.
Ces courbes permettent de suivre les évolutions de visibilité de chaque homme politique dans le temps, de comparer les hommes politiques entre eux à un même moment mais aussi de voir comment le bruit médiatique circule entre les sphères (phénomène de retard ou d'anticipation de l'une sur les autres).
Intérêt et limites du Tendançologue
1) Interface
Le tendançologue en est maintenant à sa deuxième version. Nous lui avons apporté nombre d'améliorations. En premier lieu, l'échelle s'adapte dorénavant en fonction du plus haut score affiché, ce qui permet de rentrer dans le détail des petits candidats qui étaient jusqu'à maintenant écrasés par les candidats les plus visibles. Il est aussi possible de définir sur la vue générale (vue du bas) la période de la vue détail (fenêtre principal), il est donc possible d'afficher quelques jours ou plusieurs mois et de remonter à n'importe quelle période enregistrée.
Lorsqu'une courbe est sélectionnée cela fait apparaître les bornes d'actualité qui lui sont rattachées, bornes permettant d'associer une variation de la courbe à un évènement quelconque. Les bornes d'actualités peuvent être de trois niveaux d'intensité selon que l'évènement relaté a eu une influence plus ou moins directe sur le candidat.
2) Un indicateur quantitatif mais non qualifié
Le Tendançologue apporte un éclairage purement statistique sur la présence des hommes politiques dans les trois sphères d'informations étudiées. Sans recontextualisation ces chiffres ne veulent rien dire et par conséquence immédiate il est possible de leur faire dire n'importe quoi. Par exemple une baisse du bruit généré par un candidat x observée courant juin 2006 pourrait être faussement rattachée à un essouflement de ce candidat ce qui serait trompeur si on ne remettait pas cela en regard de l'effervescence médiatique autour du mondial.
Une autre limite de ces indicateurs quantitatifs est que le bruit n'y est pas qualifié, on ne peut savoir si c'est un bruit mélioratif ou péjoratif.
Enfin, la méthode de collecte des ressources ne différentie pas le bruit généré par le candidat en campagne présidentielle du bruit généré par d'autres de ses activités relayées médiatiquement. Par exemple l'activité gouvernementale de certains se retrouve comprise dans les courbes, on ne peut alors différentier le bruit généré par un N. S. ministre de l'intérieur, du bruit généré par sa fonction de président de l'UMP ou de candidat à la présidentielle. Ainsi ce sont bien les dynamiques qu'il faut chercher à interpréter et ceci de façon circonstanciée et non les positions absolues car au regard de celles-ci les présidentiables veillés ne sont aucunement comparables.
3) Moteurs de recherche : quelle fiabilité ?
Les chiffres présentés sur l'Observatoire Présidentielle sont ceux proposés par différents moteurs de recherche (Yahoo et Google principalement) et la pertinence de ces moteurs a été remise en cause bien des fois et la plupart du temps de façon justifiée. Les critiques à l'encontre de ces technologies peuvent se diviser en deux grandes catégories :
- l'exhaustivité de la réponse du moteur sur une requête donnée par rapport au nombre total de réponses existant appelé *rappel* ;
- la pertinence des ressources renvoyées aussi appelée *précision*.
Les chiffres utilisés dans le Tendançologue peuvent donc à ce titre être interrogés mais pas au point de le rendre obsolète.
4) Des sources d'information restreintes mais fiables
Le Tendançologue ne s'attaque pas au web dans son ensemble mais à trois sphères d'informations bien définies que sont les journaux électroniques, les blogs et les newsgroups. A l'opposé du web pris dans sa totalité grandement hétérogène et extrêmement difficile à sonder même pour les meilleurs moteurs de recherche, ces trois sphères d'information proposent des propriétés contraintes fortes qui en facilitent grandement la préhension. Examinons les pour chacune des sphères :
- les actualités en ligne : les moteurs de recherche proposant une section actualité y indexent un corpus fermé de sources d'informations, elles sont en nombre maitrisé et réduit (environ 500 sources pour Yahoo et Google), la masse de données à stocker et à veiller est négligeable au regard de la taille supposée des index de ces moteurs (plusieurs milliards de pages) et le formatage des contenus y est globalement normé, ressources datées, l'article comme unité documentaire commune, titrage systématique des articles
- les blogs : le blog est un format éditorial particulier extrêmement contraint facilitant de par la même grandement son indexation et l'interrogation de l'index selon des critères précis. Contrairement aux actualités les corpus proposés par les moteurs de recherche de blogs ne sont pas des corpus fermés mais ils possèdent le même type de formatage des ressources que pour les actualités (articles ou billets datés et titrés). De plus la syndication des contenus des blogs par les flux RSS ou ATOM permet aux moteurs d'indexer automatiquement les mises à jour des blogs et ceci sans avoir à aller explorer les sites entièrement.
- les newsgroups : le réseau Usenet propose une collection de groupes de discussion contrôlée et modérée par une communauté d'usagers (leur nombre reste constant aux alentours de 80 000). Les newsgroups utilisent un protocole différent du HTTP (le NNTP) et sont aussi extrêmement contraints : messages datés s'adressant à un ou plusieurs groupes de discussions possédant un sujet, un corps de texte et éventuellement un attachement. Les archiver, les mettre à jour fréquemment et effectuer des requêtes chronologiques sur cette archive n'est pas problématique pour un système d'information correctement conçu.
Des outils tels que le Tendançologue proposent un nouvel éclairage sur des questions complexes de *résonnance médiatique* qu'il est inenvisageable de pouvoir comprendre et décrypter sans une multiplication d'éclairages complémentaires. Ces outils doivent être saisis par des experts capables d'expliciter et d'analyser ce qu'ils manifestent de dynamiques, de mouvements autrement imperceptibles mais aussi de différentier ce qui relève du phénomène mesuré et ce qui relève de l'artefact produit par l'instrument de mesure.
Le µtendançologue
Le µtendançologue présente la courbe de l'indice weBuzz qui est le cumul du bruit généré par chaque présidentiable sur les trois sphères d'information présentes sur le tendançologue classique (actualités en ligne, blogs et newsgroups).
Le µtendançologue peut être intégré à n'importe quel site. Plusieurs paramètres sont laissés au choix de l'utilisateur pour générer un µtendançologue adapté à son site :
- courbe affichée : seule la courbe de tendance de Casimir vous intéresse et vous voulez le clamer haut et fort sur votre blog, choisissez candidat verrouillé et sélectionnez Casimir alors vos visiteurs ne pourront pas sélectionner d'autre présidentiable. Choisissez « choix libre du candidat » et il sera possible d'afficher la courbe de chacun ;
- barre de navigation : vous souhaitez que votre µtendançologue affiche toutes les données récoltées depuis le lancement de l'observatoire présidentielle alors cochez oui et la barre de navigation sera intégrée à votre µ-tendançologue. Cochez non et votre µtendançologue n'affichera que la courbe du dernier mois mais occupera moins de place sur votre page ;
- largeur en pixels : adaptez votre micro µtendançologue à votre site, que ce soit pour l'intégrer à votre blogroll ou dans le corps d'un billet, vous pouvez choisir sa largeur en pixels ici, il oscillera obligatoirement entre 150 pixels et 600 pixels.
Une fois tout ceci paramétré il ne vous reste plus qu'à copier-coller le code généré.
La Blogopole
La blogosphère politique
La Blogopole (contraction de blogosphère politique) c'est l'ensemble des sites et blogs de citoyens qui alimentent le débat politique en France c'est à dire tant les hommes politiques, les militants, les sympathisants que les commentateurs et analystes. Ce que nous tentons de faire ici c'est d'en dessiner les contours à mesure que l'échéance de la présidentielle approche. Cette troisième mise à jour de la blogopole donne à voir plus de 2000 sites web classés par appartenance politique. Ces 2000 sites sont présentés sur deux niveaux. Une première vue générale permet de choisir à quelle carte on veut accéder, carte de parti politique ou carte présentant un échantillon représentatif de notre collection complète. La seconde vue nous fait entrer dans le détail de la carte.
1) Méthode de construction de la carte
Pour construire cette carte nous sommes partis de notre précédente collection de 1100 sites datant d'octobre 2006 qui avait été constituée à partir de l'annuaire wiki du site place de la démocratie. Nous avons complété cette collection par la base BonVote atteignant ainsi près de 2000 sites. Tous ces sites ont été explorés en intégralité par nos robots début mars 2007. Les robots parcourent les sites en passant de lien hypertexte en lien hypertexte et construisent ainsi la carte des sites (les noeuds) et des liens hypertextes qu'ils échangent (les arcs orientés). De par cette exploration, nous avons pu récupérer plus de 20 000 sites qui se trouvaient à un clic de notre collection initiale de sites, de ces 20 000 sites nous avons extrait environ 500 nouveaux sites qui n'étaient répertoriés dans aucun des annuaires utilisé pour cette exploration. C'est au final plus de 2500 sites que nous avons répertoriés. Cependant tous ne sont pas sur cette carte car nous avons éliminé l'ensemble des sites qui ne possédaient aucun lien avec le reste de la blogopole. En effet, un site lié par personne n'existe pour ainsi dire pas. Ce qui fait que l'on existe sur le web, tant pour les moteurs de recherche que dans la navigation des internautes c'est de posséder des chemins qui mènent à soi, les sites n'en possédant pas venant d'autres sites politiques ont été éliminés nous faisant revenir à un peu plus de 2000 sites.
2) Interface et navigation
On accède à la Blogopole par une vue générale de la carte. Celle ci permet de sélectionner la carte particulière à laquelle on souhaite accéder : soit une carte de parti, soit la carte échantillonnée. Une fois sur une carte particulière il suffit de cliquer sur la maison en haut à gauche pour revenir à la vue générale ou sur "Afficher la carte Générale" dans la fenêtre Carte Générale.
Les cartes détaillées sont zoomables à l'aide du curseur de zoom ou bien avec la molette de votre souris et il est possible de s'y déplacer soit en cliquant-glissant sur la carte avec la petite main, soit en déplaçant la fenêtre de zoom présente sur la mini-carte (la mini-carte permet de constamment avoir une vue d'ensemble de la carte pour s'y repérer lorsque l'on zoome sur la vue d'ensemble). La vue Fish-eye offre une vision "grand angle" qui est une alternative au zoom de la vue normale.
Il est possible de rendre visible ou invisible chaque catégorie de noeuds par la section Sites de la fenêtre Légende et de voir ainsi les relations qu'entretiennent différents groupes indépendamment des autres. Les liens hypertextes ne sont pas tous affichés par défaut pour ne pas trop ralentir les cartes, seuls les liens réciproques sont affichés. Pour afficher les liens manquants il suffit de cliquer sur "liens simples" dans la fenêtre légende.
La fenêtre Recherche d'URL permet d'effectuer des recherches sur les urls avec possibilité de sélectionner la sous-carte sur laquelle doit porter la recherche.
La fenêtre Taille des sites permet d'associer la taille des sites soit à leur PageRank google, soit à leur score d'autorité, soit au nombre de sites qui pointent vers eux.
La fenêtre Liens permet de simplifier le graphe affiché en faisant disparaître progressivement les arcs entre les noeuds du plus long au plus court. Cela permet à l'utilisateur de partitionner le graphe.
Lorsqu'un site est cliqué, son url reste affichée, si cette url est cliquée elle lance un navigateur pour visiter le site sélectionné. Les liens du site sont aussi manifestés, les liens sortants sont en jaune, les entrants en rouge et les liens réciproques en vert.
Enfin les différentes fenêtre sont toutes déplaçables et réarrangeables librement. La disposition de votre blogopole étant sauvegardée lorsque vous la quittez, vous la retrouvez identique lors de votre nouvelle connexion.
3) Conventions graphiques
Comme l'indique la légende de la carte, la couleur des noeuds représente l'appartenance politique du blog et la taille des noeuds est en rapport avec le niveau d'autorité du site (que ce soit le PageRank, le score d'Autorité ou le nombre de liens entrants). Ainsi plus un blog possèdera de liens pointant vers lui et venant d'autres blogs présents sur la carte, plus grande sera la taille de son noeud. Cet indicateur permet de mesurer de façon grossière le niveau d'autorité d'un blog. Grossière car le blog est un format d'édition ouvert aux contributions extérieures et un blogueur peut par exemple abuser du splog (spam sur les blogs : consiste à laisser sur un maximum de blogs des commentaires inutiles invitant uniquement à se rendre sur son propre blog) et ainsi se constituer une forte connectivité entrante.
Le positionnement des noeuds les uns par rapport aux autres résulte d'un algorithme de placement purement topologique. Cela signifie que chaque noeud n'est placé qu'en fonction des liens qu'il possède en ne prenant aucunement compte de l'appartenance politique du blog et de son contenu. Il existe de nombreux algorithmes qui permettent de générer une spatialisation en 2 dimensions d'une matrice d'adjacence (matrice décrivant tout graphe). Nous avons ici utilisé un Fruchterman Rheingold mais tous répondent au même principe de base : tenter de minimiser l'énergie du système et de maximiser l'occupation de l'espace délimité pour la représentation. Ainsi pour minimiser l'énergie du système on peut par exemple poser que les noeuds non liés se repoussent, que ceux liés s'attirent et que par itérations successives l'algorithme essaye de trouver le placement des noeuds présentant le moins de chevauchements de liens possible. Par maximiser l'occupation de l'espace délimité on entend étaler le graphe au mieux pour qu'il occupe la quasi totalité de la surface qui a été dévolue à sa projection.
Ces principes de placement amènent à des conventions de lecture de la carte qui peuvent paraître à première vue contre-intuitive :
- tout noeud ne possède pas de position a priori, son placement n'est que le résultat des relations qu'il entretient avec les autres noeuds. Ainsi un noeud ne possédant aucun lien ne peut être positionné, c'est pour cela que les blogs qui n'étaient reliés à aucun autre blog du corpus n'apparaissent pas sur la Blogopole ;
- l'espace généré ne possède pas d'axe nord-sud est-ouest signifiant. Il est par contre polarisé dans une tension centre-périphérie, les noeuds se trouvant au centre sont ceux qui sont le plus tiraillés entre des noeuds ne partageant que très peu de liens entre eux (noeuds exogames) et ceux en périphérie ceux qui possèdent des liens peu nombreux et vers des ressources similaires (liens endogames). On voit parfaitement sur la Blogopole comment les blogs des analystes, malgré le petit échantillon présenté ici, assurent parfaitement un rôle central de relais, de ventilation de l'information entre des blogs regroupés en chapelles politiques, échangeant de nombreux liens entre eux mais peu avec le reste du corpus ;
- la carte peut être interprétée facilement au regard des densités qu'elle présente selon les zones mais pas au regard des surfaces. Par exemple, deux partis occupant une même surface n'occupent pas forcément cette surface avec la même intensité. On peut occuper un territoire numérique politique avec peu de sites et peu de liens entre eux, présentant ainsi une faible densité d'implantation ou au contraire présenter des rangs serrés et fortement liés. Ainsi sur ce type de carte les forces en présence sont fonctions des densités et de l'épaisseur du maillage entre les noeuds. Une zone présentant une faible densité et un maillage lâche sur une surface importante se décrypte tel un ensemble de sites ne possédant quasiment aucun lien avec les autres sites et développant leur connectivité uniquement entre eux, leur endogamie hypertextuelle (pratique consistant à ne tisser des liens qu'entre sites d'une même catégorie ou communauté) les éloigne de tous les autres sites et leur faible densité de lien les fait se répartir sur une surface importante.
Le site Observatoire Présidentielle est la propriété de RTGI SAS et est déposé à l'Agence de Protection des Programmes sous la référence IDDN.FR.001.040018.000.R.P.2006.000.20700.
