Etude comparée des "blogosphères" PC et UMP
Les blogosphères PC et UMP n’ont décidément pas les mêmes propriétés, ni en termes de contenu informationnel ni en termes d’organisation. Notre exploration des deux univers s’est donc pursuivie ces dernières semaines pour déboucher, enfin, sur un tableau plus complet et plus exhaustif. Rappelons rapidement les étapes qui nous y ont conduits.
Premier temps : dans la BLOGOPOLE, l’UMP représente l’ensemble le plus important en termes de nombre de blogs référencés mais aussi de densité de liens hypertextes : il est donc constitué d’un ensemble compact de blogs qui le rendent particulièrement sensible et « visible » aux systèmes automatiques d’extraction de l’information (moteurs de recherche, robots-crawlers, algorithmes de classification etc.). Mais une telle structure concentrée et autoréférencée peut aussi renvoyer à une expérience de navigation : passons quelques temps à l’explorer avec un simple navigateur et l’on comprend que l’on en sort difficilement, ou que presque tous les chemins mènent finalement au site officiel de l’UMP, à celui du Premier Ministre ou des Jeunes Populaires. Au regard d’une telle concentration, la « blogopole » PC apparaît au contraire plus dispersée, moins dense mais aussi plus « ouverte » sur d’autres domaines qui ne sont pas strictement étiquetables comme « communistes » : société civile, syndicats, monde associatif, mouvements alternatifs, écologie…
Second temps : nous réalisons une étude qui vise à photographier de plus « près » la zone PC et la zone UMP de la blogopole, un peu comme si l’on zoomait sur chacune des deux zones. Les deux « zoom » sont produits par extension : dans chacun des deux cas, on a sélectionné 18 URL (celles de l’UMP proviennent de la blogopole essentiellement, celles du PC nous ont été fournies par un militant du PC qui s’était plaint de voir son parti si peu représenté dans la blogopole) puis nous avons indexé toutes les URL qui leur étaient liées à un ou deux « clics » de distance. C’est, typiquement, une opération de contextualisation de l’information sur le web, voire une procédure de knowledge discovery (comme la qualifie les scientifiques américains depuis quelques années) : on cherche ainsi à comprendre dans quels types d’ensemble prend place une ou plusieurs URL choisies pour leur intérêt ou leur pertinence.
On peut réaliser cette opération « à la main », de façon artisanale, en naviguant soi-même et en prenant note de tous les éléments nécessaires à la construction de la cartographie. Le mieux, dès cette échelle, est de s’équiper d’un « kit d’exploration » constitué d’un petit robot-crawler (on lui donne des URL de départ et des instructions pour se promener de lien hypertexte en lien hypertexte), d’un lieu de stockage des données (un tableau Excel suffit) et d’un outil de traitement des données et de visualisation de graphes (type Pajek ou Guess). Ainsi, à partir de nos 18 URL de départ pour chacun des deux ensembles, nous avons répertorié 721 sites ou blogs liés à l’UMP et 578 pour le PC. Dans les deux cas, on voit apparaître deux ensembles compacts de ressources web, que nous nommons agrégats, constitués de documents (sites ou pages) centrés autour du même thème ou du même contenu et aussi très liés entre eux du point de vue de la distribution des liens hypertextes. Ces agrégats ont des propriétés fascinantes : en les projetant sous forme de graphes, on peut en calculer le diamètre moyen, la densité, en modéliser les composants internes mais aussi les manipuler, les visualiser et les explorer dynamiquement (avec GUESS notamment). En particulier, il est possible de décrire statistiquement et de visualiser graphiquement ce qui en constitue l’essentiel : leur centre de gravité, un cœur composé des sites ou des pages qui diffusent dans l’agrégat le plus de liens hypertextes et par lesquels passent nécessairement la plupart des parcours de navigation. Dans cette géographie de l’information sur le web, ces éléments peuvent être placés au centre de l’agrégat et se répartissent en deux types distincts : les Hubs (pages ou sites qui diffusent le plus de connectivité hypertexte) et les Authorities (pages ou sites les plus cités par les autres documents de l‘agrégat, autrement dit recevant le plus grand nombre de liens entrants). En réalité, Hub et Authority sont des scores que l’on attribue à chacun des documents de l’agrégat pour les hiérarchiser. Depuis les années 1996-1997 et les travaux de J. Kleinberg, de nombreux algorithmes et systèmes industriels exploitent ces propriétés génériques de l’espace web (PageRank de Google, HITS, SALSA, etc.).

FIG.2 (le principe du cœur constitué de Hubs et d’Authorities)
Dans notre première étude, l‘agrégat UMP dans son ensemble ou son cœur central étaient apparus beaucoup plus denses et auto-référencés que celui du PC, lui plus dilué et moins concentré sur lui-même. En conclusion de cette première étude, nous écrivions « En l’état actuel de notre expérimentation sur ces deux «micro-localités» de la blogosphère, l’UMP apparaît donc nécessairement plus « visible » parce qu’orientée autour de sa propre cohérence et de son identité, maintenant réelle sur le web. Pour le PC, la « culture blog » n’est peut être pas encore entrée totalement dans les mœurs, hormis quelques blogs de qualité très actifs. En revanche, si la « blogosphère PC » est moins visible que celle de l’UMP, elle se nourrit de ses nombreuses proximités avec la « galaxie » de la gauche militante, ce que nous avions déjà repéré lors de l’étude sur le TCE. » Peut-on vérifier ces propriétés respectives des deux univers à plus vaste échelle ?
Troisième temps : prenons encore du recul pour apercevoir une géographie plus complète. Une campagne d’extraction (crawl) a été lancée à partir du « cœur » UMP et du cœur PC (soit près d’une cinquantaine d’URL). Dans le cas de l’UMP, un ensemble comprenant 4929 sites et 8790 liens entre ces sites a été indexé et modélisé sous forme d’un graphe. Dans le cas du PC, le graphe a été construit à partir de 7579 sites et 11 748 liens entre eux. Au terme d’une première exploration, voici quelques-uns des enseignements majeurs que l’on peut tirer sur nos deux univers :
En prenant en compte la totalité des données (4929 sites/blogs côté UMP et 7579 côté PC), on s’aperçoit que le taux de densité des deux agrégats n’est pas le même : (0,0002045 pour le graphe PC, 0,0003714 pour le graphe UMP). Ce chiffre anondin est d’une grande conséquence : la blogosphère UMP jouit d’une force de gravité 1,7 supérieure à celle du PC. Ainsi, les liaisons internes dans l’univers UMP comptent plus que celles qui ouvrent sur d’autres univers voisins. Et, inévitablement, ces liens plus nombreux et plus concentrés mènent beaucoup plus en interne vers quelques sites ou blogs centraux qui se voient ainsi dotés d’une position hiérarchique très marquée. Pour le dire autrement, la majorité des chemins de navigations dans la blogosphère UMP mène inévitablement vers des sites comme www.jeunespopulaires.com, agiretrassembler.hautetfort.com, www.u-m-p-paris.org ou www.u-m-p.org qui jouissent des meilleurs scores d’Authority dans le lot de données. Du côté de l’univers documentaire PC, on trouvera aussi un principe interne d’organisation hiérarchique et quelques figures de proue comme www.pcf.fr, www.yannick-bedin.org, www.humanite.fr ou www.jeunes-communistes.org. Ces sites ou blogs figurent parmi les « Autorités » de la sphère communiste mais la distribution des liens hypertexte fait aussi apparaître dans l’agrégat ou à sa périphérie tout un vaste ensemble de références qui ne sont pas strictement communistes comme agauche-rassembleretconstruire.hautetfort.com, www.ouvatonlesamis.org, http://bellaciao.org ou www.acrimed.org.
