Culturomics, le Numérique et la Culture

Culturomics, le Numérique et la Culture

Jean-Paul Delahays, Nicolas Gauvrit.

Odile Jacob, Sciences


Cet ouvrage à deux mains est étonnant à plus d’un titre : on est ici en face d’un moment passionnant, celui de l’émergence de nouveaux domaines de la science. Plus précisément : émergence des questions qui déferlent de données nouvelles avant même qu’une science se soit constituée pour les identifier, vérifier les conditions de leur réalité et de leur effectivité.


Tout vient de ce que des bases de données colossales ont été rendues possibles par l’explosion (la fameuse loi de Moore) des capacités de stockage de l’information et de la rapidité de son traitement. Jean-Baptiste Michel de l’Université de Harvard  directeur d’un projet de numérisation « 5 195 769 livres (4% environ des livres publiés depuis Gutenberg)… 500 milliards de mots » a proposé que la science qui émergerait de ces bases de données « humaines, culturelles » se nomme la « culturomique ».


Selon nos auteurs, l’opération de numérisation de livres (essentiellement écrits en anglais, français, allemand, italien et espagnol) vient de créer « une situation sans précédent ». Cette  base de données n’est pas la seule en cours de constitution. Ils citent celles de Facebook en matière photographique : quarante Milliards. Ils rappellent aussi, citant J.Henno, ce double numérique de nous-même « qui se crée à coté de nous-même, composé de traces que nous laissons sur internet mais aussi des différents fichiers que des entreprises, un peu partout dans le monde, possèdent sur nous. … ».


Une part importante du livre est consacrée à la problématique de l’exploitation de cette base de données fantastique de 500 milliards de mots. Bien sûr, et c’est le lot des sciences en cours d’élaboration, il y a des chausse-trappes, de fausses voies ou des découvertes qui tournent très courts : « Le mathématicien Jim Fowler a étudié les occurrences des nombres entiers dans la base de Google et a trouvé une surreprésentation extraordinaire de 2044 »  … après enquête, il apparut que la bibliothèque de Harvard, la plus colossale du monde avec la Bibliothèque nationale de France, colle son code-barres où se trouve ce chiffre sur la couverture de ses livres » !


L’exploitation de séries plus spécialisées, les « corpus linguistiques » se développent à grande vitesse. Ils permettent d’ores et déjà de formuler des idées curieuses ou dérangeantes. C’est ainsi que « Dominique Labbé a déduit du corpus Molière-Corneille que les seize œuvres principales de Molière avaient été écrites par Corneille » déclenchant une polémique violente entre les tenants de la science traditionnelle qu’est la critique littéraire et ceux qui s’appuyaient sur un mode nouveau de traitement de l’information, celle des bases de données et de leurs moyens d’exploitation.


La base de données Google permet de parler de culture, de société, de civilisation et parfois et souvent de remettre à leurs places des intuitions un peu trop « court-termistes ». Il n’étonnera personne que l’évolution de la société est bien représentée par la fréquence de mots précis: « contraception », « liberté sexuelle », « meurtre du père » explosent dans les années 60. Il n’étonnera personne de découvrir que, dans la recherche de notoriété, Rihanna et Lady Gaga remportent la palme. Cependant on montre, « base de données à l’appui », que John Lennon était dans l’erreur lorsqu’il prétendait que les Beatles avaient la notoriété du Christ (ou de Jésus). En fait, le nombre de fois où le mot « Beatles » est cité est infinitésimal par rapport au nombre de fois où les mots « Christ » et « Jésus » le sont tant en français qu’en anglais.


Les impressions sont trompeuses et l’informatique montre que des expressions qui semblent envahir le langage et la littérature ne sont pas des nouveautés : « que du bonheur » est en régression depuis 1800, « fameux » aussi, en revanche « c’est clair » (depuis 1980) et « dans l’entourage » (depuis 1900) progressent fortement…Et l’usage de ces banques de données montre que l’orthographe n’est pas sur le déclin, ni le bon usage des expressions.

Sur un plan sémantique, les mots les plus courants en 1900 sont les plus courants aujourd’hui. Il en est de même pour le « niveau de base », dénominateur commun de la communication. Même s’il est plus précis de parler d’un golden retriever ou d’un dogue, c’est le mot « chien » qui est préféré ! « Et il semble que pour beaucoup de mots, le niveau de base n’ait pas changé depuis deux siècles au moins. L’idée que le discours s’est détérioré et que les concepts se sont faits moins précis est peut-être vraie pour le langage oral, mais pas pour l’écrit ».


Il n’en reste pas moins que les bases de données permettent de dater des changements : en 1950, le mot «  propagande » entame son déclin et celui de « communication » son essor !

Encore, ici ne s’agit-il que de recherche sur des mots, des expressions. Les deux auteurs font valoir que « Sans les approches exhaustives ou presque exhaustives, de nombreux faits restent invisibles ou impossibles à mesurer … l’informatique… donne les moyens de traitement numérique ultrarapide pour l’exploration des bases de données énormes qui se sont constituées, (et) renouvelle les disciplines et domaines de recherche ».


Ainsi de la loi de Zipf : en analysant le texte du roman Ulysse de James Joyce… Zipf observa que le mot le plus utilisé « The » l’était 8000 fois, celui en position dix, l’était 80 fois et celui en position cent l’était 8 fois.

Même «  s’il est difficile d’affirmer que la loi de Zipf est le fruit d’une loi mathématique », il se trouve que son énoncé à une valeur d’efficience et d’existence dans des contextes variés, linguistiques, mathématiques, informatiques et autres. Quelle est sa cause ? Qu’est-ce qu’elle veut dire ? Les deux auteurs relatent une conjecture et nous indiquent que « c’est là une découverte que l’on doit aux grandes bases de données, qui en mettant à notre disposition de vastes ensembles de nombres ont rendu visibles des régularités cachées et universelles ».


Des Sciences nouvelles sont en cours de formation. C’est précisément ce que cet ouvrage propose de montrer.

Quelques ouvrages de Pascal Ordonneau

Panthéon au Carré est disponible aux éditions de la Route de la Soie.

Promotion est disponible chez Numeriklivre et dans toutes les librairies "digitales"

Au Pays de l'Eau et des Dieux est disponible chez Jacques Flament Editeur ainsi que

La Désillusion, le retour de l'Empire allemand, le Bunker et "Survivre dans un monde de Cons".

"La bataille mondiale des matières premières" et "Les multinationales contre les Etats" sont épuisés. 

S'inscrire 

 chaque semaine "La" newsletter (tous les lundis)

et "Humeur" (tous les jeudis)

 

Il vous suffit de transmettre vos coordonnées "Mel" à l'adresse suivante

pordonneau@gmail.com