Connaissez-vous le «Google Books Ngram Viewer» et la «Culturomics » ?

Voici une preuve évidente de la difficulté de suivre toutes les réalisations du numérique dans notre revue de presse, le «Google Books Ngram Viewer» et la «Culturomics» sont complètement passés sous mon radar. Pourtant, il s’agit de sujets très importants pour vous et moi car il concerne les mots et leurs fréquences d’utilisation dans les livres et d’un nouveau champ de recherche. Les informations en français sur ces sujets se font rares. Voici donc le fruit de mes recherches.

Voici le titre et le lien vers l’article fondateur de cette nouvelle science humaine (il faut s’inscrire gratuitement sur le site web de la revue Science pour accéder gratuitement à cet article) :

Quantitative Analysis of Culture Using Millions of Digitized Books. Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden*. Science 331 (2011) [Published online ahead of print: 12/16/2010].

Un livre vient de paraître

Un livre en français vient de paraître sur le sujet aux Éditions Odile Jacob : Cultoromics. Le numérique et la culture‪ par Jean-Paul Delahaye et Nicolas Gauvrit. Voici la présentation de ce livre par son éditeur :

Culturomics_01

odile-jacob«L’apparition des bases de données informatiques et des moteurs de recherche permettant de les explorer a introduit de nouvelles pratiques dont l’ego-surfing est une des plus ludiques : estimer sa propre notoriété, celle de ses amis ou des célébrités, mesurée en nombre de pages Google. Étrange classement puisque, en octobre 2012, Lady Gaga était plus « célèbre » que Jésus-Christ. De même, le classement des chercheurs scientifiques et des universités à partir d’autres bases de données se heurte à de nombreux biais, dont il est essentiel d’être informé afin de ne pas prendre des vessies pour des lanternes.

La numérisation de cinq millions de livres réalisée à l’Université Harvard fournit quant à elle un outil nouveau, permettant d’analyser l’évolution de l’usage d’un mot ou d’une expression au cours des deux derniers siècles. De « nos ancêtres les Gaulois » au « biais de positivité » et à la « loi de Benford », ce petit guide pittoresque a été conçu pour initier aux subtilités de la culturomique, la science numérique de la culture.

Jean-Paul Delahaye est professeur à l’université de Lille et chercheur au laboratoire d’informatique fondamentale (LIFL). Il est l’auteur de nombreux ouvrages de vulgarisation des mathématiques.

Nicolas Gauvrit enseigne les mathématiques à l’université d’Artois. Il s’intéresse particulièrement aux liens entre les mathématiques et la psychologie. »

Source : Éditions Odile Jacob

Quelques articles à lire

actualitte_logo_02

Avec Ngram Viewer, Google examine des milliards de mots

5,2 millions de livres numérisés, avec une recherche fantastique

Par Nicolas Gary, Le vendredi 17 décembre 2010

La recherche, c’est le dada de Google. Qui vient de présenter un nouvel outil permettant d’explorer 5,2 millions de livres parmi ceux qui ont été numérisés, en anglais, mais également français, chinois, allemand, russe et espagnol. En fait, 5.195.769 de livres précisément.

Ngram Viewer est une sorte de monstre. Contrairement à la fonction de recherche de sites internet, l’outil examine l’ensemble des mots contenus dans les ouvrages. Et pour l’utilisateur, permet de dégager des tendances d’utilisations et la récurrence de mots, phrases ou expressions, sur une année précise. Le tout passe évidemment par l’utilisation des ressources de Google Books.

La somme de données représente environ 4 % de l’ensemble des livres imprimés entre 1800 et 2000, mais n’en reste pas moins passionnante. On peut ainsi se rendre compte de la popularité entre les différents présidents américains dans les ouvrages, George Washington, Thomas Jefferson et Abraham Lincoln.

Lire la suite

logo-cairn

Voici le premier paragraphe d’un article traitant de ce livre sur le site web Cairn.info :

«Jean Delahaye est chercheur au laboratoire d’informatique fondamentale et auteur de plusieurs ouvrages de vulgarisation des mathématiques (par exemple, La logique, un aiguillon pour la pensée, Paris, Belin, 2012). Quant à Nicolas Gauvrit, il enseigne les mathématiques et s’intéresse aux relations entre cette discipline et la psychologie. Leur ouvrage est captivant. Il est structuré en une introduction et six chapitres : « La psychologie dans la littérature » (pp. 21-60), « Mesurer la notoriété » (pp. 61-93 », « Les mutations éducatives » (pp. 99-122), « Vie et mort des mots » (pp. 123-152), « L’étrange usage des chiffres et des nombres » (pp. 153-190) et « Au-delà du livre » (pp. 191-208). Ces chapitres sont clairs grâce à la présence de graphes (courbes, figures) avec une annexe sur les repères de la mémoire numérique, des références doublement classées (par ordre alphabétique et par chapitre) et dédoublées (papier, électronique), en rendant l’accès plus aisé. Le tout est étayé par un succinct remerciement comme mot de fin et une table des matières lisible. L’ouvrage met en lumière les mutations des technologies informatiques avec les bases de données numériques. Certes, ces mutations ont repensé la culture grâce notamment à l’exploitation d’un corpus de textes par la firme Google (recensant cinq milliards de pages) et l’exploration de nouvelles méthodes. Nous assistons à une révolution peut-être plus importante que celle due à l’invention de l’imprimerie. Elle est la preuve du remplacement de l’information analogique (papiers écrits ou imprimés, disques vinyle, films pour le cinéma) par l’information numérique (disquettes magnétiques pour documents informatiques, cd, dvd, clés usb…). Par ses avantages, cette dernière s’impose car elle est manipulable, algorithmiquement traitable, déplaçable, filtrable. On peut en extraire des statistiques, en comparer des éléments, conduire des recherches, compiler pour en déduire des index ou des données, dupliquer. Des tâches qui seraient impossibles par un traitement manuel. D’ailleurs, les auteurs usent de l’expression métaphorique en début d’ouvrage, « une montagne numérique d’information » (p. 11). L’humanité créée, stocke et médiatise l’information, explore des données, développe des moteurs de recherche sur l’internet. En 2012, la version française de Wikipédia recensait déjà un milliard d’articles. L’encyclopédie numérique assure l’organisation textuelle, la qualité des contenus, la mise à jour, ce qui n’est pas le cas pour une base d’information imprimée. Les auteurs illustrent leurs idées par ce propos : « Le volume, la variété, la diffusion, l’universalité, la précision des articles de Wikipédia constituent en soi une révolution culturelle » (p. 12). À côté de l’information savante, se tient une autre, personnelle celle-ci, illustrée par les photos sur le web. Ces données colossales sont commercialement exploitées par les firmes. D’ailleurs, le volume des données gérées et stockées par ces firmes est supérieur à celui de Wikipédia – en 2012, 40 milliards de photos étaient diffusées et partagées sur le réseau Facebook (dix mille fois plus que sur Wikipédia).»

Lire la suite

SOURCE : Ben Larbi Sara, «  ‪Jean-Paul Delahaye, Nicolas Gauvrit, Cultoromics. Le numérique et la culture‪  », Questions de communication 1/ 2014 (n° 25), p. 429-433
URL : www.cairn.info/revue-questions-de-communication-2014-1-page-429.htm.

la_feuille_01

Culturomics : Comprendre les « lois » de la culture

«La technologie change notre compréhension des sciences humaines et sociales (SHS), comme elle a changé notre compréhension des sciences, expliquait il y a peu Patricia Cohen pour le New York Times. Bien sûr, face à cet objectif, les médias numériques sont des moyens plus qu’une fin, rappelle consciencieusement l’historien Anthony Grafton. Mais pour Brett Bobley, directeur du bureau des humanités numériques de la Dotation nationale des humanités américaines (National Endowment for the Humanities, NEH), l’analyse de quantités sans précédent de données peut révéler de nouvelles caractéristiques et tendances et soulèvent des questions inattendues pour l’étude.

« La technologie a non seulement rendu l’astronomie, la biologie et la physique plus efficaces. Mais elle a permis aux chercheurs de faire des recherches qu’ils ne pouvaient pas faire auparavant ». Et c’est notamment le cas dans le domaine des SHS, où l’accès à de formidables corpus documentaires sous forme informatique peut apporter de nouvelles connaissances. C’est en tout cas, ce que se propose de montrer le concours de Google ou le Digging into data, un programme de subventions pour aider à la recherche en sciences humaines à aller dans de nouvelles directions, propulsées par le bureau de Brett Bobley au NEH.»

Lire la suite

internet_actu_01

Quand Google Books permet de comprendre notre génome culturel

Pour une fois, on va dire du bien de Google dans cette lecture de la semaine. A travers un article paru sur le site de Discover Magazine en décembre 2010, sous la plume de Ed Young. Le titre de cet article : “Le génome culturel ; Google Books révèle les traces de la notoriété, de la censure et des changements de la langue”.

“De la même manière qu’un fossile nous dit des choses sur l’évolution de la vie sur terre, explique Ed Young, les mots inscrits dans les livres racontent l’histoire de l’humanité. Ils portent une histoire, pas seulement à travers les phrases qu’ils forment, mais aussi par la fréquence de leur occurrence. Découvrir ces histoires n’est pas facile – cela requiert de convertir les livres en format numérique pour que les textes puissent être analysés et comparés. Et cela requiert d’en numériser des millions.”

Heureusement, poursuit Young, c’est exactement ce que fait Google depuis 2004 avec Google Books. 15 millions de livres ont été numérisés aujourd’hui, soit 12 % de l’ensemble des livres qui ont été publiés à ce jour. Et depuis 2004, une équipe de l’université de Harvard, dirigée par Jean-Baptiste Michel et Erez Lieberman Aiden, analyse cette masse de données. Leur premier compte-rendu est disponible depuis quelques temps. Il est très partiel évidemment, mais selon Young, il donne une idée du pouvoir du corpus constitué par Google Books. Comme l’explique l’équipe de chercheur, le corpus “fournira une bonne réserve d’os à partir desquels on pourra reconstruire le squelette d’une science nouvelle”. Ed Young reprend : il y a des parallèles évidents avec le décodage du génome humain. De la même manière que le décodage complet du génome fournit aux biologistes une ressource incommensurable, le corpus de Google permettra aux chercheurs en sciences humaines d’étudier la culture humaine de manière rigoureuse. C’est pourquoi l’équipe a nommé son champ la “culturomique” (sur le modèle de la génomique).

Le projet, nous explique Young, est né en 2007, l’équipe cherchait alors à montrer que les verbes anglais avaient tendance à devenir de plus en plus réguliers : “Nous avons compris, explique l’un des chercheurs, que l’étude de l’évolution de la culture nécessitait quelque chose comme un génome, une base de données si puissante qu’elle permettrait à de telles analyses d’être faites rapidement, sur toutes sortes de sujets, pas seulement les verbes irréguliers. Et on a remarqué que certains des livres très obscurs que nous utilisions apparaissaient sur Google Books. On a fait le lien.” Et voici comment Harvard et Google Books se mettent à travailler ensemble.

L’équipe a travaillé sur un tiers du corpus total. 5 millions de livres publiés en Anglais, Français, Espagnol, Allemand, Chinois, Russe et Hébreu, et remontant au 16e siècle. Ce qui revient à 500 milliards de mots. L’un des chercheurs explique que le corpus ne peut pas être lu par un humain. Si vous vous mettiez à lire seulement les entrées correspondant à l’année 2 000, au rythme de 200 mots à la minute, sans vous interrompre pour vous nourrir et dormir, il vous faudrait 80 ans. La séquence totale de lettres est mille fois plus longue que celle du génome humain (le génome humain, c’est 3,5 milliards de caractères).

Maintenant, quelques résultats de ce travail :

1. La langue anglaise s’enrichit. Pendant les 50 dernières années, le vocabulaire anglais a augmenté de 70 %, et on considère que 8 500 nouveaux mots s’ajoutent chaque année. Je vous passe la méthode de calcul, mais les chercheurs estiment que l’anglais comptait 544 000 mots en 1900 contre un peu plus d’un million en 2 000. Comme on peut s’y attendre, les dictionnaires ne prennent acte qu’avec retard de cette croissance. Les livres recèlent toujours plus de mots que ceux que les dictionnaires recensent.

Expansiondelanglais
Image : La croissance de la variété des mots et la difficulté des dictionnaires à en rendre compte.

2. La grammaire évolue. C’est la fameuse étude sur les verbes. En deux cents ans, 16% des verbes irréguliers sont devenus réguliers. Et ce sont les verbes les plus couramment utilisés qui sont les plus rétifs au changement. Malgré tout, explique un chercheur, “chaque année, une population de la taille de Cambridge adopte burned au lieu de burnt. Ce qui n’est pas rien en termes d’évolution.

VerbsCulturomics
Image : L’évolution de la conjugaison des verbes dans les corpus de livres et notamment le passage de “burnt” à “burned” (brûlé, incendié).

3. La présence historique. Les chercheurs se sont intéressés à l’occurrence des années. Par exemple, l’année 1951 n’était que très rarement mentionnée avant 1951. Elle apparaît beaucoup en 1951, est mentionnée encore quelques fois pendant les 3 années qui suivent, puis les occurrences diminuent de moitié chaque année pendant les 15 ans qui suivent. “Mais la forme du graphe évolue, notent les chercheurs. Le pic est plus haut pour chaque année, mais nous oublions notre passé plus vite.” L’année 1880 met 32 ans à être moitié moins mentionnée dans les livres. Il ne faut plus que 10 ans à l’année 1973 pour arriver au même niveau. Ceci alors même que les mots désignant des innovations technologiques intègrent de plus en plus vite le discours commun.

frequencedesannesgooglebooks
Image : Nous intéressons-nous de plus en plus à notre histoire récente ?

4. La durée de la notoriété diminue. Les chercheurs ont aussi remarqué qu’une personne célèbre l’était plus aujourd’hui qu’auparavant, mais le restait moins longtemps. En croisant ces données avec les dates de naissance, ils ont observé qu’au début du 19e siècle, les gens commençaient à devenir célèbres en moyenne à 43 ans et mettaient 8 ans à doubler leur popularité. Au milieu du 20e siècle, la célébrité commençait vers 29 ans et doublait en 3 ans seulement. Mais la chute est plus rapide. Il y a un siècle, pour que la fréquence d’un nom célèbre diminue de moitié, cela prenait 120 ans, c’est 71 ans aujourd’hui.

D’autres résultats sont mentionnés par Young, comme l’usage des mots pendant certaines périodes historiquement marquées, le Nazisme par exemple. Bref, selon les chercheurs, ce ne sont là que quelques exemples des possibilités offertes par le traitement de cet immense corpus. On peut regarder comment les gens mangeaient en sélectionnant le vocabulaire de la nourriture, on peut tracer l’adoption d’un concept scientifique, comme l’Evolution, en regardant quand et comment il s’impose dans les livres.

food
Image : l’évolution de ce que nous mangeons…

evolution
Image : l’évolution de certains termes dans les livres comme l’Evolution, la cellule, la bactérie, l’ADN…

Mais de toute façon, plus il y a de livres qui sont numérisés par Google Books, plus les langues sont nombreuses, plus les périodes historiques sont vastes, plus les données auront de valeur pour les chercheurs.

Avec une limite cependant, que l’équipe de Harvard mentionne : “Les livres ne sont pas représentatifs de l’ensemble de la culture, même si le corpus contient 100% des livres publiés. Seules certaines catégories de personnes écrivent des livres et les publient, et cette petite classe a changé au cours du temps, avec les progrès de l’alphabétisation… Il faudrait aussi numériser les journaux, les manuscrits, les cartes, les œuvres d’art et une myriade d’autres créations humaines.”

Et puis, évidemment, comme le note un chercheur de l’université de Pennsylvanie, le seul critère de l’occurrence donne des résultats pas inintéressants, certes, mais le corpus atteindra toute sa valeur le jour où on pourra analyser comment les mots prennent leur sens dans la phrase, ce qui est une tâche autrement plus difficile.

Xavier de la Porte

Source : InternetActu

culture_visuelle_01

L’interprétation des graphiques produits par Ngram Viewer

Par Patrick Peccatte – 11/01/2011 – 12:22 [English] [PDF] 

Ngram Viewer est un nouvel outil mis en ligne par Google le 16 décembre dernier. Il permet de visualiser sous forme de graphiques les fréquences d’apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. Ce projet a été initié en 2007 par un mathématicien et physicien américain, Erez Lieberman Aiden. Il a été soutenu par Google Labs et développé par des chercheurs de Harvard, en particulier Jean-Baptiste Michel, jeune polytechnicien français.

Lire la suite

la_boite_a_outils_des_historiens_01

Google labs Books Ngram Viewer : un nouvel outil pour les historiens ?

La gamme des services de Google s’est récemment enrichie d’un outil qui mérite une attention particulière de la part des historien(ne)s : Google Books Ngram Viewer.

Qu’est-ce que c’est ?Ce service découle directement de Google Books, le projet de numérisation de « tous les livres du monde ». À ce jour, et depuis 2004, Google aurait déjà numérisé plus de 15 millions de livres (source) ce qui représenterait 11% des livres publiés depuis 1473 (source).Sur cette base, un corpus d’environ 500 milliards de mots issus de 5,2 millions de livres a été constitué et divisé en sous-corpus par langues : en anglais (361 milliards de mots), français (45 milliards), espagnol (45 milliards), allemand (37 milliards), russe (35 milliards), chinois (13 milliards) et hébreu (2 milliards). L’ensemble représenterait 4% de « tous les livres jamais publiés ».Lire la suitecorinne_dangas_01

Culturomics. Google met la culture à portée de tous… ou corporifie la culture humaine ?

Google a lancé en début de mois aux US sa librairie en ligne Google eBooks : en France, sa relation avec les éditeurs (sauf Hachette) et les pouvoirs publics est connue pour n’être pas au beau fixe. Aujourd’hui, Google prétend aussi pouvoir se servir de son fond numérisé de plus de 5 millions de livres, pour explorer les sciences humaines.

L’enjeu derrière l’édition numérique, et le rôle leader que Google veut s’y donner, est à double échelle.

Il n’est pas juste de « mettre la culture à la portée de tous » : permettre à Monsieur (ou Madame) Tout le Monde de consulter de son fauteuil 3 millions de livres, même ce manuscrit du XXe siècle contenant des scholies écrites 15 siècles plus tôt et relatives à des textes déjà antérieurs de 5 siècles (source blog Google).

Lire la suite

texto_digital_01

GOOFRE version 2: voir et traiter 600 milliards de mots

Etienne Brunet, Laurent Vanni

Les données de Google Books ont doublé en deux ans, en franchissant le cap des 500 milliards de mots. Un  nouveau traitement a repris les images scannées pour en proposer une lecture  plus fidèle. Et pour la première fois les textes enregistrés ont bénéficié de la désambiguïsation  et de la lemmatisation. Enfin le site Culturomics a fourni les outils nécessaires pour en assurer la diffusion. Il convenait donc de procéder à une nouvelle expertise et de créer une nouvelle base, pourvue de tout  l’appareillage statistique qu’exige, en réseau ou en local, l’exploitation des grands corpus.

Lire la suite (PDF en ligne)

Lire la suite (télécharger le PDF)

Sites web de l’expérience

ngram_viewer_01

Cliquez ici pour visiter le site Google Book Ngram Viewer

Culturomics_02

Cliquez ici pour visiter le site Culturomics

 –

 

 

Advertisements

Président éditeur, Fondation littéraire Fleur de Lys

Tagged with: , , , ,
Publié dans Actualité au jour le jour

Laisser un commentaire

Entrer les renseignements ci-dessous ou cliquer sur une icône pour ouvrir une session :

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l’aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Magazine littéraire

Ce magazine littéraire est l’œuvre de la Fondation littéraire Fleur de Lys et s'inscrit dans une mission d'éducation populaire au sujet du monde du livre, et ce, tant auprès des auteurs que des lecteurs.

Vous pouvez nous écrire à l'adresse suivante :


contact@manuscritdepot.com

Archives
%d blogueurs aiment ce contenu :