Présentation

  • : Le Cactus Heuristique
  • Le Cactus Heuristique
  • : Docteur en biologie, tendance réductionniste, je m'intéresse à tout... mais à des degrés divers. C'est à partir des cactées que mon site va plus loin dans l'exploration de domaines contigus à la biologie...
  • Contact

Translation / Traduccion

Recherche Sur Le Site

Page Facebook

RECEMMENT :

Rajout de photos de cactées globulaires diverses.

PROCHAINEMENT :

Un article sur les relations entre Rhipsalis teres et les fourmis

4 septembre 2011 7 04 /09 /septembre /2011 11:39

La société Google et l’Université Harvard ont largement entamé leur projet de scanner et de mettre en ligne sous format électronique un large échantillonnage des textes littéraires édités au cours de l’histoire humaine.

Ce corpus est maintenant à la disposition du grand public et celui-ci peut y effectuer des recherches. Vue la taille colossale de la base, il est impossible pour le grand public d’effectuer des recherches livre par livre, mais seules des recherches statistiques sur les mots du corpus sont possibles.

Les recherches s’effectuent comme avec un moteur de recherche internet et permettent de produite des graphes (ngrams) qui donnent les fréquences d’utilisation des mots dans le corpus de textes au cours du temps (voir l’annexe).


La base de textes et son exploitation statistique

Le corpus :

-  une base de plus de 5,2 millions de livres scannés par Google, et mise à jour continuellement, sous la direction de l’Université Harvard aux Etats-Unis.

-  Elle représente environ 4% des livres publiés au cours de l’histoire humaine.

-  Les ouvrages datent du XVIème siècle à l’année 2008, provenant de 40 universités.

-  Le corpus représente plus de 500 milliards de mots, dont 361 milliards de mots anglais et 45 milliards de mots français.

-  A partir de l’année 1800 la base contient plus de 60 millions de mots / an, et à partir de 1900 elle contient plus de 1 milliard de mots / an.

-  Elle a une taille informatique d’environ 4 teraoctets (4 x 1012 octets).

-  Le corpus ne prend pas en compte les journaux et les revues.

 

La fouille des données (data mining) avec les ngrams :

-  Seuls les mots, ou ensembles de mots, apparaissant dans au moins 40 livres sont visibles sur les courbes ngrams.

-  La fouille du corpus se fait suivant les dates de publication, en abscisse du graphe (attention, un même livre peut être publié plusieurs fois), la langue et éventuellement le pays.

-  Les chiffres en ordonnée du graphe indiquent la fréquence du mot au sein de la base (par exemple un mot avec une fréquence de 0,0001 à une date donnée signifie qu’il apparait 1 fois sur 1 million de mots à cette date). Attention : il s’agit d’une mesure de la fréquence relative d’un mot par rapport à un ensemble de mots, non du nombre de fois ou le mot apparait en valeur absolue.

-  Le smoothing (lissage) : il permet de moyenner les résultats sur plusieurs années. C’est particulièrement utile pour mettre en évidence des tendances au cours du temps, et éliminer les pics annuels de fréquence d’un mot.

 

 

Par curiosité, je me suis livré à une recherche sur des termes liés aux cactées pour connaitre l’évolution de leur popularité et de leur fréquence d’utilisation au cours du temps, ceci parfois en rapport avec leur étymologie.

 

La recherche s’est faite :

 

-    Sur la base des textes anglais, qui est la plus large de toutes les bases.

-   Avec un lissage (smoothing) des résultats sur 3 ans : s’agissant de mots assez spécialisés, et avec une faible ou très faible occurrence dans la littérature, ceci permet d’éviter les irrégularités et les pics d’occurrences de certains mots certaines années, très fréquents, qui empêchent de voir les tendances globales au cours du temps. Les bosses isolées, avec un plateau au sommet, correspondent donc à un pic annuel d’utilisation (étalé sur 3 ans par le lissage).

 

Le regroupement des noms de genres sur les graphes ne correspond pas toujours à une logique botanique mais correspond à des courbes de popularité similaires.

 

On peut supposer que la popularité des termes et des noms de genres est en rapport avec la popularité des plantes elles-mêmes et de leur culture en collection. Attention cependant, certaines plantes ont vu leurs noms changer au cours du temps, et un genre actuel peut ne pas désigner les mêmes plantes qu’il y a un siècle.

 

Voici un échantillonnage de résultats obtenus :

 

G Cactus

 

Cactus : le mot cactus, emprunté au latin ou du grec, remonte au XVIIème siècle et désigne à l’origine une sorte de chardon sicilien. C’est Linné à la fin du XVIIIème siècle qui utilise ce mot pour désigner les plantes de la famille des cactées. On observe effectivement sur le graphe une brusque augmentation de son utilisation à cette époque, qui va régulièrement croissant et culmine au milieu du XXème siècle pour décroitre un peu ensuite. Cacti, le pluriel de cactus en anglais, suit exactement la même tendance, mais avec une utilisation moindre.

 

G Cactaceae

 

Cactaceae : c’est le terme scientifique pour désigner la famille des cactées, ce n’est pas un terme « grand public » et son utilisation dans les textes l’est généralement au sein d’ouvrages spécialisés ou scientifiques. On voit une fréquence d’utilisation sous forme de 2 plateaux distincts : le premier à partir du début du XIXème siècle (création de la famille par Jussieu en 1789), puis un second plateau plus élevé à partir du début du XXème siècle. Je n’ai pas d’explication pour l’augmentation brusque de l’occurrence à partir de 1900 environ (c’est cependant une époque ou les cactées acquièrent une large popularité, aussi bien scientifique qu’auprès du grand public, et ou Britton & Rose publient des livres importants sur le sujet).

 

G Cereus Opuntia Echinocactus

 

Opuntia : il s’agit du nom de cactus de très loin le plus populaire au cours du temps. Terme apparu à la renaissance à partir du mot latin Opuntius, c’est Linné, en 1754, qui crée le genre Opuntia. Pendant longtemps la plupart des cactus connus ont été désignés par « Opuntia », ce qui explique son utilisation très ancienne dans la littérature. De plus il s’agit d’un genre qui a été largement répandu sur toute la surface de la terre, y compris en Europe, ce qui explique l’énorme popularité du nom au cours des siècles par rapport à ceux d’autres genres de cactées. On observe 2 gros pics d’utilisation au XVIIIème siècle, sans doute du fait de 2 publications botaniques, puis une lente augmentation de la fréquence d’utilisation, avec de nouveaux pics au début du XXème siècle (popularité dans le sillage des travaux de Britton & Rose ?) puis un plateau jusqu’à nos jours.

 

Cereus : terme qui apparait en 1730, et qui désigne par la suite un genre de cactées en forme de chandelle (en effet le mot signifie « cireux » en latin, et a la même origine que « cire »). On observe 3 superpositions d’occurrences avec le mot Opuntia au XVIIIème siècle : sans doute dans 3 ouvrages de botanique. Puis une lente augmentation de la fréquence d’utilisation similaire au terme Opuntia, avec également de légers pics au début du XXème siècle (popularité dans le sillage des travaux de Britton & Rose ?) puis une décrue de l’utilisation jusqu’à nos jours.

 

Echinocactus : apparemment c’est le genre de cactées qui a été le plus cité dans la littérature après Cereus et Opuntia, du moins jusqu’au début du XXème siècle, avec un gros pic d’utilisation autours des années 1910, puis une décrue et une stagnation de son utilisation jusqu’à nos jours. Encore une fois on peut supposer un regain de popularité dans le sillage des travaux de Britton et Rose au début du XXème siècle. Le terme apparait dans les textes au début des années 1800 (la création du genre remonte à 1827), de manière assez similaire à Mammillaria.

 

G Mammillaria Echinocereus Echinocactus

 

Mammillaria et Echinocereus suivent des courbes assez parallèles à partir d’un fort pic de popularité dans les années 1930 (Britton & Rose ?), avec par la suite une stagnation de leur utilisation jusqu’à nos jours, cependant à un niveau qui reste assez haut. Cependant le terme Mammillaria est d’utilisation beaucoup plus ancienne et plus fréquente, puisqu’on le voit régulièrement dés le début du XIXème siècle (ce qui est en accord avec la date de création du genre en 1812 par Haworth), alors que Echinocereus n’est vraiment utilisé qu’à partir de la fin du XIXème siècle (la création du genre date de 1848).

 

G Mammillaria Echinopsis Melocactus

 

Melocactus : nom de genre le plus anciennement utilisé dans la littérature avec Cereus et Opuntia. Genre de cactus initialement créé en 1701 par Tournefort (et qui signifie « cactus melon ») mais dans un sens beaucoup plus large que celui défini actuellement. Cependant la plante a du faire son apparition en Europe juste après la découverte de l’Amérique et les premiers Melocactus ont été décrits et illustrés à la renaissance. Si le genre a été très populaire dans les textes dés le début du XIXème siècle, sa popularité a ensuite subit une lente et légère érosion jusqu’à nos jours.

 

G Echinopsis Lobivia

 

Echinopsis  et Lobivia : Les 2 termes apparaissent sur le graphe en 1851 (le genre Echinopsis est défini en 1837), mais Lobivia subit une éclipse totale jusqu’en 1931 (le genre est défini en 1922 par Britton & Rose) alors que le terme Echinopsis est largement utilisé dans les textes et culmine au milieu de XXème siècle. Sans surprise, le terme Echinopsis, qui regroupe les 2 genres depuis 2006, a pris le pas sur le terme Lobivia depuis quelques décennies. Sa popularité ne dépasse cependant jamais celle du genre Mammillaria.

 

G Ferocactus Rebutia

 

Ferocactus et Rebutia : même si les 2 termes ont une période d’apparition quasi identique dans les textes : vers 1920 pour Ferocactus (Le genre Ferocactus a été crée par Britton & Rose en 1922 dans leur ouvrage " The cactaceae") et 1930 pour Rebutia (cependant le genre avait été crée en 1895), leur utilisation suit des courbes très différentes. Ferocactus est immédiatement très utilisé puis voit son utilisation stagner à partir des années 1950. Au contraire, Rebutia stagne avant d’atteindre un pic important d’utilisation vers les années 1960 - 70 suivi par une forte baisse de son utilisation, très en dessous de Ferocactus.

 

G Ariocarpus Astrophytum

 

Ariocarpus et Astrophytum : 2 cactus mexicains pour lesquels la fréquence et la période d’utilisation des termes sont totalement similaires dans les textes. Si les 2 termes font de rares apparitions à partir de la moitié du XIXème siècle (les genres datent respectivement de 1838 et 1839), ce n’est qu’à partir de la fin des années 1920 que leur utilisation explose (encore une fois un effet Britton & Rose ?), suivie d’une légère décrue de leur utilisation jusqu’à nos jours, plus marquée pour Astrophytum. Leur utilisation globale est cependant environ 2 à 10 fois inférieure à celle des précédents genres cités.

 

G Astrophytum Gymnocalycium Copiapoa

 

Gymnocalycium et Copiapoa : 2 genres qui apparaissent dans les textes à peu près à la même époque, un peu avant 1920 pour Gymnocalycium  et vers 1930 pour Copiapoa, ce qui correspond à la date de définition du genre Copiapoa par Britton & Rose en 1922, mais par contre très tardivement après la définition du genre Gymnocalycium en 1844. Ces 2 genres restent beaucoup moins populaires que les genres précédents (ici une comparaison avec Astrophytum), particulièrement pour Copiapoa, qui voit cependant sa fréquence d’utilisation augmenter depuis les années 1970 et rejoint celle de Astrophytum qui a bien baissé. Le terme Gymnocalycium est un peu plus populaire, avec un pic vers le milieu du XXème siècle, mais son utilisation a baissé.

 

G Cleistocactus Epithelantha

 

Cleistocactus et Epithelantha : une apparition similaire des termes vers les années 1920 (ce qui correspond à la date de définition du genre Epithelantha par Britton & Rose en 1922, mais par contre assez tardivement après la définition du genre Cleistocactus en 1861). L’apparition est suivie d’une lente décrue pour Epithelantha, et également pour Cleitocactus, mais avec cependant un pic d’utilisation vers le milieu du XXème siècle pour ce dernier, puis une petite remontée des 2 genres depuis les années 1990.

 

G Sclerocactus Myrtillocactus

 

Myrtillocactus et Sclerocactus : on voit une apparition du terme Myrtillocactus dans les années 1900, et une soudaine apparition sous forme d’un gros pic pour Sclerocactus au niveau des années 1930, toutes les 2 en bonne corrélation avec les définitions des genres respectivement en 1897 et 1922. Si l’utilisation de Myrtillocactus augmente jusqu’au milieu du XXème siècle, l’utilisation des 2 termes stagne à un niveau relativement bas depuis de nombreuses décennies.

 

Quelques recherches sur les cactées épiphytes, qui donnent parfois des résultats intéressants et surprenants :

 

G Rhipsalis Epiphyllum

 

Rhipsalis et Epiphyllum : les graphes montrent que ce sont 2 genres de cactées très populaires et qui, de manière assez similaire, sont très largement retrouvés dans les textes, beaucoup plus que les noms de genres de nombreuses cactées globulaires ou colonnaires. Le genre Rhipsalis est très ancien puisqu’il remonte à 1788 et le genre Epiphyllum a été défini en 1812. De plus, depuis le début du XIXème siècle, leur utilisation est restée quasi stable sur environ 1 siècle et demi, ce qui est énorme. Le terme Epiphyllum a connu un fort pic d’utilisation au milieu du XXème siècle puis les 2 termes ont vu leur utilisation légèrement décroitre et stagner jusqu’à nos jours.

 

G Aporocactus Selenicereus Hylocereus

 

Aporocactus, Selenicereus et Hylocereus : pour ces 3 genres épiphytes et grimpants, les graphes montrent pour les 3 termes une évolution de leur utilisation quasi similaire et superposable, avec cependant des fréquences différentes. Comme Rhipsalis et Epiphyllum, ils sont tous les 3 très populaires et très utilisés.

Hylocereus, genre défini en 1902,  montre un pic ponctuel en 1851 (non visible ici sur le graphe) et regroupe des espèces qui ont été décrites dés le début du XIXème siècle. Selenicereus, genre cité par Britton & Rose en 1905 mais décrit en 1909, voit son utilisation exploser comme Aporocactus et Hylocereus un peu avant les années 1920, ce qui est en accord avec la chronologie des genres. Selenicereus reste le plus cité. La fréquence d’utilisation de tous les genres décroit fortement au même moment dans les années 1960, puis ils restent d’une utilisation stable, sauf Aporocactus qui devient peu utilisé.

 

G Zygocactus Schlumbergera

 

Zygocactus / Schlumbergera : le terme Zygocactus, le fameux cactus des grand-mères, est visible dans les textes ponctuellement en 1851 (non visible ici sur le graphe, et sans doute à rapprocher de l’apparition ponctuelle d’autres genres exactement à la même date), mais le genre n’a été défini qu’en 1890. Zygocactus est plus ancien et a été beaucoup plus utilisé que le terme Schlumbergera qui regroupe depuis 1953 des plantes anciennement désignées par Zygocactus. Ces 2 termes, qui apparaissent massivement dans les textes dans les années 1920, permettent de faire la différence entre l’exploitation des données brutes et les tendances historiques :

Une recherche avec le nom de genre Schlumbergera année par année montre l’apparition du nom dans la littérature à partir de 1920 (le genre a été défini en 1858), avec des pics ponctuels sur certains années qui semblent montrer une décrut globale de l’utilisation du terme si on se base sur la hauteur des pics. Mais c’est une illusion : un lissage sur 3 ans montre que la tendance est une augmentation de l’utilisation du terme Schlumbergera depuis 1920, du fait que le terme est utilisé plus régulièrement au cours du temps.

Inversement le terme Zygocactus, qui a aussi été largement utilisé depuis 1920 environ, a connu un pic d’utilisation vers 1950 puis a vu son utilisation fortement  décroitre depuis cette période. C’est le nom de genre Schlumbergera qui a pris le dessus sur le terme Zygocactus depuis cette période.

 

G Aporocactus Disocactus

 

Aporocactus / Disocactus : comme avec les 2 termes précédents, le genre Disocactus (genre défini en 1845) a maintenant absorbé le genre Aporocactus (genre défini en 1860), et une espèce (Disocactus flagelliformis) a été largement cultivée par les particuliers, depuis assez longtemps. Si l’utilisation du terme Disocactus dans les textes est ancienne et remonte à la fin du XIXème siècle, le terme Aporocactus, nom de genre par lequel on a longuement désigné les plantes cultivées par les particuliers, a été d’utilisation plus tardive mais aussi beaucoup plus massive.

 

Les cactus mythiques, voire mystiques :

 

G Saguaro Carnegiea

 

Saguaro : mot espagnol mexicain d’origine inconnu, il apparait ponctuellement en 1867 (non visible ici sur le graphe). Le graphe montre ensuite qu’il n’est vraiment visible dans les textes qu’à partir du début du XXème siècle. Il connait une popularité croissante, sans doute du fait du caractère mythique de la plante, associé aux paysages de western, et de l’essor du tourisme dans cette région. Sa popularité est actuellement très importante et égale presque celle du terme Opuntia.

Carnegiea : le genre Carnegiea, défini en 1908, est beaucoup moins connu. Si son utilisation dans les années 1920 est similaire à celle du terme saguaro, son utilisation décroit ensuite mais reste supérieure à celle de nombreux autres genres de cactées.

 

G Lophophora Peyote Peyotl


Peyote, terme qui vient du mexicain, lui-même tiré d’une langue autochtone. Il est entré dans les textes au milieu du XIXème siècle et a très fortement crut à partir du début du XXème siècle pour atteindre un pic d’utilisation dans les années 1970 (la période hippie et celle des expériences psychédéliques). Ce terme bat tout les records de popularité, plus que tous les genres et termes précédents, et presque autant que le terme cactus.

 

G Lophophora Peyotl

 

Lophophora, genre défini en 1894, et peyotl sont beaucoup moins utilisés que le terme précédent, bien que de manière plus importante que beaucoup de genres de cactées. Si on observe aussi une popularité maximale de Lophophora dans les années 1970, bizarrement le terme peyolt présente un pic de popularité environ 10 ans plus tôt, et donc en léger décalage avec le terme peyote.

 

 

Conclusion

De nombreux noms de genres de cactées semblent apparaitre dans la littérature suite à l’ouvrage de Britton & Rose de 1922, ou à leurs travaux des quelques années précédentes, qui ont installé un certain nombre de genres. Les popularités constatées ne sont pas toujours celles que l’on pourrait s’attendre à trouver. L’histoire des plantes a une grande importance sur leur popularité et des anciens genres très cultivés auparavant ont été très utilisés dans les textes, puis on vu leur popularité fortement baisser, alors qu’à l’inverse on voit émerger dans la littérature des genres qui étaient presque inconnus précédemment. La classification a évolué : il ne faut pas oublier que, suivant les époques, les noms ne se superposent pas forcément aux plantes qu’ils désignent actuellement.

De manière générale on observe un pic de popularité de nombreux genres au milieu du XXème siècle puis une décrue et une stabilisation de leur popularité depuis quelques décennies. Un point intéressant est que des noms de certains genres sont parfois cités bien avant leur création officielle en tant que genre de cactées, en particulier en 1851 ou de nombreux genres sont cités cette année là.

 

  ***

Annexe :

 

Site internet de création des courbes ngrams : http://ngrams.googlelabs.com/

 

● Site internet de la culturomique : http://www.culturomics.org/

 

Culturomique : nouvelle discipline définie par l’Université Harvard pour l’étude de tels corpus de textes. Le site contient des trucs et des explications des responsables de la base pour aider dans l’exploitation de la base de Google.

 

Les biais de la culturomique

De nombreux biais sont à éviter ou à connaitre lors des recherches statistiques ou historiques dans les bases de données culturelles, littéraires ou scientifiques. En voici quelques-uns :

 

La loi de Benford (ou loi des nombres anormaux) : le chiffre 1 est plus fréquemment utilisé que le chiffre 2, lui-même plus utilisé que le chiffre 3, lui-même plus utilisé que le chiffre 4, …etc. Et plus loin, par exemple : le chiffre 735 est plus utilisé que le chiffre 835, lui-même plus utilisé que le chiffre 935, …etc.

 

… et un de ses biais : les chiffres ronds sont plus fréquemment utilisés que les autres (par exemple 15 est plus utilisé que 14 ou 16, ou 150 est plus utilisé que 140 ou 160, etc).

 

La loi de Zipf (un biais linguistique) : globalement, dans un texte donné, la fréquence d'occurrence f(n) d'un mot est liée à son rang n dans l'ordre des fréquences des mots suivant une loi de la forme f(n) ≈ K/n, où K est une constante (par exemple : dans un texte donné si le mot le plus fréquent revient environ 8000 fois, le dixième mot le plus fréquent revient environ 800 fois, le centième revient environ 80 fois, etc).

 

Un biais historique : par exemple il existe une augmentation globale de l’utilisation de nombres de plus en plus élevés au cours des temps historiques (par exemple dix, cent, mille, million, milliard, etc).

 

Le biais de positivité : pour les couples de mots de sens positif / négatif (par exemple : bonheur / malheur, riche / pauvre, vivant / mort, etc.), les mots positifs sont plus fréquemment utilisés.

 

Les homonymies : L’existence d’homonymes ne permet pas de faire des recherches, sauf à utiliser des raffinements sophistiqués pour tenter de ségréger les termes (par exemple avec le terme Matucana, désignant à la fois une ville du Pérou et le genre de cactus qui pousse dans ses environs).

 

● Pour avoir la liste des genres actuels de cactées : la taxonomie des cactées 2006

Partager cet article

Repost 0

commentaires