vendredi 3 avril 2015
Une étude statistique élémentaire de la distribution des caractères et des mots dans Salammbô
Par Didier Müller, vendredi 3 avril 2015 à 09:13 - Drôles de statistiques
Article de Pierre Nugues, Université de Lund
Le but de notre article est de présenter quelques analyses statistiques élémentaires portant sur les caractères et les mots d’un texte numérisé, ne serait-ce que pour en contrôler la qualité. À l’origine de tout texte écrit, on trouve, en effet, un code alphabétique et nous décrivons ici comment extraire les symboles de ce code, calculer leur distribution statistique, analyser leur dispersion à l’aide de l’entropie et enfin, appliquer cette entropie à la mesure de la distance entre deux textes. Nous complétons cette présentation par l’exposé d’une méthode pour identifier les associations de mots les plus fréquentes dans un texte.
Lire l'article sur le site du Centre Flaubert
lu 4228 fois