Article de Pierre Nugues, Université de Lund

Le but de notre article est de présenter quelques analyses statistiques élémentaires portant sur les caractères et les mots d’un texte numérisé, ne serait-ce que pour en contrôler la qualité. À l’origine de tout texte écrit, on trouve, en effet, un code alphabétique et nous décrivons ici comment extraire les symboles de ce code, calculer leur distribution statistique, analyser leur dispersion à l’aide de l’entropie et enfin, appliquer cette entropie à la mesure de la distance entre deux textes. Nous complétons cette présentation par l’exposé d’une méthode pour identifier les associations de mots les plus fréquentes dans un texte.

Lire l'article sur le site du Centre Flaubert