Drôles de statistiques - Le blog-notes mathématique du coyote

jeudi 30 avril 2015

Les corrélations de l'absurde

Par Didier Müller, jeudi 30 avril 2015 à 22:27 - Drôles de statistiques

Ce n’est pas parce que deux courbes se ressemblent qu’il y a un lien entre elles.

Le coefficient de corrélation est un indice qui mesure la relation linéaire entre deux courbes statistiques. Ce coefficient de corrélation varie de -1 à +1. Un coefficient de corrélation de -1 indique une relation inversement proportionnelle entre deux courbes (quand l’une est au plus bas, l’autre est au plus haut). La valeur +1 au contraire indique une parfaite similitude entre deux variables. A zéro, il n’y a aucune corrélation entre les variables.
Un fort coefficient de corrélation n’établit pas un lien de cause à effet (ce n’est pas parce que A augmente que B augmente). Il peut exister un troisième paramètre reliant ces deux éléments. On observe par exemple que l’augmentation des ventes de lunettes de soleil suit l’évolution du nombre de coups de soleil. Mais ce n’est pas parce que vous portez des lunettes de soleil que vous attrapez un coup de soleil. C’est l’augmentation de l’ensoleillement en été qui explique l’allure de ces deux courbes. Autre exemple bien connu, celui du nombre de cigognes et du taux de natalité. Les deux diminuent en même temps et sont effectivement reliés, mais à un troisième facteur : l’urbanisation.
Mais la ressemblance entre deux courbes statistiques peut également relever de la pure coïncidence. A l’inverse, un coefficient de corrélation faible n’exclut pas que deux variables exercent une influence l’une sur l’autre.

Source : Courrier International

Voir la version allemande sur le journal Die Zeit (pdf)

lu 6250 fois

lundi 6 avril 2015

Le paradoxe de Simpson

Par Didier Müller, lundi 6 avril 2015 à 15:35 - Drôles de statistiques

lu 4702 fois

vendredi 3 avril 2015

Une étude statistique élémentaire de la distribution des caractères et des mots dans Salammbô

Par Didier Müller, vendredi 3 avril 2015 à 09:13 - Drôles de statistiques

Article de Pierre Nugues, Université de Lund

Le but de notre article est de présenter quelques analyses statistiques élémentaires portant sur les caractères et les mots d’un texte numérisé, ne serait-ce que pour en contrôler la qualité. À l’origine de tout texte écrit, on trouve, en effet, un code alphabétique et nous décrivons ici comment extraire les symboles de ce code, calculer leur distribution statistique, analyser leur dispersion à l’aide de l’entropie et enfin, appliquer cette entropie à la mesure de la distance entre deux textes. Nous complétons cette présentation par l’exposé d’une méthode pour identifier les associations de mots les plus fréquentes dans un texte.

Lire l'article sur le site du Centre Flaubert

lu 5049 fois

lun	mar	mer	jeu	ven	sam	dim
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Le blog-notes mathématique du coyote

Editorial

Les corrélations de l'absurde

Le paradoxe de Simpson

Une étude statistique élémentaire de la distribution des caractères et des mots dans Salammbô

Calendrier

Rechercher

Voir la table des matières

Catégories

Liens

Archives