Ce tutoriel sur les statistiques est un guide dont l'objectif est de vous aider à comprendre les concepts clés des statistiques et comment ces concepts se rattachent à la méthode scientifique et à la recherche.
Les scientifiques utilisent fréquemment les statistiques pour analyser leurs résultats. Pourquoi les chercheurs utilisent des statistiques? Les statistiques peuvent aider à comprendre un phénomène en confirmant ou en rejetant une hypothèse. Elles sont essentielles pour acquérir des connaissances dans la plupart des théories scientifiques.
Cependant, nul besoin d'être un scientifique; tous ceux qui souhaitent apprendre de quelle façon les statistiques peuvent aider les chercheurs peuvent lire ce tutoriel sur les statistiques pour la méthode scientifique.
Cette section du tutoriel explique comment les données sont acquises et utilisées.
Les résultats d'une enquête scientifique contiennent souvent plus d'informations que ce dont le chercheur a besoin. Ces informations ou données sont appelées données brutes.
Pour être en mesure d'analyser les données judicieusement, les données brutes sont traitées en "données de sortie". Il existe de nombreuses méthodes pour traiter les données mais essentiellement, le scientifique organise et résume les données brutes dans un bloc pour plus de clarté. Tout type d'information organisée peut être appelé "ensemble de données".
Ensuite, les chercheurs peuvent appliquer diverses méthodes statistiques pour analyser et comprendre les données plus facilement et plus précisément. En fonction de la recherche, le chercheur peut aussi vouloir utiliser des statistiques descriptives comme dans la recherche exploratoire.
Ce qui est formidable avec les données brutes, c'est que vous pouvez revenir en arrière et vérifier certaines choses si vous soupçonnez que quelque chose se produit différemment de ce que vous aviez prévu. On fait cela après avoir analysé la signification des résultats.
Comme vous voyez plus clairement ce qui se passe, les données brutes peuvent vous inspirer pour de nouvelles hypothèses. Vous pouvez aussi contrôler les variables qui pourraient influencer la conclusion (par exemple les variables tierces). Dans les statistiques, un paramètre est toute valeur numérique caractérisant une population donnée ou un de ses aspects.
Cette partie du tutoriel vous aidera à comprendre la distribution, la tendance centrale et comment elles se rapportent aux ensembles de données.
La plus grande part des données du monde réel sont distribuées normalement. La distribution normale est une courbe de totaux ou une distribution des fréquences dans laquelle le nombre le plus fréquent se situe près du milieu. De nombreuses expériences se basent sur des conjectures d'une distribution normale. C'est une raison pour laquelle les chercheurs mesurent très souvent la tendance centrale dans la recherche statistique, comme la moyenne (moyenne arithmétique ou moyenne géométrique), la médiane ou le mode.
La tendance centrale peut donner une assez bonne idée de la nature des données (la moyenne, la médiane et le mode affichent la "valeur moyenne"), en particulier lorsqu'elle est combinée avec une mesure de la distribution des données. Pour mesurer cette distribution, les scientifiques calculent l'écart type; mais Il existe d'autres méthodes: la variance, l'erreur type de la moyenne, l'erreur type de l'estimation ou la "plage" (qui indique les extrèmes dans les données).
Pour créer le graphique de la distribution normale de quelque chose, vous utiliserez normalement la moyenne arithmétique d'un "échantillon suffisament grand" et vous devrez calculer l'écart type.
Cependant, la distribution de l'échantillonnage ne sera pas distribuée normalement si la distribution est décalée (naturellement) ou a des valeurs isolées (résultats le plus souvent rares ou erreurs de mesure) qui faussent les données. La distribution-F est un exemple de distribution qui n'est pas distribuée normalement; elle est décalée vers la droite.
Ainsi, les chercheurs revérifient souvent que leurs résultats sont distribués normalement en utilisant la plage, la médiane et le mode. Si la distribution n'est pas distribuée normalement, cela influencera le choix de la méthode ou du test statistique pour l'analyse.
Comment savons-nous si une hypothèse est correcte ou non?
Pourquoi utiliser les statistiques pour déterminer cela?
Utiliser des statistiques dans la recherche comporte beaucoup plus que l'utilisation de formules statistiques ou que la familiarisation avec un logiciel de statistiques.
Utiliser des statistiques dans la recherche implique essentiellement
Les statistiques ne sont pas que des formules et des calculs. (Beaucoup de fausses déductions ont été formulées à cause d'une mauvaise compréhension des concepts statistiques de base)
L'inférence statistique nous aide à tirer des conclusions à partir d'échantillons d'une population.
Quand on mène des expériences, un élément essentiel est de tester les hypothèses les unes contre les autres. C'est pourquoi cela constitue une part considérable du tutoriel.
On teste des hypothèses en formulant une hypothèse alternative qui est testée contre l'hypothèse nulle, le point de vue commun. Les hypothèses sont testées statistiquement les unes contre les autres.
Le chercheur peut calculer un intervalle de confiance qui définit les limites quand vous considérerez qu'un résultat soutient l'hypothèse nulle et quand l'hypothèse de recherche alternative est soutenue.
Cela signifie que les différences entre le groupe expérimental et le groupe témoin ne peuvent pas toutes être acceptées comme soutenant l'hypothèse alternative - le résultat doit varier statistiquement de manière significative pour que le chercheur accepte l'hypothèse alternative. On fait cela en utilisant un test de signification (un autre article).
Attention cependant, le dragage, l'espionnage ou la recherche passive des données sans test ultérieur de votre hypothèse dans une expérience contrôlée peut vous amener à trancher à propos de la causalité même s'il n'y a aucun lien avec la vérité.
Selon l'hypothèse, vous devrez choisir entre les tests unilatéraux et bilatéraux.
Parfois, le groupe témoin est remplacé par une probabilité expérimentale, c'est souvent le cas si la recherche traite un phénomène qui pose un problème d'éthique, qui est trop coûteux ou qui prend trop de temps; alors le modèle expérimental véritable est remplacé par une approche quasi-expérimentale.
Souvent, il y a un biais de publication lorsque le chercheur confirme que l'hypothèse alternative est correcte au lieu d'obtenir un "résultat nul", en concluant que l'hypothèse nulle fournit la meilleure explication.
Si elles sont appliquées correctement, les statistiques peuvent être utilisées pour comprendre la causalité entre les variables de recherche.
Elles peuvent aider à identifier les variables tierces, et aussi à les manipuler et à les dissimuler si la personne qui présente les chiffres n'a pas des intentions honnêtes (ou un savoir suffisant) vis-à-vis de ses résultats.
La mauvaise utilisation des statistiques est un phénomène courant qui perdurera probablement tant que les gens ont l'intention d'influencer les autres. Un bon traitement statistique des données expérimentales peut ainsi permettre d'éviter une utilisation des statistiques contraire à l'éthique. La philosophie des statistiques implique de rendre des comptes quand à la bonne utilisation des statistiques, sur la validité statistique et l'éthique dans les statistiques.
Voici un autre tutoriel sur les statistiques de qualité qui intègre les statistiques et la méthode scientifique.
Les tests statistiques utilisent des données provenant d'échantillons. Ces résultats sont ensuite généralisés à la population globale. Comment pouvons-nous savoir si ils reflètent la bonne conclusion?
Contrairement à ce que certains pourraient croire, les erreurs dans la recherche sont une part essentielle du test de signification. Ironiquement, la possibilité d'une erreur est ce qui fait que la recherche est scientifique en premier lieu. Si une hypothèse ne peut pas être falsifiée (par exemple, l'hypothèse a une logique circulaire), elle n'est pas testable et donc non scientifique, par définition.
Si une hypothèse est testable, Soyez ouverts à la possibilité qu'elle se révèle fausse. Statistiquement, cela offre la possibilité d'obtenir des erreurs expérimentales dans vos résultats à cause d'erreurs aléatoires ou d'autres problèmes avec la recherche. Les erreurs expérimentales peuvent également être décomposées en erreurs de type I et erreurs de type II. Les courbes ROC sont utilisées pour calculer la sensibilité entre les vrais positifs et les faux positifs.
Une analyse de la puissance d'un test statistique peut déterminer le nombre d'échantillons dont un test aura besoin pour avoir une valeur-p acceptable afin de rejeter une hypothèse nulle fausse.
La marge d'erreur est liée à l'intervalle de confiance et à la relation entre la signification statistique, la taille des échantillons et les résultats attendus. L'ampleur de l'effet estime l'intensité de la relation entre deux variables dans une population. Il peut aider à déterminer la taille de l'échantillon nécessaire pour généraliser les résultats à l'ensemble de la population.
Reproduire la recherche des autres est également essentiel pour savoir si les résultats peuvent être généralisés ou si ils sont simplement le produit d'une expérience isolée et aléatoire. La réplication peut aider à repérer les erreurs aléatoires et les erreurs systématiques (validité du test).
Le coefficient alpha de Cronbach est utilisé pour mesurer la cohérence interne ou la fiabilité du score d'un test.
Reproduire l'expérience ou la recherche garantit la fiabilité des résultats statistiquement.
Si les résultats ont des valeurs isolées, on observe souvent une régression vers la moyenne, ce qui fait que le résultat n'est pas statistiquement différent entre le groupe expérimental et le groupe témoin.
Ici, nous allons introduire quelques tests et méthodes statistiques utilisés couramment par les chercheurs.
La relation entre les variables est très importante pour les scientifiques. Elle les aide à comprendre la nature de ce qu'ils étudient. Une relation linéaire se produit lorsque deux variables varient proportionnellement, c'est à dire que si une variable augmente, l'autre variable augmentera avec le même ratio. Une relation non linéaire se produit lorsque les variables ne varient pas proportionnellement. La corrélation est un moyen d'exprimer la relation entre deux ensembles de données ou entre deux variables.
Les échelles de mesure sont utilisées pour classer, catégoriser et (le cas échéant) quantifier les variables.
Le coefficient de corrélation de Pearson (ou corrélation produit-moment de Pearson) exprimera uniquement la relation linéaire entre deux variables. Le coefficient de corrélation des rangs de Spearman est surtout utilisé pour les relations linéaires quand on travaille avec des variables ordinales. Le coefficient de Kendall tau (τ) peut être utilisé pour mesurer les relations non linéaires.
La corrélation partielle (et la corrélation multiple) peut être utilisée pour le contrôle d'une variable tierce.
L'objectif des prévisions est de comprendre les causes. Corrélation ne signifie pas nécessairement causalité. Avec la régression linéaire, on mesure souvent une variable manipulée.
Quelle est la différence entre corrélation et régression linéaire? Essentiellement, une étude corrélationnelle observe les interactions entre les variables tandis qu'une régression linéaire s'intéresse à la ligne la mieux ajustée dans un graphique.
Analyse régressive et autres outils de modélisation
La probabilité bayésienne prédit la vraisemblance d'événements futurs interactivement, en alternative à la procédure classique.
Le test-t de l'étudiant peut indiquer si l'hypothèse nulle est correcte ou non. Dans la recherche, il est souvent utilisé pour tester les différences entre deux groupes (par exemple, entre un groupe témoin et un groupe expérimental).
Le t-test suppose que les données sont à peu près distribuées normalement et que la variance est égale (ceci peut être testé par le test-F).
Le test du rang signé de Wilcoxon peut être utilisé pour les données non paramétriques.
Un Test-Z est semblable à un test-t mais ne sera généralement pas utilisé sur des échantillons d'une taille inférieure à 30.
Un carré-chi peut être utilisé si les données sont qualitatives plutôt que quantitatives.
Une analyse de la variance est utilisée quand on souhaite tester s'il existe des variations différentes entre les groupes plutôt que des possibilités différentes. L'analyse de la variance peut également être appliquée sur plus de deux groupes. La distribution-F peut être utilisée pour calculer les valeurs-p dans l'analyse de la variance.
Analyse de la variance
Quelques méthodes courantes utilisant les statistiques non paramétriques:
Check out our quiz-page with tests about:
Explorable.com (Feb 13, 2008). Tutoriel sur les statistiques. Retrieved Sep 12, 2024 from Explorable.com: https://explorable.com/fr/tutoriel-sur-les-statistiques
The text in this article is licensed under the Creative Commons-License Attribution 4.0 International (CC BY 4.0).
This means you're free to copy, share and adapt any parts (or all) of the text in the article, as long as you give appropriate credit and provide a link/reference to this page.
That is it. You don't need our permission to copy the article; just include a link/reference back to this page. You can use it freely (with some kind of link), and we're also okay with people reprinting in publications like books, blogs, newsletters, course-material, papers, wikipedia and presentations (with clear attribution).