Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

par **Valentin L.** Lun 24 Mar - 22:51

Voici le cours du 10/03
Version word : [Vous devez être inscrit et connecté pour voir ce lien]
Version pdf : [Vous devez être inscrit et connecté pour voir ce lien]

Bon courage !

par Inès.Belaïdi Ven 4 Avr - 16:24

Hola !
Est-ce que qqn sait s'il faut apprendre les exemples à la fin du poly ?
Merciiiiii Smile

par **Valentin L.** Ven 4 Avr - 20:11

Les exemples sont une aide pour mieux comprendre le cours mais ils ne sont pas à apprendre par coeur.

par Inès.Belaïdi Ven 4 Avr - 21:00

Niquel ! Merci bien Smile

par Anthony.Jaillat Lun 7 Avr - 13:24

Yo !

J'aurai 2 questions concernant le cours:

- Sur l'ACP, quand on dit qu'il y a autant d'équations que de variables, ça serait pas plutot 10 équations pour 10 variables au lieu de 10 équations à 10 variables ? pcq 10 variables dans chaque équation ça va pas permettre de faciliter le calcule ? Surtout que après dans les exemples sur l'ACP, la 2me fonction c'est "on peut réduire l’information de variabilité à 2 ou 3 variables"

- Et sur le compromis biais / variance.
Une fois il dit: "Mais on peut essayer de réduire la variance et pour cela, le système le plus simple, c’est d’augmenter la taille de l’échantillon" et "Quand on augmente la taille de l’échantillon, on réduit la variabilité jusqu’à un certain point où elle ne bouge plus"

Mais après dans l'explication en italique: "Si n augmente, alors ma variance augmente ce qui vient contrecarrer les bénéfices que j’ai eu en augmentant le nombre de mes paramètres (= variables). "
Il se contredit !

Help!

par **Valentin L.** Mar 8 Avr - 15:10

Salut !
Concernant ta première question sur l'ACP, il n' y a pas d'erreurs, on écrit bien autant d'équations qu'il y a de variables. Le but de ces équations est d'être le plus représentatives de ton ensemble de mesures (qui apparait sous la forme d'un nuage de points sur ton graphiques). Les équations sont donc de type y = ax1 + bx2 + ... + k10 + cste et vont à chaque fois représenter des droites qui vont passer par le plus de points possibles. Exemple : Si tu obtiens un ensemble de mesures qui sur le graphe, l'équation de ta première droite va être celle qui va passer par admettons 10 points, la deuxième équation passera par peut être 7 points, la troisième par 5, etc. Au final tu vas simplifier tes équations en ne prenant que les plus représentatives (celles qui passent par le plus de points) pour créer un nouveau modèle plus simple et plus fiable.
Pour ta deuxième question, tu as raison il y a une contradiction, je replanche dessus et je refais une analyse.

par **Valentin L.** Mar 8 Avr - 15:41

Okay, j'ai refait un résumé, désolé de l'erreur, moi aussi j'ai eu du mal à comprendre ce cours.
Pour résumer, ce que je veux, c'est un modèle pertinent et pour que ce modèle soit pertinent, il lui faut beaucoup de paramètres (= variables). J'augmente donc mon nombre de variables ce qui va augmenter mon biais (= imprécision) mais ce qui va aussi stabiliser ma variance (= variabilité = dispersion) donc j'aurais moins de résultats aberrants.
Cependant, pour que mes variables soient fiables, il me faut 10 individus/ variable. Donc j'augmente la taille de mon échantillon.
Si n augmente, alors ma variance diminue jusqu'à un certain point où elle ne bouge plus. Or, on sait que si la variance diminue, alors le biais augmente (et vice-versa), et là, ma variance ne bouge plus (palier) alors que mon biais continue d'augmenter ce qui accentue l'inconvénient que j'ai quand j'augmente mon nombre de variables au début (car je veux un modèle pertinent). Si mon biais est trop grand, je dois le diminuer et pour diminuer mon biais, je dois diminuer mon nombre de variables (au risque de rendre le modèle moins pertinent mais plus fiable). C'est mon nombre de variables qui m'a poussé à augmenter la taille de mon échantillon, je n'ai plus besoin d'avoir un échantillon aussi grand* ce qui va augmenter ma variance. Je suis donc pris dans un cercle vicieux où le seul moyen de m'en sortir sera de trouver un bon nombre d'individus pour un bon nombre de variables => Compromis biais-variance.
*Alors oui, la solution serait d'avoir directement un grand échantillon pour peu de variables mais dans la pratique, c'est impossible, les malades sont tous différents, il n'y en a pas assez de similaires dans les hopitaux, si ils ne sont pas similaires, la variance augmente et ce n'est pas bon pour mon modèle + trop long, trop cher, c'est le principe même des statistiques, on ne peut pas étudier directement une population donc on étudie un échantillon.

par Anthony.Jaillat Mer 9 Avr - 12:47

Merci val pour ton explication like a boss ! J'ai tout compris !

par Hanquiez Ven 11 Avr - 1:54

J'ai un peu planché la dessus à l'instant et il a une couille dans le pâté !

Le cours s'emmêle les pinceaux mais en relisant + correction colles de l'année dernière + internet j'en arrive à cette conclusion (très synthétique) :

Déjà un exemple parlant, juste pour expliquer que le biais diminuerais avec un nombre de variables croissant :

Différenciation Hommes/femmes :

- uniquement sur la taille (peu de variables)
Biais fort (hommes petits et femmes grandes)
Variance faible ( on a juste a fixé un seuil, on a ceux au dessus et ceux en dessous)

- Sur taille, longueur cheveux, poids, timbre de la voix, pilosité
Biais faible car en prenant tous ces paramètres on a de grandes chances de se rapprocher de la réalité
Variance Forte car bcp de mesures etc

Donc, en faisant le parallèle avec le cours :

- Si j'augmente mes variables --> Le biais diminue (car on représente mieux la complexité, la différence trouvée dans la population, ça me parait logique et j'ai vu ça à plusieurs reprises ...sauf dans le cours)
- Si j'augmente n --> ma variance Diminue (ca on l'a vu je ne sais combien de fois en p1)

Si je veux en effet un modèle précis, reflétant au mieux la complexité de la réalité, je prend donc bcp de variables --> bais faible. Mais j'ai du coup une forte variance, du fait de ces nombreuses variables, avec des individus très dispersés et beaucoup de résultats aberrants.

En revanche, Si je veux diminuer ces valeurs aberrantes et regrouper mes individus, je prend moins de variables, ma variance va diminuer, mais mon biais augmente puisque je ne prend pas assez de caractéristiques concernant mon individu.

C'est en cela qu'une augmentation de paramètres "contrecarre" avec une augmentation de taille de l'échantillon --> si je prend un biais faible avec beaucoup de variables et une forte variance, pour que ces variables soit fiables, je dois augmenter n, or n augmentant, ma variance diminue, et une variance qui diminue implique un biais qui augmente !

Ca me parait plus logique en tout cas concernant le biais .. et comme je connais la faculté de M. Forzy à s'embrouiller .. enfin vous me direz si ça vous parait plus cohérent aussi.

par Anthony.Jaillat Ven 11 Avr - 9:52

C'est vrai que sur internet ils mettent tous que quand on augmente les variables, le biais diminue mais la variance augmente. Le contraire de ce que dit Mr Forzy.
Le pb est qu'il a dit la même chose l'année dernière du coup à mon avis POUR L'EXAM il faut retenir sa version..

par Hanquiez Ven 11 Avr - 10:10

Ben justement c'est ça qui m'a fait rechercher : dans la correction de colle de l'an dernier ils disent que le biais diminue avec l'augmentation de variables et que c'est ce que forzy a écrit mot pour mot dans le cours .. Bon ils disent aussi que Forzy a dit de la correction que "le compromis biais/variable n'est pas très bien compris" donc je sais pas.

j'ai plus son bouquin, il en parle dedans ?

par Hanquiez Ven 11 Avr - 10:21

Mais enfin pour moi, entre "pas très bien compris" et "le biais est l'inverse de ce que vous dites dans le correction" y'a une large différence ! Donc a mon avis l'année dernière il a dis comme internet, mais après j'ai pas son cours de l'an dernier ..

par **Marine.Dekervel** Ven 11 Avr - 10:25

Cours de l'an dernier : [Vous devez être inscrit et connecté pour voir ce lien]

par **Marine.Dekervel** Ven 11 Avr - 10:27

Apparemment l'an dernier il disait effectivement que le biais diminuait quand on augmentait le nombre de variables, ce qui paraît plus logique...

par Hanquiez Ven 11 Avr - 10:28

Cooool et merci M. Forzy ! j'aurais préféré avoir tord, nous voilà bien !

par Hanquiez Ven 11 Avr - 10:52

Bon je sais pas ce qu'il s'est passé, mais dans le cours de l'année dernière pour moi il n'y a rien à redire contrairement à celui de cette année. Perso j'opte pour le plus logique !

par Anthony.Jaillat Ven 11 Avr - 11:05

autant pour moi j'avais mal lu

par Anthony.Jaillat Ven 11 Avr - 11:13

Oui pareil, a mon avis il faut se référer à ton explication paul ..

par martin.wallaert Dim 13 Avr - 14:16

Il y a une autre truc que je comprends pas :

lorsqu'on augmente la taille d l'échantillon, la variance diminue, car les valeurs obtenues sont beaucoup plus centrées sur la vraie valeur (de la population).
Mais cela veut dire aussi que le biais diminue : plus on augmente n, plus l'échantillon se rapproche de la population et plus l'écart entre l'échantillon et la réalité (donc le biais) diminue...

Si qqun saurait m'expliquer en quoi ce que je viens de dire est faux et en quoi lorsqu'on augmente n la variance augmente et le biais diminue, ce serait cool !

par **Marine.Dekervel** Dim 13 Avr - 23:03

Pour moi (c'est ma réflexion, c'est ptete faux mais bon...)

- Quand tu augmentes le nombre de variables, tu diminues le biais (puisque tu as plus de précision, tu représentes plus la complexité de ton échantillon) mais tu augmentes la variance (plus de caractéristiques pour chaque individu = plus de dispersion des valeurs).

Vu que niveau pertinence il nous faut minimum 10 personnes pour une variable, si tu augmentes le nombre de variables tu dois augmenter la taille de l'échantillon.
Si tu augmentes n tu diminues la variance mais tu augmentes le biais.

Donc tu te retrouves dans un cercle vicieux patati patata...
D'où le fait qu'il faut choisir le bon nombre de variables pour le bon nombre de personnes.

par Pierre.collart Lun 14 Avr - 0:49

Jsais pas si tu auras le temps de voir ça d'ici demain je m'y prends un peu tard ds mes révisions! Pour moi le biais résulte directement du fait que tu ne peux pas prendre en compte la complexité de ta population car tu ne peux pas prendre toutes les variables qui vont intervenir dans ton test (certaines dont tu ne sais sûrement pas qu'elles entrent en jeu).
Du coup admettons si tu fais tn test en prenant en compte uniquement quelques variables ciblées tu vas avoir un modèle qui va forcément différer de la population et donc une droite un peu différente de la réalité. Si tu augmentes trop la taille de tn échantillon pr avoir moins de variabilité tu risques alors d'aller carrément ds l'erreur (puisque tu ne prends en compte que certaines variables (et donc que certains aspects) de ta population,ce qui était compensé auparavant par la variabilité (la marge que tu laissais autour de la droite). Le biais va donc augmenter si tu prends un plus grd échantillon.
Enfin c'est comme ça que je le comprends ^^!

par Contenu sponsorisé

Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)

Re: Cours n°5 - Principes de la modélisation statistique (cours du 10/03)