1
INFERENZA con STATAINDICE
Dice-Rolling simulation
La Distribuzione Normale
Test per il confronto tra medie
Test per una media
Intervallo di confidenza per una media
Test per il confronto delle varianze
Test per una proporzione
Dice-Rolling simulation - 1
Per scaricare questo programma all´interno di Stata
dicitare:
. net from http://www.ats.ucla.edu/stat/stata/ado/teach
. net install dice
Lo scopo di questo programma è simulare il lancio del
dado per osservare l´effetto sulla distribuzione della
frequenza. Questo programma è utile per illustrare che
al crescere dei lanci, la distribuzione diventa una
distribuzione Normale.
2
Dice-Rolling simulation - 2
Dopo aver installato dice, per usare questo programma
dicitare
. dice
Questo comando apre una finestra di dialogo in cui è
possibile selezionare il numero di lanci del dado, il
numero di dadi lanciati e il numero di lati che il dado
possiede.
Dice-Rolling simulation - 3
Per default, il programma lancia due dadi con 6 lati 100
volte.
Quando si esegue il comando, viene aperta una finestra
di grafici, mostrando un istogramma della frequenza
relativa dei risultati.
Si può regolare l´animazione, selezionando animate
dice rolls with delay= Più è alto il numero, più
lenta è l´animazione.
Dice-Rolling simulation - Esempi
3
Dice-Rolling simulation - Esempi
Dice-Rolling simulation - Esempi
Dice-Rolling simulation - Esempi
4
Mean point simulation - 1
Per scaricare questo programma all´interno di Stata
dicitare:
. net from http://www.ats.ucla.edu/stat/stata/ado/teach
. net install meanpt
Lo scopo di questo programma è mostrare quanto il
cambiamento di un valore possa influenzare le varie
statistiche descrittive che descrivono il campione.
Questo programma può essere usato per illustrare che
alcune statistiche descrittive, come la media e la
deviazione standard, cambiano al cambiare di un valore.
D´altra parte, statistiche descrittive come la mediana, il
minimo r il massimo possono o non possono cambiare
per cambiamenti di un solo valore.
Dopo aver installato meanpt, per usare questo
programma dicitare
. meanpt
Mean point simulation - 2
Nel programma non ci sono opzioni disponibili. Ci sono
26 punti nel campione, uno dei quali può essere
spostato cliccando sul pulsante “x+1” oppure su “x-1”.
La linea verticale indica la media della distribuzione.
Il valore del “moving point” (indicato con mp) è fornito
assieme alla media, alla deviazione standard, al minimo
e al massimo. Il punto mp è posto in un box rosso.
Si può estrarre anche un nuovo campione.
Mean point simulation - 3
5
Mean point simulation - Esempi
Mean point simulation - Esempi
La distribuzione Normale - 1
Una superficie sotto una curva di densità
rappresenta una proporzione di osservazioni in una
distribuzione.
Calcolando l´area sotto la curva e compresa in un
dato intervallo, possiamo determinare la proporzione
di osservazioni che cade in quell´intervallo.
Dato che tutte le distribuzioni Normali sono identiche
una volta standardizzate, è possibile trovare le aree
al di sotto di qualsiasi curva Normale partendo da
una singola tavola che riporti le aree al di sotto della
curva per la distribuzione Normale standard.
6
La distribuzione Normale - 2
ESEMPIO.
Le altezze delle donne di età compresa fra i 20 e i 29 anni, sono
approssimativamente normali con media pari a 163 centimetri e
deviazione standard di 6.9 cm. Qual è la proporzione delle donne alte
meno di 178 centimetri? Questa proporzione è la superficie al di sotto
della curva N(163, 6.9) a sinistra del punto 178. Dato che l´altezza
standardizzata corrispondente a 178 centimetri è
L´area che vogliamo cercare è pari all´area al di sotto della curva
Normale standard ed a sinistra del punto =2.17.
2.17
6.9
178 163
x
z
Il comando ztable
Areas between 0 & Z of the Standard Normal Distribution
.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.10 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.20 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.30 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.40 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.50 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.60 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.70 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.80 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.90 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.00 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.10 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.20 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.30 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.40 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.50 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.60 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.70 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.80 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.90 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.00 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.10 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.20 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.30 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.40 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.50 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
Area=0.4850+0.50=
0.9850
Intervallo di confidenza per la media - 1
Il comando ci si utilizza per calcolare l’intervallo di confidenza.
ci [varlist] [weight][if exp] [in range]
[, level(#) binomial poisson exposure(varname)
total]
Normale:
cii #obs #mean #sd [, level(#)]
by…: può essere usato con ci (ma non con cii).
7
Intervallo di confidenza per la media - 2
Si apra il file euroqol.dta.
Per stimare la media di una variabile continua con un intervallo di confidenza al 99%, digitare:
. ci scala, level(90)
Variable Obs Mean Std. Err. [90% Conf. Interval]
-------------+---------------------------------------------------------------
scala 700 77.65143 .6384264 76.59992 78.70294
. ci scala, level(95)
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
scala 700 77.65143 .6384264 76.39797 78.90489
. ci scala, level(99)
Variable Obs Mean Std. Err. [99% Conf. Interval]
-------------+---------------------------------------------------------------
scala 700 77.65143 .6384264 76.00245 79.30041
Intervallo di confidenza per la media - 3
. cii N mean SD
. cii 372 37.58 16.51
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
372 37.58 .8560036 35.89677 39.26323
mean - 1
Il comando mean consente di stimare le medie con intervalli di
confidenza.
La sintassi è la seguente:
mean varlist [if exp] [in range] [weight] [,
over(varlist) level(#)]
8
mean - 2
Si apra il file euroqol.dta.
. mean scala . mean scala
Mean estimation Number of obs = 700
--------------------------------------------------------------
Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
scala 77.65143 .6384264 76.39797 78.90489
--------------------------------------------------------------
. ci scala
. ci scala
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
scala 700 77.65143 .6384264 76.39797 78.90489
mean - 3
. mean scala, over(sesso)
. mean scala, over(sesso)
Mean estimation Number of obs = 700
--------------------------------------------------------------
Over Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
scala
maschio 80.11239 .8296081 78.48357 81.74121
femmina 75.23229 .9520813 73.36301 77.10158
--------------------------------------------------------------
mean - 4
. bysort sesso: ci scala
. bysort sesso: ci scala
-------------------------------------------------------------------------------------------
-> sesso = maschio
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
scala 347 80.11239 .8296081 78.48068 81.7441
-------------------------------------------------------------------------------------------
-> sesso = femmina
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
scala 353 75.23229 .9520813 73.35981 77.10478
9
Test t per il confronto tra medie - 1
Il comando ttest si utilizza per la verifica dell’ipotesi su una
media, sulla differenza di due medie e per i confronti
appaiati.
Nella prima forma, ttest esegue un test t su un campione
verificando l’ipotesi che varname abbia una media pari a #.
ttest varname = # [if exp] [in range]
[, level(#)]
s n
x
t 0
Test t per il confronto tra medie - 2
Nella seconda forma senza alcuna ipotesi specificata,
ttest esegue un test t per dati appaiati verificando l’ipotesi
che varname1 - varname2 abbia una media pari a zero
(test t per campioni appaiati)
ttest varname1 = varname2 [if exp] [in
range] [, unpaired unequal welch* level(#)]
* welch non ha alcun effetto a meno che non sia specificata l’opzione unequal.
Welch indica che i gradi di libertà per il test dovrebbero essere ottenuti con la
formula di approssimazione di Welch piuttosto che con la formula di
approssimazione di Satterthwaite.
d
d
s
d
t 0
con s s n d d
Test t per il confronto tra medie - 3
Nella seconda forma con l’opzione unpaired specificata, ttest
esegue un test t per due campioni indipendenti verificando
l’ipotesi che la media di varname1 sia uguale alla media di
varname2 (test t per campioni indipendenti).
2
2
1
2
1 2 1 2 ( ) ( )
n
s
n
s
x x
t
p p
con
2
1 1
1 2
2
2 2
2
2 1 1
n n
n s n s
sp
10
Test t per il confronto tra medie - 4
Nella terza forma, ttest esegue un test t per due campioni
verificando l’ipotesi che varname abbia la stessa media
entro i due gruppi definiti dalla variabile groupvar.
ttest varname [if exp] [in range],
by(groupvar) [unequal welch level(#)]
Test t per il confronto tra medie - 5
ttesti è la forma immediata di ttest.
Un comando immediato è un comando che consente di ottenere
risultati non da dati presenti in memoria ma da numeri digitati come
argomenti. I comandi Immediati, in effetti, consentono di utilizzare
Stata come se fosse una calcolatrice.
La prima struttura di ttesti esegue un t test per un campione. La
seconda struttura esegue un test t per due campioni.
ttesti #obs #mean #sd #val [, level(#)]
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2
[, unequal welch level(#)]
by : può essere usata con ttest (ma non con ttesti).
Test t per una media
Esempio 1
Misurando la frequenza cardiaca di 12 studenti maschi iscritti all’ultimo
anno dell’ISEF, si è trovato un valore medio aritmetico di 68.7
battiti/minuto, e una varianza (corretta) uguale a 75,12.
E’ noto che il valore clinico normale della frequenza media di pulsazioni
per i maschi di quell’età in buone condizioni di salute è di 72
battiti/minuto.
Ammettendo che la frequenza cardiaca si distribuisca normalmente
nella popolazione da cui il campione è stato tratto, si può sostenere,
sulla base dei dati osservati, che la frequenza cardiaca degli studenti
maschi dell’ISEF non differisce da 72? Si adotti un livello di
significatività a = 0,05.
11
. display sqrt(75.12)
8.6671795
. ttesti 12 68.7 8.6671795 72, level(95)
Test t per una media
Esempio 1
tc=-1.32 è un risultato molto probabile o poco probabile in
regime di H0?
Individuo il valore soglia:
Test t per una media
Esempio 1
2.201 2; 1 0.025 ;11 t t n
Non rifiuto H0. Questo non significa che H0 sia vera.
Significa che i dati NON sono tanto incoerenti con H0
da portare al suo rigetto.
Come posso fare a trovare il valore soglia?
Con il comando
. ttable
Critical Values of Student's t
.10 .05 .025 .01 .005 .0005 1-tail
df .20 .10 .050 .02 .010 .0010 2-tail
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 9.925 31.599
3 1.638 2.353 3.182 4.541 5.841 12.924
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.869
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.998 3.499 5.408
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
Il comando ttable
12
Si consideri ancora l’esempio 1, con tutti i dati invariati, tranne la
numerosità del campione, uguale a 40.
. ttesti 40 68.7 8.6671795 72, level(95)
Test t per una media
Esempio 1 - bis
In questo caso rifiuto H0.
La differenza (68.7-72=3.3) in un piccolo campione NON è
sufficiente a rigettare H0 mentre in un grande campione lo è.
Una persona è sospettata di guida in stato di ebbrezza.
Controllando 7 volte la concentrazione di alcool nel suo sangue,
si è ottenuta una misura media aritmetica di 0,53 per mille, con
una varianza corretta uguale a 0,0032.
Sapendo che le misure della concentrazione di alcool si
distribuiscono normalmente, si può affermare che i dati
corroborano l’ipotesi che la concentrazione di alcool nel sangue
del soggetto abbia superato il limite massimo consentito, uguale
a 0,5 per mille?
Test t per una media
Esempio 2
. di sqrt(0.0032)
. ttesti 7 0.53 0.057 0.5, level(95)
Test t per una media
Esempio 2
13
tc= 1.3925 è un risultato molto probabile o poco probabile
in regime di H0?
L’ipotesi alternativa è , cioè la probabilità di rifiutare
impropriamente H0 va collocata tutta sulla coda di destra.
Individuo il valore soglia:
Test t per una media
Esempio 2
0.5
1.943 ; 1 0.05;6 t t n
Il campione scelto non fornisce elementi sufficienti per rifiutare
H0. Questo non significa che il soggetto non sia in stato di
ebbrezza: forse è necessario ricorrere ad altri strumenti di
misurazione della concentrazione di alcool nel sangue.
Test t per una media
Esempio 3
Una casa farmaceutica sostiene che un nuovo farmaco
analgesico allevia un dolore di media entità per tre ore,
con una deviazione standard di 1 ora.
Il farmaco viene somministrato a 16 pazienti (tutti in
condizioni simili); il tempo medio di efficacia del farmaco
risulta uguale a 2,5 ore, con una deviazione standard di
0,5 ore.
E’ giustificato, sulla base di questi dati, il sospetto che
l’efficacia dell’analgesico abbia durata inferiore alle tre
ore?
. ttesti 16 2.5 0.5 3, level(95)
Individuo il valore soglia:
Test t per una media
Esempio 3
Rifiuto H0, con una probabilità massima di sbagliare pari a 0.05. I dati
avvalorano il sospetto che il periodo di efficacia sia inferiore a 3 ore.
1.753 ; 1 0.05;15 t t n
14
Test t per due medie
Esempio 4
E’ stato rilevato il livello di lipoproteina nel sangue in un campione
casuale di 10 non-atleti, e in un campione casuale di 12 atleti,
ottenendo le seguenti misure di sintesi:
Non atleti Atleti
Media aritmetica: 59 48
Scarto quadr. medio: 10.4 9,2
Si controlli la significatività della differenza tra le medie aritmetiche
campionarie, ammettendo che il carattere si distribuisca
normalmente in entrambe le popolazioni di riferimento, e adottando
un livello di significatività = 0,05
. ttesti 10 59 10.4 12 48 9.2
Test t per una media
Esempio 4
Test per il confronto delle varianze - 1
Il comando sdtest esegue un test sull’uguaglianza delle
varianze (standard deviations).
sdtest varname = # [if exp] [in range] [,
level(#) ]
Nella prima forma, sdtest esegue un test chi-quadrato per
verificare l’ipotesi che la deviazione standard di varname è #.
sdtest varname1 = varname2 [if exp] [in range] [,
level(#) ]
Nella seconda forma, sdtest esegue un test F (test rapporto
delle varianze) per verificare l’ipotesi che varname1 e
varname2 abbiano la stessa varianza.
15
Test per il confronto delle varianze - 2
sdtest varname [if exp] [in range] , by(groupvar)
[ level(#)]
Nella terza forma, sdtest esegue ancora un test F, sulle
varianze di ognuno dei due gruppi definiti da groupvar.
sdtesti è la forma immediata di sdtest. La prima struttura di
sdtesti esegue un test chi-quadrato. La seconda un test F.
sdtesti #obs {#mean . } #sd #val [, level(#) ]
sdtesti #obs1 {#mean1 . } #sd1 #obs2 {#mean2
. } #sd2 [, level(#) ]
by…: può essere usato con sdtest (ma non con
sdtesti).
Controllo dell’ipotesi di omoschedasticità
Esempio 5
. sdtesti 10 . 10.4 12 . 9.2
. sdtesti 10 59 10.4 12 48 9.2
Controllo dell’ipotesi di omoschedasticità
Esempio 5
. sdtesti 10 59 10.4 12 48 9.2
16
Test t per due medie
Esempio 6
Nell’ambito di un’indagine clinica su pazienti affetti da
una data patologia, due ortopedici (‘A’ e ‘B’) stanno
rilevando, su lastra radiografica, la distanza fra due punti
anatomici di riferimento.
Volendo confrontare i valori forniti da A con i valori
forniti da B, le lastre di 10 pazienti sono sottoposte a
misurazioni da parte di entrambi. I valori ottenuti sono i
seguenti:
Test t per due medie
Esempio 6
I dati corroborano l’ipotesi che non vi sia una differenza
significativa tra le misurazioni dal soggetto A e quelle
effettuate dal soggetto B?
. ttesti ortop_A = ortop_B
Test t per due medie
Esempio 6
17
. gen diff=ortop_A – ortop_B
. ttest diff=0
Test t per due medie
Esempio 6
Intervallo di confidenza per una proporzione - 1
Il comando ci si utilizza anche per calcolare
l’intervallo di confidenza per una proporzione
e per un tasso. Nel caso di una proporzione,
la variabile deve essere codificata con 0/1.
. ci [varlist] [weight] [if exp]
[in range] [, level(#) binomial]
Intervallo di confidenza per una proporzione - 2
. ci newsesso, binomial
-- Binomial Exact --
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
new_sesso 796 .5100503 .0177184 .4747123 .5453135
. tab new_sesso
RECODE of
sesso
(sesso) Freq. Percent Cum.
------------+-----------------------------------
maschio 390 48.99 48.99
femmina 406 51.01 100.00
------------+-----------------------------------
Total 796 100.00
L’espressione Mean esprime la
proporzione di eventi 406/796
18
Intervallo di confidenza per una proporzione - 3
. cii N events, binomial
. cii 153 40, binomial
-- Binomial Exact --
Variable Obs Mean Std. Err. [95% Conf. Interval]
-------------+---------------------------------------------------------------
153 .2614379 .0355248 .1938062 .3385499
proportion - 1
Il comando proportion consente di stimare le proporzioni con
intervalli di confidenza.
La sintassi è la seguente:
proportion varlist [if exp] [in range]
[weight] [, over(varlist)]
proportion - 2
. proportion salgen
. proportion salgen
Proportion estimation Number of obs = 788
_prop_2: salgen = molto buona
--------------------------------------------------------------
Binomial Wald
Proportion Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
salgen
eccellente .0507614 .0078247 .0354017 .0661212
_prop_2 .2360406 .015137 .2063268 .2657544
buona .5025381 .0178228 .4675521 .537524
passabile .1446701 .0125392 .1200559 .1692842
scadente .0659898 .0088497 .0486181 .0833616
--------------------------------------------------------------
19
proportion - 3
. proportion salgen, over(sesso)
. proportion salgen, over(sesso)
Proportion estimation Number of obs = 788
--------------------------------------------------------------
Binomial Wald
Over Proportion Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
eccellente
maschio .0723514 .0131863 .046467 .0982358
femmina .0299252 .008519 .0132024 .0466479
-------------+------------------------------------------------
_prop_2
maschio .2816537 .0228945 .2367122 .3265952
femmina .19202 .0196944 .1533601 .2306798
-------------+------------------------------------------------
buona
maschio .4806202 .0254302 .4307011 .5305392
femmina .5236908 .0249719 .4746713 .5727102
-------------+------------------------------------------------
passabile
maschio .1162791 .016316 .084251 .1483072
femmina .1720698 .0188721 .1350243 .2091153
-------------+------------------------------------------------
scadente
maschio .0490956 .0109976 .0275076 .0706836
femmina .0822943 .0137406 .0553217 .1092669
--------------------------------------------------------------
Verifica di ipotesi per una proporzione - 1
Il comando prtest si utilizza per la verifica dell’ipotesi su una
proporzione o sulla differenza tra proporzioni, in presenza di
campioni di dimensioni elevate.
Secondo la seguente sintassi, prtest saggia l’ipotesi che varname
abbia una proporzione uguale a #.
prtest varname = # [if exp] [in range] [,
level(#)]
n
p q
p p
z
0 0
0 ˆ
Verifica di ipotesi per una proporzione - 2
Nella seconda forma della sintassi, prtest saggia l’ipotesi che due
variabili abbiano la stessa proporzione.
prtest varname1 = varname2 [if exp] [in
range] [, level(#)]
ˆ1 ˆ 2
1 2 1 2
ˆ
( ˆ ˆ ) ( )
p p
p p p p
z
con
1 2
ˆ ˆ
1 1
ˆ
1 2 n
p p
n
p p
p p
e
1 2
1 2
n n
x x
p
20
Verifica di ipotesi per una proporzione - 3
Nella terza forma, prtest saggia l’ipotesi che varname abbia la
stessa proporzione entro i due gruppi definiti da groupvar.
prtest varname [if exp] [in range],
by(groupvar) [level(#)]
prtesti è la forma immediata di prtest.
prtesti #obs #p1 #p2 [, level(#) count]
prtesti #obs1 #p1 #obs2 #p2 [, level(#)
count]
by ... : può essere usato con prtest (ma non
con prtesti).
Verifica di ipotesi per una proporzione - 4
Opzioni
by(groupvar) specifica una variabile qualitativa numerica che contiene
l’informazione relativa ai gruppi per i quali si vuole saggiare la differenza. La
variabile deve avere solo due valori.
level(#) specifica il livello di confidenza, in percentuale, per l’intervallo di
confidenza.
count specifica che verrà usato un intero (counts) invece delle proporzioni, nella
forma immediata di prtest.
Nella prima forma della sintassi, il comando prtesti si aspetta obs1 e #p1 come
interi e #p2 come proporzione (#p1 deve essere minore o uguale a obs1).
Nella seconda sintassi, prtesti si aspetta quattro numeri interi con obs1 >= #p1 e
#obs2 >= p2.
Verifica di ipotesi per una proporzione
Esempio 7
Nel 1988, il Prof. Paolo Macarelli, dell’Ospedale di
Seveso, afferma:
“Il rapporto dei sessi alla nascita è, nella norma, di 106
maschi ogni 100 femmine. Dal 1977 al 1984 sono nati
48 maschi e 26 femmine. Non abbiamo ancora trovato
una spiegazione per questo fenomeno. Certo, il sospetto
è che l’intossicazione da diossina del 1976 abbia
modificato l’equilibrio”.
Si valuti l’evidenza fornita dai dati.
21
. di 48+26
74
. di 48/74
0.64864865
. prtesti 74 0.649 0.514
Verifica di ipotesi per una proporzione
Esempio 7
. prtesti 74 48 0.514, count
Verifica di ipotesi per una proporzione
Esempio 7
Verifica di ipotesi per una proporzione
Esempio 8
Si è condotto uno studio sperimentale per confrontare la
frequenza di ‘successi’ di un nuovo farmaco contro
l’emicrania con l’analoga frequenza del trattamento
standard.
Dei 100 soggetti che hanno ricevuto il trattamento
standard, 78 ne hanno tratto giovamento; dei 100
soggetti che hanno ricevuto il nuovo farmaco, 90 hanno
riscontrato un miglioramento.
Questi dati costituiscono un’evidenza empirica
sufficiente a sostenere la maggiore efficacia del nuovo
farmaco?
22
. prtesti 100 0.78 100 0.90
Verifica di ipotesi per una proporzione
Esempio 8
. prtesti 100 78 100 90, count
Verifica di ipotesi per una proporzione
Esempio 8
Esercizio 1
In uno studio sulla durata del ricovero in ospedale condotto da diversi ospedali, è
stato estratto un campione casuale di 64 pazienti con ulcera peptica da una lista
di tutti i pazienti con ulcera peptica, ricoverati negli ospedali partecipanti allo
studio, ed è stata determinata per ciascuno di essi la durata del ricovero. La
durata media di ricovero è risultata pari a 8.25 giorni. Se è nota la deviazione
standard della popolazione ed è uguale a 3 giorni, si calcoli:
a) l'intervallo di confidenza per al 90%;
b) l'intervallo di confidenza per al 95%;
c) l'intervallo di confidenza per al 99%.
Si confrontino gli intervalli e si commentino le differenze rilevate.
23
Esercizio 2
Rothberg e Lits (American Journal of Obstetrics and Gynecology, 1991) hanno
studiato l’effetto sul peso alla nascita dello stress materno durante la
gravidanza. I soggetti erano 86 madri con una storia di stress senza fattori
di rischio medici o ostetrici che potessero ridurre il peso alla nascita. I
ricercatori hanno trovato che il 12.8% delle madri del campione ha dato alla
luce bambini sotto peso.
Sulla base dei risultati ottenuti dai ricercatori, stimare l’ intervallo di confidenza
al 99% per la proporzione nella popolazione e commentare il risultato
ottenuto.
Esercizio 2
A livello nazionale la percentuale di bambini nati sotto peso da madri aventi una
analoga storia di stress risultava pari al 7.1%. I risultati ottenuti da questi
ricercatori sono significativamente diversi da quelli ottenuti a livello
nazionale? Considerare . Motivare la risposta fornita.
Se avessimo considerato =0.01, avremmo rifiutato l’ipotesi nulla?
Esercizio 3
Una indagine condotta su 100 ospedali di dimensioni simili ha messo in
evidenza che nel servizio pediatrico vi è un numero medio di visite al giorno
pari a 27 con una deviazione standard di 6.5.
Questi dati consentono di dedurre che, ad un livello di significatività di 0.05, la
media della popolazione è maggiore di 25? Motivare la risposta .
24
Su due campioni di donne sono state fatte le determinazioni del livello di
cortisolo, al parto. I soggetti del gruppo 1 erano stati sottoposti ad un taglio
cesareo di emergenza in seguito ad un parto programmato. Le donne del
gruppo 2 hanno partorito o con parto naturale o con parto cesareo non
programmato. Le dimensioni campionarie, i livelli medi di cortisolo e le
deviazioni standard sono le seguenti .
2 12 645 80
1 10 435 65
Campione n Media Deviazione Standard
Esercizio 4
Si risponda alle seguenti domande:
a) È ragionevole ritenere che i due campioni siano stati estratti da due
sottopopolazioni diverse per variabilità? Per rispondere a questa domanda
quale test è opportuno eseguire? E qual è il risultato del test ottenuto?
b) Volendo verificare se vi è una differenza nei livelli medi di cortisolo nelle
popolazioni rappresentate dai campioni, si indichi l’ipotesi H0 da saggiare
c) Da questi dati è possibile dire che vi è una differenza nei livelli medi di
cortisolo nelle popolazioni rappresentate dai campioni? Sia =0.05.
Motivare la risposta.
Esercizio 4
Il direttore del settore marketing di una ditta farmaceutica ritiene che sia
maggiore il numero di ragazze che usano le loro medicine per l’acne rispetto al
numero di ragazzi. In una recente indagine, 2500 adolescenti sono stati
intervistati in merito all’uso o meno di un particolare prodotto. Le risposte,
categorizzate per sesso, sono riportate nella tabella sottostante.
Maschi 391 759
Femmine 540 810
Sesso Usano prodotti per l’acne Non usano prodotti per l’acne
Questi dati forniscono l’evidenza ad un livello di significatività del 99% che il
direttore ha ragione? Motivare la risposta .
Esercizio 4
1
REGRESSIONE con STATAGiulia Cavrini
Dipartimento di Scienze Statistiche “Paolo Fortunati”
Università di Bologna
MASTER di II° livello
in
BIOSTATISTICA
INDICE
_ Grafico a Dispersione o Scatterplot
_ Correlazione
_ Regressione lineare semplice
Grafici: Grafico a dispersione - 1
Le relazioni tra due variabili quantitative sono rappresentabili
molto bene graficamente. E il primo passo, di solito molto utile,
quando si studiano le relazioni tra due variabili, è costruire un
diagramma a dispersione dei dati.
Un diagramma a dispersione mostra la relazione fra due
variabili quantitative misurate sulle stesse unità statistiche. I valori
di una variabile appaiono sull’asse orizzontale ed i valori dell’altra
sull’asse verticale. Ogni singola unità appare come un punto nel
grafico, determinato dai valori che le due variabili assumono per
essa.
2
Grafici: Grafico a dispersione - 2
È preferibile posizionare la variabile esplicativa (X) sull’asse
orizzontale del grafico.
Il grafico a dispersione può essere ottenuto con il comando:
. graph twoway scatter y x
dove y è la variabile da inserire sull’asse y, cioè la variabile
dipendente, e x è la variabile che andrà inserita sull’asse x.
Naturalmente sono disponibili le opzioni xlabel, xtitle, ecc. per
controllare le etichette e i titoli.
Grafici: Grafico a dispersione - 3
ESEMPIO:
Negli Stati Uniti, alcune persone utilizzano la media dei risultati ottenuti dagli
studenti nel SAT per classificare il sistema scolastico a livello locale o
nazionale. Non è una metodologia corretta perché la percentuale degli
studenti delle scuole superiori che sostengono il SAT è variabile da Stato a
Stato. Esaminiamo, infatti, la relazione tra la percentuale dei diplomati che
hanno sostenuto l’esame nel 2002 nei vari Stati e il punteggio medio
ottenuto. Riteniamo che “la percentuale che ha sostenuto l’esame possa
spiegare il “punteggio medio”. Perciò, la “percentuale che ha sostenuto
l’esame” è la variabile esplicativa, mentre “il punteggio medio” è la variabile
risposta. Vogliamo analizzare come il punteggio medio cambi in base alle
variazioni delle percentuali; la percentuale (var. esplicativa) va posta, dunque,
sulle ascisse.
Grafici: Grafico a dispersione - 4
La figura è il diagramma a
dispersione. Ogni punto
rappresenta un singolo Stato.
In Colorado, ad esempio, il
30% ha sostenuto il SAT e il
punteggio medio è stato di
536. In California, il 45% ha
sostenuto il SAT e il punteggio
medio è stato di 495.
. twoway (scatter svavg perctake) (scatter svavg perctake if
state=="California"state=="Colorado", mlabel (state) mlabposition(9)),
ytitle(, size(medsmall)) yscale(titlegap(5)) ylabel(460(20)620,
valuelabel labsize(small)) xtitle(, size(medsmall)) xscale(titlegap(5))
xlabel(0(10)90, valuelabel labsize(small))
California
Colorado
460 480 500 520 540 560 580 600 620
Media dei punteggi SAT
0 10 20 30 40 50 60 70 80 90
Percentuale di studenti che hanno sostenuto il SAT
Media dei punteggi SAT Media dei punteggi SAT
3
Grafici: Grafico a dispersione – 4a
Grafici: Grafico a dispersione – 4b
Grafici: Grafico a dispersione – 4c
4
Grafici: Grafico a dispersione - 5
In qualsiasi grafico, occorre cercare l’andamento generale
e le eventuali deviazioni evidenti rispetto ad esso.
L’andamento generale di un diagramma a dispersione si
descrive attraverso la forma, la direzione e la forza
della relazione.
Un outlier, ovvero un valore singolo che non segue
l’andamento generale della relazione, è un importante tipo
di deviazione dal modello complessivo.
Grafici: Grafico a dispersione - 6
Interpretazione del grafico:
Negli Stati Uniti, alcune persone utilizzano la media dei risultati ottenuti dagli
studenti del SAT per classificare il sistema scolastico a livello locale o nazionale.
Non è una metodologia corretta perché la percentuale degli studenti delle scuole
superiori che sostengono il SAT è variabile da Stato a Stato. Esaminiamo, infatti, la
relazione tra la percentuale dei diplomati che hanno sostenuto l’esame nel 2002
nei vari Stati e il punteggio medio ottenuto.
La figura presenta una forma ben precisa: ci sono due gruppi distinti di Stati. Nel
gruppo alla destra del grafico, il 52% e oltre dei diplomati di scuola superiore
affronta il SAT mentre la media dei risultati è bassa. Gli Stati nel gruppo sulla
sinistra hanno, invece, risultati SAT più alti, ma non più del 36% dei diplomati
affronta il test. Non ci sono outlier evidenti.
Grafici: Grafico a dispersione - 7
Cosa indicano i gruppi?
Ci sono generalmente due esami di ammissione al college, il SAT e l’ACT, e
ogni Stato favorisce uno dei due esami. Il gruppo a sinistra nella Figura
contiene gli Stati che favoriscono l’ACT, quello a destra, gli Stati che
preferiscono il SAT. Negli Stati che preferiscono l’ACT, gli studenti che
affrontano il SAT sono quelli che vogliono iscriversi a università più selettive
(che, per l’appunto richiedono il SAT). Questo ultimo gruppo di studenti
ottiene risultati più alti degli studenti che passano il SAT negli Stati in cui
questo esame è preferito.
La relazione descritta nel grafico mostra anche una direzione ben precisa:
gli Stati in cui una percentuale più alta di studenti affronta il SAT tendono ad
avere una media più bassa. Questa è un’associazione negativa fra due
variabili.
5
Grafici: Grafico a dispersione - 8
Associazioni positive e negative
Due variabili sono associate positivamente quando i
valori sopra la media di una tendono ad associarsi con i
valori sopra la media dell’altra e allo stesso modo si
comportano i valori sotto la media.
Due variabili sono associate negativamente quando i
valori sopra la media di una tendono ad associarsi con i
valori sotto la media dell’altra e viceversa.
Grafici: Grafico a dispersione - 9
Forza di una associazione
La forza di una relazione in un diagramma a dispersione
è determinata da quanto i primi assumono una forma ben
precisa. La relazione complessiva descritta nel grafico non
è forte, gli Stati che favoriscono il SAT con percentuali
simili mostrano infatti una certa dispersione nella media
dei risultati.
Esempio:
Estellés e al. (American Journal of Obstetrics and Gynecology, 1991)
hanno studiato i parametri fibrinolitici nelle gravidanze normali, nelle
gravidanze con pressione arteriosa normale con un ritardo nella
crescita intrauterina del feto (IURG) e in pazienti con preeclampsia con
e senza IUGR. Nel file Pai2.dta sono riportati i pesi alla nascita e i
livelli dell’inibitore dell’attivatore del plasminogeno di tipo (2) (PAI-2)
in 26 casi osservati. Si vuole stabilire la forza della relazione tra le due
variabili.
Carichiamo il file Pai2.dta.
6
Grafici: Grafico a dispersione - 10
. twoway (scatter pai2 pesi)
Il disegno individuato con i
punti tracciati sul diagramma di
dispersione solitamente
suggerisce la natura e la forza
della relazione tra le variabili.
Come si vede nella figura, i
punti sembrano distribuirsi
intorno ad una retta invisibile. Il
diagramma di dispersione,
inoltre, mostra che, in
generale, i neonati con peso
elevato alla nascita hanno
anche un PAI-2 maggiore.
Tali impressioni suggeriscono
che la relazione tra le due
variabili considerate può essere
descritta da una retta.
0 100 200 300
PAI-2 (ng/ml)
1000 1500 2000 2500 3000 3500
Pesi alla nascita (gr)
Coefficiente di Correlazione - 1
Il coefficiente di correlazione misura la forza della relazione lineare tra X
e Y. Tale coefficiente può assumere valori tra –1 e +1.
Se r=1 vi è perfetta correlazione lineare diretta tra le due variabili.
Se r=-1 vi è perfetta correlazione lineare inversa tra le variabili.
Se r=0 le due variabili non sono linearmente correlate.
. correlate [varlist] [weight] [if exp] [in range],
means options
. pwcorr [varlist] [weight] [if exp] [in range]
[, obs sig options]
Coefficiente di Correlazione - 2
. correlate pai2 pesi
(obs=26)
. corr pai2 pesi, means
7
Coefficiente di Correlazione - 3
. pwcorr pai2 pesi, sig
Regressione Lineare Semplice - 1
Supponiamo di volere prevedere i livelli di PAI-2 dalla conoscenza dei pesi
alla nascita. In questo caso, trattiamo i pesi alla nascita come variabile
indipendente ottenendo la retta di regressione.
Il comando di STATA per ottenere la regressione tra due variabili y e x,
dove y è la variabile dipendente e x la variabile indipendente, è il
seguente:
regress depvar [varlist] [weight] [if exp] [in range] [, level(#)]
Regressione Lineare Semplice - 2
. regress pai2 pesi
8
Regressione Lineare Semplice – 3
Tavola ANOVA
SSR = Devianza di regressione = 122596.409 = ammontare della
variabilità totale nei valori osservati di Y che è spiegata dalla relazione
lineare tra i valori di X e di Y.
SSE = Devianza residua = 102510.206 = misura della dispersione dei
valori osservati di Y rispetto alla retta di regressione. Tale quantità è
minima quando si stima la retta dei minimi quadrati.
Regressione Lineare Semplice - 4
Coefficiente di determinazione lineare R2 = SSR/SST= 0.5446 =
misura la precisione dell’adattamento dell’equazione di regressione ai valori
osservati di Y. Nel nostro esempio, il 54% della variazione totale della y è
spiegata dalla regressione.
Regressione Lineare Semplice - 5
L’equazione della retta di regressione è: yˆ −72.12010.09525x
Il test t sul coefficiente è significativo. Inoltre il coefficiente b è positivo.
Questo ci porta a concludere che esiste una relazione tra Y e X e questa è
lineare diretta.
9
Regressione Lineare Semplice - 6
Grafici: Grafico a dispersione - 11
. predict yhat, xb
. gen yhat_e=-72.1221 + pesi* .095251
. predict yhat
. scatter pai2 yhat pesi, c(. l .)
0 100 200 300
PAI-2 (ng/ml)/Fitted values 1000 1500 2000 2500 3000 3500
Pesi alla nascita (gr)
PAI-2 (ng/ml) Fitted values
Regressione Lineare Semplice - 7
10
Regressione Lineare Semplice – 7a
0 100 200 300 400
1000 1500 2000 2500 3000 3500
Pesi alla nasci ta (gr)
95% CI Fitted values
PAI-2 (ng/ml )
Regressione Lineare Semplice – 7a
Regressione Lineare Semplice – 7b
0 100 200 300 400
1000 1500 2000 2500 3000 3500
Pesi alla nasci ta (gr)
95% CI Fitted values
11
Esercizio 1
Wada et al. (American Journal of Hematology, 1991) affermano che il fattore di necrosi
tumorale (TNF) è una citochinina antitumorale che, per prima, ha catturato l'attenzione
come possibile agente antitumorale senza effetti collaterali. Il TNF è considerato anche
come possibile mediatore della coagulazione intravascolare diffusa (DIC) e della
insufficienza multipla di organi. I soggetti sono volontari sani, pazienti DIC e pazienti
non DIC. I dati riportati nel file Tnf.dta mostrano i livelli nel sangue di TNF (U/ml) e il
punteggio DIC per soggetti non leucemici.
Rispondere alle seguenti domande:
1) Qual è la variabile esplicativa? Qual è la variabile risposta? Spiegare
brevemente la scelta effettuata.
2) Descrivere, tramite un opportuno grafico, la relazione generale tra le due
variabili.
3) Qual è il valore medio del TNF? Qual è la sua deviazione standard?
4) Qual è il punteggio medio DIC per i soggetti non leucemici? E la sua
deviazione standard?
5) Stimare, tramite l’opportuna procedura, i valori dei coefficienti b0 e b1 della
retta di regressione. Interpretare i due coefficienti ottenuti nel contesto del problema.
6) Scrivere l’equazione della retta di regressione ottenuta.
7) Calcolare il valore del coefficiente di correlazione lineare r e interpretarne il
risultato nel contesto del problema.
Esercizio 2
Nel file Gas.dta sono stati registrati i dati relativi ad una abitazione situata nella regione
Sud-Est dell’Inghilterra. Il proprietario della casa aveva recentemente installato un
impianto di pannelli solari. Nel file sono riportati i valori relativi al consumo settimanale
di gas (in 1000 metri cubi) e la media della temperatura esterna per ogni settimana (in
gradi Celsius), nelle ultime 15 settimane.
Rispondere alle seguenti domande:
1) Qual è la variabile esplicativa? Qual è la variabile risposta? Spiegare brevemente la
scelta effettuata.
2) Descrivere, tramite un opportuno grafico, la relazione generale tra le due variabili.
3) Qual è la temperatura media? Qual è la deviazione standard per la temperatura?
4) Qual è il consumo medio di gas? E la sua deviazione standard?
5) Calcolare, tramite l’opportuna procedura, il valore del coefficiente b1 della retta di
regressione. Interpretare il valore ottenuto nel contesto del problema.
6) Calcolare, tramite l’opportuna procedura, il valore del coefficiente b0, cioè
dell’intercetta, della retta di regressione. Interpretare il valore ottenuto nel contesto del
problema.
7) Scrivere l’equazione della retta di regressione ottenuta.
8) Calcolare il valore del coefficiente di correlazione lineare r.