Toegepaste biostatistiek

Transcriptie

1 Toegepaste biostatistiek 1 e master biomedische wetenschappen

2 1 Hoofdstuk 11: regressie en correlatie methoden Lineaire regressie: hier ga je willen onderzoeken hoe normaal verdeelde uitkomsten gerelateerd kunnen worden met 1 of meerdere predictor variabelen (schattingen), deze kunnen continue of categorisch verdeeld zijn. Standaard formule voor lineaire regressie: Y = α + βx Y= afhankelijke variabele: de variabele waarvoor men een schatting wilt maken X= onafhankelijke variabele of predictor variabele: de variabele die je gebruikt om een voorspelling te maken β= slope (helling van de regressielijn) α= intercept (punt wat x zou zijn wanneer y = 0. Het geeft dus de hoogte weer van de regressielijn) aangezien iedere persoon anders is, is het niet mogelijk om aan de hand van deze standaard formule een correcte schatting te maken voor iedereen. Om deze reden wordt er ook een correctie factor toegevoegd (e). Hierdoor krijg je de volgende formule: Y = α + βx + e Gebruikt voorbeeld in de cursus: e= stelt de variatie voor van tussen personen met een zelfde x variabele. Het is wel noodzakelijk dat e normaal verdeeld is met een gemiddelde 0 en een variantie σ 2. Tijdens de zwangerschap kan het estriol gehalte gemeten worden in de urine. Het estriol gehalte zou een voorspellende (predictor variabele) kunnen zijn voor het geboortegewicht. Om hier een kwantificeerbaar gegeven van te maken, kunnen we een regressielijn proberen te plaatsen tussen deze twee variabelen (geboorte gewicht en estriol concentratie). Voor de formule van lineaire regressie komt dat op het volgende: Y = α + βx + e Y: het geboortegewicht X: het estriol gehalte in de urine α: het estriol gehalte wanneer het geboortegewicht 0 zou zijn. β: hoe sterk het geboortegewicht stijgt of daalt, bij een toename of afname van het estriol gehalte met 1 unit.

3 2!! de correctiefactor (e) moet normaal verdeeld zijn met gemiddelde 0 en variantie σ 2. De variabelen x en y moeten niet noodzakelijk normaal verdeeld zijn. Het effect van σ 2 op de vergelijking. - Als σ 2 = 0, dan krijg je een perfecte lijn van je gemeten punten (x variabelen). Als je daar een regressie lijn door wilt trekken, dan krijg je een perfecte fit. - Als σ 2 0, krijg je een wolk van punten, om hier een regressielijn door te trekken gaat het al wat moeilijker zijn. Je kan wel berekenen wat de beste fit is voor die gegevens. (dit zal ook het meeste voorkomen in realiteit). De oriëntatie van de regressielijn is afhankelijk van de slope (β). Indien de slope negatief is, gaan de waarden een dalend karakter hebben. Dit wilt zeggen dat een stijgende x waarde gepaard gaat met een dalende y waarde. Daarnaast kan je ook concluderen, indien de slope nul zou zijn, er geen relatie is tussen de predictor variabele (x) en de afhankelijke variabele (y). Hypothetisch gezien zou dat voor ons voorbeeld willen zeggen dat, hoe hoger de estriol concentratie, hoe lager het geboorte gewicht zal zijn indien de slope negatief zou zijn. Als de slope positief zou zijn (wat we op basis van onze resultaten ook kunnen waarnemen) gaat een hogere estriol concentratie gepaard met een hoger geboortegewicht.

4 3 Fitting van de regressielijn. Zoals juist al aangehaald, gaan de verzamelde gegevens veelal een wolk van punten gaan vormen wanneer je ze plot. Het vormen van een regressielijn zal dus niet zo eenvoudig zijn. Dit kunnen we echter wel berekenen en dit doen we met de methode van de minste machten (method of least squares). De geschatte regressielijn (least squares line) is de lijn ( Y = α + βx + e) waarbij de som van de gekwadrateerde afstanden tussen gemeten waarde en de regressielijn het laagst is. (we nemen de gekwadrateerde afstanden om te voorkomen dat we altijd 0 uitkommen). Notities: - Raw sum of squares voor x n x i 2 i=1 - Gecorrigeerde sum of squares voor x = L XX n (x i x ) 2 i=1 - Raw sum of squares voor y n y i 2 i=1 - Gecorrigeerde sum of squares voor y = L YY n (y i y ) 2 i=1 - Raw sum of cross products n x i y i i=1 - Gecorrigeerde sum of cross products = L XY n (x i x )(y i y ) i=1

5 4 Berekenen L XX L YY en L XY : - Bereken het gemiddelde van x x - Bereken het gemiddelde van y y - Bereken x - x X - Bereken y - y Y - Kwadrateer X X 2 - Kwadrateer Y Y 2 - Bereken de som van alle X 2 L XX - Bereken de som van alle Y 2 L YY - Vermenigvuldig X elke met Y XY - Neem de som van XY L XY Deze berekende waarden kunnen we nu gebruiken om de vergelijking te vervolledigen. Om zo een regressielijn te vormen die het beste is voor de gegevens die we verzameld hebben. β (ook soms afgebeeld als b) = L XY L XX α (ook soms afgebeeld als a) = y bx Nadat je de regressielijn hebt kunnen opstellen en de formule hebt vervolledigd, is het mogelijk om voorspellingen te maken voor y met behulp van x. Dat is heel het punt van lineaire regressie. Dit doe je door alle gekende gegevens van de formule in te vullen. y = α + βx In ons voorbeeld kunnen we nu dus gaan schatten wat het geboortegewicht zal zijn van een baby tijdens de zwangerschap en dit op basis van het estriol gehalte. Stel dat we bij een vrouw een estriol gehalte gemeten hebben van 10mg/24h. Uit onze berekeningen zien we ook dat het intercept (α) = en dat de slope (β) = y = ( ) = hg 100 = 2760g Uiteraard is het ook nog eens mogelijk om te controleren hoe goed de regressielijn past bij de gegevens die we geobserveerd hebben. Om dit te kunnen nagaan zouden we ook nog een paar extra berekeningen moeten maken. We hebben namelijk de Res SS en Reg SS nodig.

6 5 Res SS: residual sum of squares Deze waarde laat het verschil zien tussen, geobserveerde waarde (x i, y i ) en de geschatte waarde (x i, y i). In andere woorden laat deze waarde zien hoe goed onze schatting gaat aansluiten bij de werkelijkheid. Reg SS: regression sum of squares Hoe kleiner de Res SS, hoe beter. Deze waarde geeft het verschil weer tussen de geschatte waarde y i en het gemiddelde y. In andere woorden geeft de Reg SS een beeld over de helling van de regressielijn. Hoe groter de Reg SS, hoe beter. De beste situatie zou dus een model zijn waar de Res SS zo klein mogelijk is en de Reg SS zo groot mogelijk. Deze goodness of fit kunnen we ook kwantificeren door de R 2 te bepalen. R 2 = Reg SS total SS Waardat total SS = res SS + Reg SS R² zal een waarde aannemen tussen 0 en 1. Een R² van 1 wilt zeggen dat je een perfect model hebt en dat alle variatie in het model verklaard kan worden door de x variabele in het model. Alle geobserveerde data punten vallen op de regressielijn. Een R² van 0 wilt zeggen dat je een waardeloos model hebt. Je kan niets voorspellen met dit model. de x variabelen kunnen niets verklaren van de onzekerheid. Voorbeeld: stel dat je het geboorte gewicht probeert te verklaren aan de hand van de naam van de moeder. = L YY

7 6 Met de R² kan je dus bepalen hoe goed je model zal zijn in het maken van schattingen op basis van de onafhankelijke variabele (x). Hoeveel van de variantie kan verklaard worden door de x variabelen die we in het model zitten? Je kan aan je model meerdere x variabelen toevoegen. Hoe meer x variabelen je kan toevoegen aan het model die gelinkt zijn aan de afhankelijke variabele (y), hoe beter. Bij enkelvoudige regressie is R² = r². r² is de correlatie coëfficiënt tussen x en y (=Pearson) Vooraleer we verder gaan is het ook wel eens nuttig om te controleren of het wel enig nut heeft om aan regressie te doen met het model dat we hebben. Als we een model hebben dat de slope (β) gelijk is aan 0, dan heeft het niet echt zin om verder te gaan met dit model want we kunnen er niets mee voorspellen. Om dit te bepalen kunnen we een F-test doen? F-test Controleren of het wel enig nut heeft om aan lineaire regressie te doen. We gaan hier enkel proberen te achterhalen of de slope verschillend is van 0 (of we dus iets kunnen bepalen aan de hand van dit model). 1) Bepalen van de hypotheses H 0: β = 0 VS. H 1: β 0 2) Berekenen van de test statistiek (toetsingsgrootheid) op basis van de gegevens gevonden in je steekproef. We gaan dit doen aan de hand van de Res MS en de Reg MS Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares = Reg SS k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling. 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen.

8 7 - kritieke waarde De kritieke waarden geeft een soort van cut off waarde. Wanneer de berekende teststatistiek groter is dan deze waarde dan kunnen we ervanuit gaan dat de H 0 niet plausibel is en verwerpen we deze. H1 zal in dit geval meer realistisch zijn. De kritieke waarde kunnen we opzoeken in een tabel (die van de F verdeling). En kunnen we met behulp van de vrijheidsgraden bepalen. F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) Een F-test is een enkelzijdige test, je hebt namelijk altijd een positieve waarde aangezien je de berekeningen doet met gekwadrateerde gegevens. Hierdoor is de F verdeling geen volledige gaus curve maar een halve. - p-waarde hier ga je berekenen wat de kans is op het verkrijgen van een teststatistiek die extremer of gelijk is aan de geobserveerde waarde (berekende f waarde) er van uit gaande dat H 0 waar is. p = Pr (F k,n k 1,1 α f) Om deze waarde te kwantificeren gaan we ook terug gebruik maken van de tabel (van de F-verdeling). Nu gaan we die tabel echter andersom gebruiken. a) Bereken de teststatistiek (f-waarde) b) Ga naar de tabel en zoek de kolom die de vrijheidsgraden aangeeft. (F k,n-k-1).

9 8 c) Nu ga je op zoek naar de f-waarde (in het deel aangegeven door de vrijheidsgraden). De P-waarde zal het inverte zijn van de overeenkomende p (je gaat dus 1- die waarde moeten doen om de p-waarde te bekomen). Als het getal er niet tussen staat ga je de p-waarde zo goed mogelijk proberen te benaderen. Je gaat hiervoor op zoek naar de twee f- waardes waar uw berekende f-waarde tussen ligt. De p-waarde zal dan tussen de twee corresponderende p-waarden liggen. d) De p-waarde geeft de kans dat de geobserveerde waarde links ligt van de kritieke waarde. Een p-waarde kleiner dan de vooropgestelde α geeft dus weer dat we ervan uit gaan dat de kans op het observeren van de waarde die wij in onze steekproef gevonden hebben te extreem is en dat we kunnen besluiten dat de H 0 niet correct is. 4) Conclusie: indien we de H0 kunnen verwerpen en H1 aanvaarden hebben we evidentie om te zeggen we een nuttig model hebben en dat we verder kunnen. Met de F-test kunnen we concluderen of de een x-variabele significant effect heeft op de y-variabele. We kunnen echter niets zeggen over de significantie van het model. met de R² kan je bepalen hoe goed het model is. Nadat we gecontroleerd hebben of het zinvol is om aan regressie te doen (f-test) en we de kwaliteit van het model hebben gecontroleerd (R²), kunnen we nagaan wat de significantie is van de relatie die we aan het testen zijn. Dit doen we aan de hand van een T-test. T-test Achterhalen van de significantie tussen de predictor en de afhankelijke variabele. Voor een enkelvoudige regressie (waar er maar 1 x variabele is) zijn de T-test en de F-test gelijkaardig. Bij meervoudige regressie is hier wel een meer uitgesproken verschil. Hier ga ja namelijk meerdere x variabelen hebben en hier zal de F-test gedaan worden om te controleren of één van die x variabelen en significant resultaat gaat opleveren. Daarna ga je met de T-test de x variabelen afzonderlijk controleren. Procedure voor T-test: 1) Opstellen van een hypothese. Deze is het zelfde als bij de F-test. H 0: β = 0 VS. H 1: β 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

10 9 3) Plausibiliteit controleren - Kritieke waarde Ook hier wordt er gebruik gemaakt van een tabel, meer bepaald deze van de T- verdeling. In deze tabel ga je locatie moeten zoeken aan de hand van de vrijheidsgraden. Er is hier wel een verschil met de F-test en dat is dat een T-test een dubbelzijdige test is. Hierdoor gaat de interpretatie iets anders zijn dan voorheen. Een dubbelzijdige test wilt dus ook zeggen dat je twee kritieke waarden gaat moeten opzoeken (een positieven en een negatieve). Het gemakkelijke aan deze verdelingen is dat ze een spiegelbeeld vormen. Wat ik hier mee wil zeggen is dat de positieve kritieke waarde het zelfde is als de negatieve, met het verschil dat er een - voor staat. In de praktijk ga je dus maar 1 waarde moeten opzoeken. t n k 1,1 α 2 t n k 1,1 α 2 n-k-1: is het zelfde als voorheen n: aantal deelnemers / patiënten k: aantal x variabelen (bij enkelvoudige regressie is dit altijd 1) 1 α : omdat een T-test een dubbelzijdige test is, ga je de α 2 delen door 2. Dit omdat je nu langs twee kanten van een verdeling moet kijken. Zoals je in de afbeelding kunt zien en zoals eerder vermeld ga je een tweezijdige test doen. De berekende test statistiek kan dus ook negatief zijn (de b in de formule kan namelijk negatief zijn). Dit is wel belangrijk voor de uiteindelijke interpretatie van de gegevens.

11 10 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Ook hier moet je rekening houden met het feit dat de T-test een dubbelzijdige test is. De p-waarde ligt dus verdeeld over de twee kanten. Om de totale P-waarde te willen weten ga je de waarde die je in de tabel kan aflezen nog moeten verdubbelen. Opzoeken van de p-waarde in de tabel van de t-verdeling p-waarde is de kans dat de t-verdeling nog extremer of even extreem is dan de berekende t-waarde. Om de p-waarde te bepalen ga je de tabel andersom moeten gebruiken als bij het bepalen van de kritieke waarde. a) Bereken de t-waarde. b) Ga in de t-verdeling tabel naar de rij met vrijheidsgraad n-k-1. c) Ga op zoek naar de berekende t-waarde. De overeenkomende u (= 1 α p waarde ) ga je nog moeten aftrekken van 1 om te 2 2 bekomen en deze nog eens verdubbelen om de p-waarde te bekomen. d) Indien de berekende t-waarde niet exact in de tabel staat ga je zo goed mogelijk moeten definiëren waar de p-waarde zich zal bevinden (door gebruik te maken van < en >).

12 11 - Betrouwbaarheidsinterval (= CI) Een betrouwbaarheidsinterval is een schatting van een marge die de precisie van de geschatte parameter weergeeft. Daarnaast geeft het ook een beeld van de significantie. o Een kleine marge betekend dat de schatting redelijk accuraat zal zijn o Indien de marde 0 bevat bestaat de kans dat de H0 correct is dus je kan niet met zekerheid zeggen dat het significant is. Als het betrouwbaarheidsinterval de 0 niet bevat gaat het wel significant zijn. Een CI geeft dus meer informatie over de gegevens dan enkel de kritieke waarde of de p-waarde. Een CI kan berekend worden voor verschillende zaken Voor de regressie parameters (α en β). Door het significantie niveau aan te passen kan je bepalen hoe strikt je het CI wilt hebben. (een CI van 100% is onmogelijk) Voor de voorspelling gemaakt met behulp van lineaire regressie. Hier kunnen we nog een extra onderscheid maken. Er kan namelijk nog gekeken worden of we een voorspelling maken voor een individu of voor een groep. Gemiddeld gezien ga je bij een groepsvoorspelling een CI bekomen dat nauwer is dan voor het maken van een individuele voorspelling. Dit omdat je bij een individuele voorspelling te maken kunt hebben met een extreme observatie. In een groep gaat hier voor zekere mate gecompenseerd worden.

13 12 Voorbeeld CI berekening bij betrouwbaarheid level van 95% Slope (b) = b ± t α n k 1,1 se(b) 2 = 0,608 ± 2,045 0,1468 Se(b) : standaard error van de slope (b) t α n k 1,1 : opzoeken in t-verdelingtabel 2 [0,308 ; 0,908] Intercept (a) = a ± t α n k 1,1 se(a) 2 = 21,5234 ± 2,045 2,6204 [16,16 ; 26,88] Se(a) : standaard error van het intercept (a) t α n k 1,1 : opzoeken in t-verdelingtabel 2 Het berekenen van het CI van a is minder belangrijk en wordt niet echt gedaan. Individuele voorspelling (FEV voor iemand met lengte:160 cm) y = x(height) = y ± t α n k 1,1 se 1 (y ) 2 = 2.90 ± ,126 y = y = 2.90 [2,62 ; 3,18] se 1 (y ) = s 2 xy [1 + 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ se 1 (y ) = 0,126 ( )² + ] 2288 Groepsvoorspelling (FEV voor groep met allemaal een lengte van: 160 cm) = y ± t α n k 1,1 se 2 (y ) 2 = 2.90 ± ,036 [2,82 ; 2,98] se 2 (y ) = s 2 xy [ 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ 1 12 ( )² + ] 2288 se 1 (y ) = 0,036 In dit voorbeeld is duidelijk te zien dat de CI voor een groepsvoorspelling nauwer is dan voor een individuele voorspelling

14 13 Assumpties voor lineaire regressie 1) Er moet een lineair verband zijn om aan lineaire regressie te doen. Voor elke gegeven x moet de corresponderende y een gemiddelde waarde hebben van a + bx. (welke een lineaire functie is van x) 2) Residuals moeten normaal verdeeld zijn!! De foutenterm moet normaal verdeeld zijn Voor elke gegeven x, de corresponderende y is normaal verdeeld met een gelijke variantie σ 2 voor elke x. 3) Foutentermen moeten onafhankelijk zijn (ze mogen niet samenhangen) De fout die je maakt op een voorgaande observatie mag niet afhankelijk zijn van een voorgaande observatie. Hoe te controleren voor de assumpties: a) Controleer de normaliteit van de residuals. Dit kan met behulp van de shapiro-wilk normality test o H 0: residuals zijn normaal verdeeld o H 1: residuals zijn niet normaal verdeeld o P > α H 0 aanvaarden b) Kijk naar je gegevens (op een x-y scatterplot). In het voorbeeld hieronder zien we dat, hoe hoger het estriol gehalte wordt, hoe verder de punten verspreid liggen rond de regressielijn. Dit zie je uiteraard liever niet. (varianties moeten gelijk zijn) In deze plot kunnen we zien dat de gegevens geen curvilineariteit bevatten (dus lineair karakter hebben). c) Kijk naar de scatterplot van de residuals VS de voorspelde waardes van y. Hier kan je gaan zien of er homoscedadiciteit (gelijke variantie) is of niet. Je wilt in deze figuur liefst een random scattering zien, geen funnel bijvoorbeeld.

15 14 Wat als het blijkt dat de gegevens niet normaal verdeeld zijn: Transformeren van de afhankelijke variabele (y) op een ander schaal. = variance stabelizing transformation Meest gebruikte methodes zijn: o Vierkantwortel transformatie o Ln transformatie Correlatie coëfficiënt (r) In sommige gevallen zijn we niet zo zeer geïnteresseerd in het schatten van een afhankelijke variabele (y). Soms willen we gewoon achterhalen of twee variabelen gecorreleerd zijn met elkaar (of er een relatie is tussen de twee). Dit kunnen we doen aan de hand van het bepalen van een correlatie coëfficiënt (Pearson). Voor enkelvoudige regressie kunnen we stellen dat R² (wat eerder behandeld werd) het zelfde is als r² (correlatie coëfficiënt²). r = L xy L XX LYY Assumpties: T-test: X en Y moeten normaal verdeeld zijn Indien ze niet normaal verdeeld zijn kan je: o De gegevens transformeren o Een non parametrische test gebruiken (spearman) De spearman zou je in principe altijd kunnen gebruiken (ook bij normaal verdeelde gegevens) maar wordt enkel gebuikt bij niet normaal verdeelde gegevens. Om de significantie te testen van de correlatie. 1) Hypothese formuleren H 0 : ρ = 0 VS. H 1 : ρ 0 2) Teststatistiek (toetsingsgrootheid bepalen). t = r (n 2) 1 r²

16 15 3) Toetsen - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Het berekenen van de p-waarde gebeurt identiek zoals eerder besproken bij de t-test. Het is gewoon belangrijk dat je onthoudt dat je hier met een dubbelzijdige test zit. 4) Assumpties moeten gecontroleerd worden!!! Z-test Stel: je wilt onderzoeken of een bepaalde correlatie al dan niet verschillend is met een andere waarde dan 0. Als je bijvoorbeeld op basis van literatuur of voorgaande ervaringen hebt gezien dat je de correlatie beter kan testen ten opzichten van 0,5 (dus dat de H 0 : ρ = ρ 0 = 0,5). Dit kan gedaan worden met behulp van een Z-test. 1) Om deze test te kunnen doen is het eerst nodig om de z en de z 0 te bepalen. Dit kan aan de hand van de z-transformatie op de correlatie coëfficiënt r. 2) Bereken de teststatistiek λ

17 16 3) Toetsen - Kritieke waarde Z 1 α 2 Z 1 α 2 Om de te zien of de H0 al dan niet verworpen kan worden ga ja ook hier weer gebruik maken van een tabel. Deze keer de tabel van de Z-verdeling (=normaal verdeling). Er zijn verschillende tabellen waar je gebruik va nkan maken, afhankelijk van de situatie. De B kolom is, persoonlijk, het meest eenvoudige toe te passen. - P-waarde Neem de Z-verdeling tabel en zoek de berekende λ in de eerste kolom (x) Ga dan naar het overeenkomstige getal in de kolom B Verdubbel deze waarde om de totale p-waarde te bekomen. Deze zelfde test kan ook gebruikt worden om twee correlaties met elkaar te vergelijken. Is de correlatie van groep 1 vergelijkbaar met die van groep2? o Bijvoorbeeld: het vergelijken van 2 landen met elkaar. (belgen VS nederlanders) 1) Het begin is hier het zelfde als bij de voorgaande. Bereken de z van beide groepen. 2) Bereken de test statistiek 3) Toetsen van de waarde Dit is identiek als de vorige z-test.

18 17 Tot nu toe hebben we enkel een model gebruikt waar dat we met één predictor variabele (x) één afhankelijke variabele (y) proberen te schatten. Het kan echter ook zijn dat je evidentie hebt dat die ene predictor variabene niet alles kan verklaren. Er zijn eventueel nog andere predictor variabele die samen het volledige model kunnen verklaren. Om dit te testen kunnen we meervoudige lineaire regressie gebruiken. y = α + β 1 x 1 + β 2 x β k x k + e Ook hier ga je de methode van least sum of squares gebruiken om de regressielijn te kunnen formuleren en om α en β k te bepalen. Omdat deze berekeningen te ver gaan, zal op het examen een output gegeven worden uit R. in deze output is het wel mogelijk dat enkele zaken weggelaten worden die je aan de hand van de rest wel kan bepalen. Als voorbeeld gaan we onderzoeken wat de relatie is tussen bloeddruk van een pasgeborene en een volwassenen. Hierbij is er echter een probleem gedetecteerd dat er enkele externe factoren de bloeddruk van pasgeborenen kunnen beïnvloeden. - Geboortegewicht - Hoeveel dagen na de geboorte de bloeddruk gemeten werd. Deze twee variabelen zullen we dus betrekken in ons model om een correcter antwoord te kunnen formuleren. y = α + β 1 x 1 + β 2 x 2 + e sum sq Df = mean sq Reg MS = sum sq (birthweight)+ sum sq (age) k Res MS = sum sq residuals n k 1 Reg MS Res MS = F waarde estimate std.error = t waarde Y = 53,45 + 0,126x 1 + 5,89x 2 Partieel regressie coëfficiënt De schattingen van β 1, β 2,, β j zijn partiele regressie coeficienten. Dit wilt zeggen dat ze respectievelijk de gemiddelde toename in y per unit x 1, x 2, x j voorstellen, wanneer alle andere variabele constant gehouden worden (in andere worden na adjusting voor alle andere variabelen).

19 18 De variabelen β 1, β 2, β j zeggen dus iets over de invloed van een bepaalde x variabele op de y variabele. En dat wanneer je corrigeert voor de andere variabelen in het model. Het voordeel van multiple regressie is dat je al die variabelen samen kan onderzoeken. Door ze samen in een model te steken en niet allemaal afzonderlijk te analyseren zoals bij enkelvoudige regressie, ga je rekening houden met alle (andere) factoren die een invloed hebben op y. o De variabelen die je in je model steekt zijn dus allemaal deels verklarend (partieel) voor y. Is hierdoor dus accurater dan de enkelvoudige regressie Aangezien er hier meerdere predictor variabelen zijn, kan je u afvragen welke van deze variabelen nu de grootste impact heeft op het voorspellen van y. Het is in dit geval niet mogelijk om enkel te kijken naar de verschillen van de onderlinge beta s. Deze kunnen namelijk een verschil in sprong maken per unit. Het verschil tussen het meten van de bloeddruk op dag 1 of op dag 2 gaat een groot verschil met zich meebrengen (omdat je hier de variabele gaat vermenigvuldigen met 1 of met 2 respectievelijk) zie model. Als je dit gaat vergelijken met de invloed van een verschil in geboortegewicht van 100 of 101g, dan zie je dat het verschil van de sprong van ene variabele extremer is dan de sprong van de andere variabele. In dit geval is het dus aan te raden om de gegevens eerst te standaardiseren vooraleer er een vergelijking gemaakt wordt. De gestandaardiseerde regressie coëfficiënt: b s = b ( s x s y ) s x : standaard deviatie van x s y : standaard deviatie van y Dit moet je dus berekenen voor alle x variabelen en voor de y variabele. Berekenen van een standaard deviatie: - Bepaal het gemiddelde van x i (of y) - Bereken van elke waarde het verschil met het gemiddelde (deviatie) - Kwadrateer nu alle deviaties - Neem hier het gemiddelde van - Neem nu de vierkantswortel van dit gemiddelde Om dit terug te brengen naar het voorgaand voorbeeld: In deze gestandaardiseerde gegevens is te zien dat het geboortegewicht toegenomen is in belangrijkheid en dat leeftijd serieus gedaald is (in vergelijking met de niet gestandaardiseerde waarden). Het is echter wel nog duidelijk dat de leeftijd nog steeds een grotere impact heeft op de SBP dan geboortegewicht. De interpretatie van deze gestandaardiseerde waarden is wel iets ingewikkelder geworden.

20 19 De gemiddelde toename in SBP is 0,352 standaarddeviatie units van bloeddruk per standaarddeviatie toename in geboortegewicht (waarbij de leeftijd constant gehouden wordt). De gemiddelde toename in SBP is 0,833 standaarddeviatie units van bloeddruk per standaarddeviatie toename in leeftijd (waarbij het geboortegewicht constant gehouden wordt). Hypothese testen in multiple regressie F-test Met deze test kan er gecontroleerd worden of het wel nut heeft om met het gemaakte model aan regressie te doen. Er gaat dus gecontroleerd worden of er in het model minstens 1 β significant verschillend is van 0. Je krijgt hier geen beeld over welke, of hoeveel, variabele(n) een significant resultaat geven. Na de F-tets kan er geconcludeerd worden of het model de moeite is om tijd in te steken en verdere analyses te doen. 1) Bepalen van de hypothese H 0: alle β = 0 VS. H 1: minstens 1 β 0 Is het zelfde als : H 0: R² =0 VS H 1: R² 0 2) Berekenen van de test statistiek (toetsingsgrootheid) ook hier op basis van Res MS en Reg MS. Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares Reg SS = k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling.

21 20 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen. - kritieke waarde F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) - p-waarde zie F-test (pagina 7) T-test als de F-test evidentie geeft om H0 te verwerpen wilt dat zeggen dat er in het model minstens 1 x-variabele een significante predictive variabele is. Om te achterhalen welke variabelen dit zijn ga je een t-test moeten uitvoeren voor alle x variabelen. 1) Opstellen van een hypothese. H 0: β j = 0 VS. H 1: β j 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

22 21 3) Toetsen van de teststatistiek Idem als eerder: - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 n: aantal deelnemers / patiënten k: aantal x variabelen α: significantieniveau - P-waarde - Betrouwbaarheidsinterval 4) opmerkingen - aandacht voor confounders!! Zie later er zijn statistische programma s om de keuze van de variabelen te verifiëren. (controleren of er geen confouding variabelen tussen zitten) dit door middel van forward of backwards selection - multicollinearity wanneer twee variabelen sterk aan elkaar gerelateerd zijn opgenomen worden in het model. Wanneer er dan gecontroleerd wordt voor de andere variabelen is te zien dat geen van beide een significant resultaat geeft. Voorbeeld: als je per ongeluk een variabele gender en sex opneemt in het model. Dat is twee keer het zelfde dus als je hier voor gaan controleren ga je nooit een significant resultaat bekomen (al zou dit wel kunnen zijn). Dit is uiteraard een heel extreem voorbeeld. 5) Assumpties - De zelfde assumpties dienen gecontroleerd te worden als bij enkelvoudige lineaire regressie. - Controleer aan de hand van (partial) residual plots Lineair verband Gelijke varianties en normaal verdeeld Foutentermen zijn onafhankelijk van elkaar Y variabele moet normaal verdeeld zijn, de x variabele niet Plotten van je gegevens kan een beeld geven van de verdeling van je observaties. Zo kun je eventuele outliers detecteren (en mogelijk weglaten). Eerst het volledige model plotten (scatterplot) Daarna kan je de partiele coëfficiënten nog eens plotten. Outliers ga je zien op alle plots die je maakt.

23 22 Na het weglaten van de outlier kan je nog eens een plot maken om te zien of de resultaten nu ook effectief beter verdeeld zijn. Indien er een outlier gedetecteerd wordt en deze wordt verwijderd ga je opnieuw de berekeningen maken van voorheen maar nu met de aangepaste data set. Het verwijderen van outliers moet doordacht en met duidelijke reden gebeuren. Het random karakter van de data set gaat hierdoor wat minder overtuigend zijn. Opmerkingen over multiple regressie: Een 2-sample t-test met gelijke varianties (waar je dus twee groep-gemiddelden met elkaar vergelijkt van normaal verdeelde data) is equivalent aan een lineaire regressie model (y = a+bx + e) waar y de uitkomst variabele is en x gelijk gesteld wordt aan 1 of 0 (1: deelnemer zit in de groep; 0: deelnemer zit niet in de groep) en waar e normaal verdeeld is met variantie σ 2 en gemiddelde 0. Het is dus mogelijk om aan de hand van een lineair regressie model een t-test te doen. Hiervoor moet er wel gebruik gemaakt worden van dummy variabelen die het mogelijk maken om groepen te onderscheiden (0 of 1). De R² bevat ook nog een probleem. Het is namelijk zo dat, wanneer er meer predictor variabelen toegevoegd worden aan een model voor multiple regressie, de R² altijd zal toenemen. Dit zou betekenen dat, als je er gewoon voor zorgt dat er voldoende predictor variabelen in het model zitten je altijd een goed model bekomt. Uiteraard is dit niet correct en moet hiervoor een correctie ingevoerd worden. Daarom is het mogelijk om de adjusted R² (R 2 adj ) te bepalen. Rank correlation 2 R adj 2 R adj n 1 Res SS = 1 ( ) n (k + 1) Reg SS n 1 = 1 ( ) (1 R²) n (k + 1) Om de correlatie (relatie) te bepalen tussen twee variabelen die beide normaal verdeeld zijn kan er gebruik gemaakt worden van de Pearson correlatie coëfficiënt. Echter wanneer de gegevens niet normaal verdeeld zijn is dit niet mogelijk en moet er gezocht worden naar een alternatief. Er bestaan non-parametrische testen waarbij de gegevens niet normaal verdeeld moeten zijn. De non-parametrische test voor een correlatie te bepalen is Spearman rank correlatie coëfficiënt (er zijn meerdere non-parametrische testen om dit te bepalen). Deze test is gelijkaardig aan de Pearson correlatie test echter gaat er hier gebruik gemaakt worden van de ranks in plaats van de directe gegevens.

24 23 t- test voor spearman rank correlatie 1) Berekenen van test statistiek t s = r s n 2 1 r s 2 2) Toetsen van test statistiek aan: - Kritieke waarde - P-waarde 2-zijdie test!! 3) Opmerking Deze test is enkel mogelijk vanaf een steekproef grootte van 10 Voorbeeld: (slide 115) APGAR score 1M APGAR score geragschikt 1M rank nummer 1M rank nummers gecorrigeerd 1M , , , , , , , , , , , , , ,5

25 24 Alle warden zijn vervangen door het corresponderende rank nummer. Indien er twee identieke observaties zijn (in dit geval 2 baby s met een zelfde APGAR score) gaat het gemiddelde genomen worden van alle rank nummers gekoppeld aan die waarden. Hoofdstuk 12: multisample inference Multisample: wanneer je meer dan 1 dataset hebt Inference: gevolgstrekking (wat kan je uit iets afleiden; de besluiten die je uit iets kan trekken) In het vorige hoofdstuk werd enkel gewerkt met 1 data set. Wat als je nu meerdere steekproeven genomen hebt (meerdere groepen)? o In dit geval kan er gewerkt worden met ANOVA (analysis of variance) Het ANOVA model kan bekeken worden als een regressie model. een t-test is namelijk de meest eenvoudige vorm van ANOVA en zoals eerder besproken kan je een t-test doen aan de hand van een regressiemodel. Voorbeeld van ANOVA:

26 25 In dit voorbeeld wil je dus onderzoeken wat het effect is van verschillende rookgewoontes op de longinhoud (FEF). Je zit dus met verschillende groepen die je onderling wilt vergelijken met een continue variabele (FEF). One-way ANOVA Er wordt hier gesproken van een one-way ANOVA omdat er maar door 1 variabele een onderscheid gemaakt wordt (het rookgedrag). Als je bijvoorbeeld nog gaat willen controleren of er naast het rookgedrag ook nog een verschil gaat zijn in FEF bij het rookgedrag en het geslacht (dus dat bijvoorbeeld in de groep van zware rokers nog een verschil te zien in tussen mannen en vrouwen), dan heb je een two-way ANOVA. Dat gaat zo verder per toevoeging van categorische variabelen. In een one-way ANOVA ga je de gemiddelden van elke groep (welke normaal verdeeld zijn met een gelijke variantie) kunnen vergeleken worden. Er gaat dus gekeken worden of de variabiliteit in de data voornamelijk komt van variabiliteit in de groepen of door variabiliteit tussen de groepen. One-way ANOVA fixed effect model Het model: y ij = µ + α i + e ij y ij : de j e observatie in de i e groep. µ : constante die voor elke observatie geld (gemiddelde over alle groepen heen) α i : stelt het deel voor dat eigen is aan de ie groep (kan positief of negatief zijn). Het is dus een constante eigen aan de groep. (het gemiddelde verschil met µ). e ij : foutenterm van specifieke observatie (kan positief of negatief zijn) De foutenterm e ij moet normaal verdeeld zijn met een gemiddelde 0 en een variantie van σ 2. Is een basis assumptie. Een observatie van de i e groep is normaal verdeeld met gemiddelde µ + α i en variantie σ 2. Ideaal gezien zouden we voor elke groep een gemiddelde α i moeten kunnen bepalen en een overall constante µ. Dit is echter niet mogelijk aangezien we maar k geobserveerde gemiddelde waarden hebben voor de k groepen welke gebruikt worden om k+1 paramater te schatten. Hierdoor zijn we verplicht om de parameters te beperken zodat we enkel k parameters moeten schatten. o De methode die wij gebruiken is dat we ervoor zorgen dat de som van de α i s gelijk is aan 0

27 26 Uitleg van de prof: aanvankelijk is µ een (gewone) constante (nog niet "the underlying mean of all groups taken together") en αi een constante specifiek voor de ide groep. En dan heb je k+1 constanten te schatten (k van de alfa's en nog een voor µ), en dat gaat niet met de info van de k groepen. Maar als men de µ wel gelijkstelt aan de "the underlying mean of all groups taken together" dan stelt αi het verschil voor tussen het gemiddelde van de ide groep en µ. En dan heb je dat de som van de αi's 0 is zodat je niet alle alfa's moet kennen want als je ze allemaal kent behalve één dan kan je de laatste ook kennen want hun som is nul. Fixed-effect model: Het fixed-model verwijst naar wat je wilt onderzoeken en hoe dit opgenomen is in het design van de studie. In een fixed model gaat het design van de studie er voorzorgen dat je specifieke groepen wilt vergelijken. Voorbeeld: Als we het voorbeeld er bij halen waar we geïnteresseerd zijn in de invloed van rookgedrag op de longinhoud (FEF). Stel dat we bij aanvang van de studie vastgelegd hebben dat we geïnteresseerd zijn in het onderzoeken van het verschil in FEF tussen passief rokers en niet rokers. Het studie design zal zo opgesteld zijn dat we uiteindelijk die twee groepen met elkaar kunnen vergelijken. De groepen zijn dus vastgelegd (fixed) bij aanvang van het onderzoek. Het tegenovergestelde is het random effect model. Hier ben je niet zo zeer geïnteresseerd in het vergelijken van twee bepaalde groepen maar ben je eerder op zoek naar een algemene vraag. Voorbeeld: Je wilt de longinhoud vergelijken wereldwijd (je bent dus geïnteresseerd of nationaliteit een rol speelt op je FEF). Je doet een onderzoek in Leuven (multiculturele stad) en noteert gewoon van elke participant de nationaliteit. Met deze gegevens doe je een ANOVA. Je wilt algemeen kunnen besluiten dat nationaliteit een invloed heeft op FEF. Je hebt hier dus niet specifiek gezocht naar bepaalde nationaliteiten om te vergelijken maar je hebt gewoon een random steekproef genomen en gezien dat er verschillende nationaliteiten zijn. random effect

28 27 Hypothese testing in one-way ANOVA fixed model We willen dus twee groepen met elkaar vergelijken en zien of ze significant verschillend zijn van elkaar. Meer bepaald willen we onderzoeken of de variabiliteit tussen twee groepen significant is en we willen daarbij ook uitsluiten dat het geobserveerde verschil niet komt door een grote variabiliteit in de groepen. We kunnen dit terug brengen naar de volgende formule: y ij : de j e observatie in de i e groep. y : algemeen gemiddelde over alle groepen heen y i : gemiddelde van 1 bepaalde groep. (y ij y i) : within group variabiliteit (y i y ) : between group variabiliteit Ideaal gezien zouden we dus een data set willen hebben waarbij de within group variabiliteit klein is en waar de between variabiliteit groot is. Ideale omstandigheden: kleine within variatie (dus alle observaties liggen dicht bij elkaar) en grote between variatie (de verschillen tussen de groepen zijn groot). Als je dit model hebt zal de kans groot zijn dat de H 0 verworpen zal worden. Niet ideaal!: grote within variabiliteit (veel variantie tussen de observaties in een zelfde groep) kleine between variabiliteit (de verschillen tussen de groepen is niet uitgesproken, dit is ook te zien doordat de groepen elkaar overlappen is een indicatie dat de bewteen variabiliteit niet goed is). Als je dit model hebt zal de kans groot zijn dat H 0 aanvaard zal worden.

29 28

30 29 F-test Het doel hier is het zelfde als bij lineaire regressie. Proberen te achterhalen of het wel nut heeft om verder te gaan met dit model. Meer specifiek ga de alfa s analyseren en zien of er überhaupt ergens een alfa significant verschillend is tussen twee groepen. In het voorbeeld ga je dus willen kijken of er ook maar 2 groepen met elkaar significant verschillen. Je gaat niet specifiek kijken welke groepen gewoon in het algemeen. Of de longinhoud van één van de groepen (met verschillend rookgedrag) significant verschillend is met een andere groep (met ander rookgedrag). Net zoals bij lineaire regressie ga je dit willen bepalen aan de hand van Res MS en Reg MS. Deze waarden kunnen we afleiden uit eerder vermelde formule. Ook in deze formule gaan we alles kwadrateren om ervoor te zorgen dat we niet altijd 0 gaan uitkomen en we de groepen ook kunnen vergelijken. Om deze waarden te berekenen kunnen volgende formules gebruikt worden.: Between SS = k i=1 n i y i 2 y.. 2 n = [(n 1 y 2 2 ) + (n 2 y 2 2 ) + + (n i y i 2 )] y.. 2 between MS = between ss k 1 n

31 30 k Within SS = (n i i=1 1) s i 2 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k Nu de within en between MS bepaald zijn kunnen deze gebruikt worden om de F-test uit te voeren. 1) Bepalen van de hypotheses H 0: α i = 0 voor alle groepen VS. H 1: minstens 1 α i 0 Als H0 waar is zullen de gegevens de F-verdeling volgen met k-1,n-k-1 vrijheidsgraden. 2) Berekenen van de teststatistiek f = Between MS Within MS 3) Toetsen van test statistiek - Kritieke waarde F k 1,n k 1,1 α - P-waarde Als de berekende f-waarde > dan de kritiekewaarde H 0 verwerpen Als de berekende f-waarde dan de kritieke waarde H 0 aanvaarden p = Pr(F k 1,n k 1 ) > f De kans dat de F-verdeling een meer extreme waarde zou geven dan de waarde die we meten. Als die kans klein is geloven we niet dat dit zo zal zijn en verwerpen we H 0. Indien H 0 verworpen kan worden kunnen we aannemen dat ergens in het model twee groepen zijn met een significant gemiddeld verschil tussen de variabelen. Om nu te kunnen achterhalen welke groepen dit juist zijn kunnen we een t-test gaan doen. Deze t-test zal afzonderlijk moeten gedaan worden (dus alle groepen afzonderlijk met elkaar vergelijken).

32 31 t-test Controleren welke groepen significant verschillen van elkaar. Vergelijken van paren van groepen (Vb.: passief rokers VS niet rokers) 1) Hypothese opstellen H 0: α 1 = α 2 VS. H 1: α 1 α 2 2) Berekenen van de gepoolde variantie (s²) Deze heb je nodig om de teststatistiek te kunnen bepalen. s² = within MS van de one way anova 3) Berekenen van de teststatistiek t = y 1 y 2 s 2 ( 1 n n 2 ) Indien H0 correct is zullen de gegevens de t verdeling volgen met n-k vrijheidsgraden. het grote verschil tussen een gewone t-test en deze in ANOVA, is dat je hier ook informatie betrekt van de volledige populatie (je doet een t-test tussen twee groepen, rekening houdend met alle groepen door de s² te integreren). Bij ANOVA maak je gebruik van de variantie over alle groepen. Je doet dit omdat je er toch vanuit gaat dat alle varianties gelijk zijn in alle groepen. Dus als je de variantie kunt gebruiken van alle groepen samen, ga je een meer accurate representatie krijgen van de variantie in de totale populatie. Indien je redenen hebt om te geloven dat de varianties niet in alle groepen gelijk zijn, dan kan je geen ANOVA doen. in dit geval kan je beter een gewone 2 sample t-test doen met enkel de varianties van de twee groepen. Deze test is wel nog mogelijk met ongelijke varianties. 4) Toetsen - Kritieke waarde 2-zijdige test!! Dus denk er aan dat je aan twee kanten moet kijken (maken van een figuur!!) - P-waarde 2-zijdige test!!! De p-waarde die je gaat aflezen in de tabel moet je nog eens verdubbelen. Bij het maken van een tekening moet je de p/2 aanduiden aan beide kanten van de gauscurve. Deze methode wordt ook wel LSD genoemd (least significant difference).

33 32 Lineair contrast In een situatie waar je geïnteresseerd bent om een verzameling van groepen te vergelijken met een andere verzameling van groepen. Bijvoorbeeld als je niet rokers wilt vergelijken met inhalerende rokers (onder inhalerende rokers worden zowel de lichte rokers, medium rokers als zware rokers bedoeld). Berekenen van het lineair contrast (L) k L = c i y i i=1 Waarbij de som van de coëfficiënten (c i ) = 0 Berekenen van de t-test a. Hypothese formuleren H 0 = µ L = 0 VS H 1 = µ L 0 µ L = gemiddelde lineair contrast b. Gepoolde schatting van de variantie s² bepalen (= within MS) 2 Within SS = (n i 1) s i k i=1 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k c. Berekenen van lineair contrast

34 33 k L = c i y i i=1 d. Bepalen van de teststatistiek L t = s 2 k c i 2 i=1 n i t = L se(l) e. Toetsen i. Kritieke waarde ii. P-waarde Multiple comparisons In normale omstandigheden ga je bij aanvang van uw onderzoek definiëren wat je wilt onderzoeken en welke groepen je wilt gaan vergelijken. Als je eerst naar de data gaat kijken en dan zien wat er allemaal getest kan worden zijn er veel mogelijkheden. Als je te veel gaat testen, bestaat de kans dat de significante verschillen die je detecteert enkel komen door toeval. Doordat je de testen gaat doen men een significantieniveau (α: 0,05) laat je 5% kans op een fout toe. (5% kans om een extreme groep waar te nemen in je onderzoek). Als je veel zaken gaat vergelijken in 1 onderzoek gaat die α opbouwen (want je laat bij elke meting 5% kans op het maken van een fout toe). o Als je 10 t-testen na elkaar doet op de zelfde data set is de kans groot dat je 1 significant resultaat bekomt dat eigenlijk niet significant is (dus dat je een meting tegenkomt die binnen die foutmarge van α (5%) zit. o Bij 1 t-test valt die fout nog mee, maar als je meerdere testen gaat uitvoeren gaat die fout cumuleren (bv als je 2 testen doet op dezelfde data set ga je in de plaats van een foutmarge van 5%, een foutmarge krijgen van 10% en dat gaat zo verder. Dit concept wordt ook het multiple comparison probleem genoemd. Je kan bepalen hoe groot de kans is op het maken van een fout bij het maken van meerdere testen. Bijvoorbeeld: als je 6 groepen hebt Hier kan je 15 paren mee maken (en dus ook vergelijken) dit is enkel voor gepaarde t-test (niet bij lineair contrast omdat er hier oneindig veel mogelijkheden zijn, hiervoor is een andere methoden bedacht) Elk van deze 15 vergelijkingen draagt een foutmarge van α (5%)

35 34 Probabiliteit (minstens 1 vals positieve t-test) = 1-pr(geen vals positieve t-test) = 1-0,95 15 = 1-0,46 = 0,54 Je hebt met dit voorbeeld dus 54% kans om een vals positieve t-test te bekomen. (een significant resultaat terwijl het niet significant is) Voor deze redenen zijn er dus enkele correctie methoden geïntroduceerd die hier rekening mee kunnen houden. - Bonferroni - Scheffé Bonferroni: Is een heel gekende correctie maar is ook zeer streng. Na deze correctie ben je zo goed als zeker dat je geen vals positieve resultaten bekomt o Het is echter ook wel zo dat de kans op het überhaupt bekomen van een significant resultaat sterk zal dalen. Deze gedaalde kans op het bekomen van een significant resultaat kan vooral een groot effect hebben bij een data set waar de significantie sowieso maar klein gaat zijn. Bonferroni ontneemt u ook een deel om significantie te ontdekken, je moet al een heel significant resultaat bekomen om deze na correctie nog te behouden. Bij de bonferroni correctie ga je de α strenger maken bij een toenemend aantal testen dat je doet. α waar c = het aantal testen dat je doet. c Concreet wilt dit zeggen dat je in het voorbeeld van eerder (met de 6 groepen) niet meer gaat vergelijken op een α (0,05) maar op een α (0,0033). α = 0,05 = 0,0033 c 15 je gaat in dit voorbeeld dus pas concluderen dat een vergelijking significant is als de p-waarde kleiner is dan 0,0033. Scheffé: Indien je lineaire contrasten wilt doen welke niet gepland zijn bij aanvang van het onderzoek maar welke gesuggereerd worden na het bekijken van de data, biedt scheffé een goede correctie voor dit multiple testing probleem. Voor lineaire contrasten is het nodig om een andere correctie methoden te gebruiken dan bonferroni aangezien het hier minder eenvoudig is om het aantal lineaire contrasten vast te leggen, het kunnen er namelijk oneindig veel zijn.

36 35 Methode: 1) Berekenen van test statistiek t = t = L s 2 k c i 2 L se(l) i=1 n i = identiek aan de berekening van een gewoon lineair contrast. 2) Bepalen kritieke waarde c 2 = (k 1) F k 1,n k 1,1 α c 1 = (k 1) F k 1,n k 1,1 α Als de berekende t groter is dan c 2 of kleiner dan c 1 H 0 verwerpen Als de berekende t kleiner of gelijk is aan c 2 of groter of gelijk aan c 1 H 0 aanvaarden De kritieke waarde wordt bepaald op basis van de F-verdeling!!

37 36 One-way ANOVA en multiple regressie Deze twee methoden zijn analoog aan elkaar. Je kan ANOVA formuleren als een regressie. Hiervoor moet je gebruik maken van dummy variabelen. Dummy variabelen: Stel dat je k aantal categorieën hebt in je gegevens. Het doel is om twee groepen met elkaar te vergelijken. Je kan dit doen met behulp van dummy variabelen. Een dummy variabelen kan 2 waarden aannemen: 0 of 1. Waarbij 1 gaat verwijzen dat de groep meegenomen wordt in de vergelijking met een referentie waarde en waar 0 verwijst naar het weglaten van die categorie in de betreffende vergelijking. Om dit wat te verduidelijken kunnen we er best het model bij nemen. y = α + β 1 x 1 + β 2 x β k x k + e In dit model gaan de symbolen wel een licht gewijzigde betekenis krijgen dan bij multiple regressie. α = de gemiddelde waarde y voor de subjecten in categorie 1 (de referentiegroep) β j = het verschil tussen de gemiddelde waarde α en de gemiddelde waarde van categorie j. de gemiddelde waarde voor categorie j = α + β j x j = de dummy variabelen ( 1 of 0). e = foutenterm De referentiegroep kan je zelf toewijzen en is veelal afhankelijk van de onderzoeksvraag die je maakt. Voorbeeld: We nemen het voorbeeld terug van de groepen met verschillend rookgedrag. We gaan de groepen willen vergelijken met de non smokers, deze wordt dus de referentiegroep. Alle andere krijgen dus een dummy variabele toegekend. Op die manier kan je de 5 overgebleven groepen één voor één gaan vergelijken met de referentiegroep. categorie dummy variabele x k-1 x 1 x 2 x 3 x 4 x 5 Non smokers (ref) light smokers medium smokers heavy smokers passive smokers non inhaling smokers Als je bijvoorbeeld de light smokers wilt gaan vergelijken met de referentie groep dan ga je bij de categorie light smokers kijken en gebruik je die x en in het model. Houd wel rekening dat de gerelateerde β1 niet de zelfde is als bij multiple regressie (deze is in dit model namelijk de α geworden).

38 37 Fixed effect two way ANOVA Het enige verschil met one-way ANOVA is dat er hier een tweede categorische variabele bij komt. Voorbeeld: We hebben een data set waar we geïnteresseerd zijn om een verband te zoeken tussen bepaalde voedingspatronen en SBP (systolische bloeddruk). Als we het hier bij laten zouden we een one way ANOVA hebben. Echter zijn we ook geïnteresseerd of geslacht een rol speelt in deze verschillen. (je kan bijvoorbeeld wel een verschil detecteren tussen voedingspatroon en SBP maar wat als dat geobserveerde verschil nu veroorzaakt wordt doordat het geslacht in deze groepen verschillend is en het verschil dat we zien eigenlijk veroorzaakt wordt door het verschil in geslacht. als we geslacht meenemen in het model spreken we van een two-way ANOVA. Interactie effect: De twee categorische variabelen (in het voorbeeld voedingsgewoonte en geslacht) interageren met elkaar wat de uitkomst kan beïnvloeden. Als je bijvoorbeeld ziet dat SBP bij SV mannen lager is dan bij NOR mannen maar wanneer je bij de vrouwen kijkt is er geen verschil tussen de twee voedingspatronen. Het is dus duidelijk dat er een interactie is tussen geslacht en voedingspatroon (het effect van één factor (voedingspatroon) hangt af van de andere factor (geslacht). Er is een interactie omdat het effect van het voedingspatroon op SBP verschillend zal zijn tussen mannen en vrouwen. Dit zal de interpretatie moeilijker maken van de afzonderlijke effecten van elke variabele. Het kan dus zijn dat er geen significante interactie is en dat beide variabelen afzonderlijk kunnen bekeken worden. Dit zal getest moeten worden. Ideaal gezien wil je dus een data set waar geen interactie is tussen de variabelen.

Nog meer weergeven