Toegepaste biostatistiek

Maat: px
Weergave met pagina beginnen:

Download "Toegepaste biostatistiek"

Transcriptie

1 Toegepaste biostatistiek 1 e master biomedische wetenschappen

2 1 Hoofdstuk 11: regressie en correlatie methoden Lineaire regressie: hier ga je willen onderzoeken hoe normaal verdeelde uitkomsten gerelateerd kunnen worden met 1 of meerdere predictor variabelen (schattingen), deze kunnen continue of categorisch verdeeld zijn. Standaard formule voor lineaire regressie: Y = α + βx Y= afhankelijke variabele: de variabele waarvoor men een schatting wilt maken X= onafhankelijke variabele of predictor variabele: de variabele die je gebruikt om een voorspelling te maken β= slope (helling van de regressielijn) α= intercept (punt wat x zou zijn wanneer y = 0. Het geeft dus de hoogte weer van de regressielijn) aangezien iedere persoon anders is, is het niet mogelijk om aan de hand van deze standaard formule een correcte schatting te maken voor iedereen. Om deze reden wordt er ook een correctie factor toegevoegd (e). Hierdoor krijg je de volgende formule: Y = α + βx + e Gebruikt voorbeeld in de cursus: e= stelt de variatie voor van tussen personen met een zelfde x variabele. Het is wel noodzakelijk dat e normaal verdeeld is met een gemiddelde 0 en een variantie σ 2. Tijdens de zwangerschap kan het estriol gehalte gemeten worden in de urine. Het estriol gehalte zou een voorspellende (predictor variabele) kunnen zijn voor het geboortegewicht. Om hier een kwantificeerbaar gegeven van te maken, kunnen we een regressielijn proberen te plaatsen tussen deze twee variabelen (geboorte gewicht en estriol concentratie). Voor de formule van lineaire regressie komt dat op het volgende: Y = α + βx + e Y: het geboortegewicht X: het estriol gehalte in de urine α: het estriol gehalte wanneer het geboortegewicht 0 zou zijn. β: hoe sterk het geboortegewicht stijgt of daalt, bij een toename of afname van het estriol gehalte met 1 unit.

3 2!! de correctiefactor (e) moet normaal verdeeld zijn met gemiddelde 0 en variantie σ 2. De variabelen x en y moeten niet noodzakelijk normaal verdeeld zijn. Het effect van σ 2 op de vergelijking. - Als σ 2 = 0, dan krijg je een perfecte lijn van je gemeten punten (x variabelen). Als je daar een regressie lijn door wilt trekken, dan krijg je een perfecte fit. - Als σ 2 0, krijg je een wolk van punten, om hier een regressielijn door te trekken gaat het al wat moeilijker zijn. Je kan wel berekenen wat de beste fit is voor die gegevens. (dit zal ook het meeste voorkomen in realiteit). De oriëntatie van de regressielijn is afhankelijk van de slope (β). Indien de slope negatief is, gaan de waarden een dalend karakter hebben. Dit wilt zeggen dat een stijgende x waarde gepaard gaat met een dalende y waarde. Daarnaast kan je ook concluderen, indien de slope nul zou zijn, er geen relatie is tussen de predictor variabele (x) en de afhankelijke variabele (y). Hypothetisch gezien zou dat voor ons voorbeeld willen zeggen dat, hoe hoger de estriol concentratie, hoe lager het geboorte gewicht zal zijn indien de slope negatief zou zijn. Als de slope positief zou zijn (wat we op basis van onze resultaten ook kunnen waarnemen) gaat een hogere estriol concentratie gepaard met een hoger geboortegewicht.

4 3 Fitting van de regressielijn. Zoals juist al aangehaald, gaan de verzamelde gegevens veelal een wolk van punten gaan vormen wanneer je ze plot. Het vormen van een regressielijn zal dus niet zo eenvoudig zijn. Dit kunnen we echter wel berekenen en dit doen we met de methode van de minste machten (method of least squares). De geschatte regressielijn (least squares line) is de lijn ( Y = α + βx + e) waarbij de som van de gekwadrateerde afstanden tussen gemeten waarde en de regressielijn het laagst is. (we nemen de gekwadrateerde afstanden om te voorkomen dat we altijd 0 uitkommen). Notities: - Raw sum of squares voor x n x i 2 i=1 - Gecorrigeerde sum of squares voor x = L XX n (x i x ) 2 i=1 - Raw sum of squares voor y n y i 2 i=1 - Gecorrigeerde sum of squares voor y = L YY n (y i y ) 2 i=1 - Raw sum of cross products n x i y i i=1 - Gecorrigeerde sum of cross products = L XY n (x i x )(y i y ) i=1

5 4 Berekenen L XX L YY en L XY : - Bereken het gemiddelde van x x - Bereken het gemiddelde van y y - Bereken x - x X - Bereken y - y Y - Kwadrateer X X 2 - Kwadrateer Y Y 2 - Bereken de som van alle X 2 L XX - Bereken de som van alle Y 2 L YY - Vermenigvuldig X elke met Y XY - Neem de som van XY L XY Deze berekende waarden kunnen we nu gebruiken om de vergelijking te vervolledigen. Om zo een regressielijn te vormen die het beste is voor de gegevens die we verzameld hebben. β (ook soms afgebeeld als b) = L XY L XX α (ook soms afgebeeld als a) = y bx Nadat je de regressielijn hebt kunnen opstellen en de formule hebt vervolledigd, is het mogelijk om voorspellingen te maken voor y met behulp van x. Dat is heel het punt van lineaire regressie. Dit doe je door alle gekende gegevens van de formule in te vullen. y = α + βx In ons voorbeeld kunnen we nu dus gaan schatten wat het geboortegewicht zal zijn van een baby tijdens de zwangerschap en dit op basis van het estriol gehalte. Stel dat we bij een vrouw een estriol gehalte gemeten hebben van 10mg/24h. Uit onze berekeningen zien we ook dat het intercept (α) = en dat de slope (β) = y = ( ) = hg 100 = 2760g Uiteraard is het ook nog eens mogelijk om te controleren hoe goed de regressielijn past bij de gegevens die we geobserveerd hebben. Om dit te kunnen nagaan zouden we ook nog een paar extra berekeningen moeten maken. We hebben namelijk de Res SS en Reg SS nodig.

6 5 Res SS: residual sum of squares Deze waarde laat het verschil zien tussen, geobserveerde waarde (x i, y i ) en de geschatte waarde (x i, y i). In andere woorden laat deze waarde zien hoe goed onze schatting gaat aansluiten bij de werkelijkheid. Reg SS: regression sum of squares Hoe kleiner de Res SS, hoe beter. Deze waarde geeft het verschil weer tussen de geschatte waarde y i en het gemiddelde y. In andere woorden geeft de Reg SS een beeld over de helling van de regressielijn. Hoe groter de Reg SS, hoe beter. De beste situatie zou dus een model zijn waar de Res SS zo klein mogelijk is en de Reg SS zo groot mogelijk. Deze goodness of fit kunnen we ook kwantificeren door de R 2 te bepalen. R 2 = Reg SS total SS Waardat total SS = res SS + Reg SS R² zal een waarde aannemen tussen 0 en 1. Een R² van 1 wilt zeggen dat je een perfect model hebt en dat alle variatie in het model verklaard kan worden door de x variabele in het model. Alle geobserveerde data punten vallen op de regressielijn. Een R² van 0 wilt zeggen dat je een waardeloos model hebt. Je kan niets voorspellen met dit model. de x variabelen kunnen niets verklaren van de onzekerheid. Voorbeeld: stel dat je het geboorte gewicht probeert te verklaren aan de hand van de naam van de moeder. = L YY

7 6 Met de R² kan je dus bepalen hoe goed je model zal zijn in het maken van schattingen op basis van de onafhankelijke variabele (x). Hoeveel van de variantie kan verklaard worden door de x variabelen die we in het model zitten? Je kan aan je model meerdere x variabelen toevoegen. Hoe meer x variabelen je kan toevoegen aan het model die gelinkt zijn aan de afhankelijke variabele (y), hoe beter. Bij enkelvoudige regressie is R² = r². r² is de correlatie coëfficiënt tussen x en y (=Pearson) Vooraleer we verder gaan is het ook wel eens nuttig om te controleren of het wel enig nut heeft om aan regressie te doen met het model dat we hebben. Als we een model hebben dat de slope (β) gelijk is aan 0, dan heeft het niet echt zin om verder te gaan met dit model want we kunnen er niets mee voorspellen. Om dit te bepalen kunnen we een F-test doen? F-test Controleren of het wel enig nut heeft om aan lineaire regressie te doen. We gaan hier enkel proberen te achterhalen of de slope verschillend is van 0 (of we dus iets kunnen bepalen aan de hand van dit model). 1) Bepalen van de hypotheses H 0: β = 0 VS. H 1: β 0 2) Berekenen van de test statistiek (toetsingsgrootheid) op basis van de gegevens gevonden in je steekproef. We gaan dit doen aan de hand van de Res MS en de Reg MS Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares = Reg SS k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling. 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen.

8 7 - kritieke waarde De kritieke waarden geeft een soort van cut off waarde. Wanneer de berekende teststatistiek groter is dan deze waarde dan kunnen we ervanuit gaan dat de H 0 niet plausibel is en verwerpen we deze. H1 zal in dit geval meer realistisch zijn. De kritieke waarde kunnen we opzoeken in een tabel (die van de F verdeling). En kunnen we met behulp van de vrijheidsgraden bepalen. F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) Een F-test is een enkelzijdige test, je hebt namelijk altijd een positieve waarde aangezien je de berekeningen doet met gekwadrateerde gegevens. Hierdoor is de F verdeling geen volledige gaus curve maar een halve. - p-waarde hier ga je berekenen wat de kans is op het verkrijgen van een teststatistiek die extremer of gelijk is aan de geobserveerde waarde (berekende f waarde) er van uit gaande dat H 0 waar is. p = Pr (F k,n k 1,1 α f) Om deze waarde te kwantificeren gaan we ook terug gebruik maken van de tabel (van de F-verdeling). Nu gaan we die tabel echter andersom gebruiken. a) Bereken de teststatistiek (f-waarde) b) Ga naar de tabel en zoek de kolom die de vrijheidsgraden aangeeft. (F k,n-k-1).

9 8 c) Nu ga je op zoek naar de f-waarde (in het deel aangegeven door de vrijheidsgraden). De P-waarde zal het inverte zijn van de overeenkomende p (je gaat dus 1- die waarde moeten doen om de p-waarde te bekomen). Als het getal er niet tussen staat ga je de p-waarde zo goed mogelijk proberen te benaderen. Je gaat hiervoor op zoek naar de twee f- waardes waar uw berekende f-waarde tussen ligt. De p-waarde zal dan tussen de twee corresponderende p-waarden liggen. d) De p-waarde geeft de kans dat de geobserveerde waarde links ligt van de kritieke waarde. Een p-waarde kleiner dan de vooropgestelde α geeft dus weer dat we ervan uit gaan dat de kans op het observeren van de waarde die wij in onze steekproef gevonden hebben te extreem is en dat we kunnen besluiten dat de H 0 niet correct is. 4) Conclusie: indien we de H0 kunnen verwerpen en H1 aanvaarden hebben we evidentie om te zeggen we een nuttig model hebben en dat we verder kunnen. Met de F-test kunnen we concluderen of de een x-variabele significant effect heeft op de y-variabele. We kunnen echter niets zeggen over de significantie van het model. met de R² kan je bepalen hoe goed het model is. Nadat we gecontroleerd hebben of het zinvol is om aan regressie te doen (f-test) en we de kwaliteit van het model hebben gecontroleerd (R²), kunnen we nagaan wat de significantie is van de relatie die we aan het testen zijn. Dit doen we aan de hand van een T-test. T-test Achterhalen van de significantie tussen de predictor en de afhankelijke variabele. Voor een enkelvoudige regressie (waar er maar 1 x variabele is) zijn de T-test en de F-test gelijkaardig. Bij meervoudige regressie is hier wel een meer uitgesproken verschil. Hier ga ja namelijk meerdere x variabelen hebben en hier zal de F-test gedaan worden om te controleren of één van die x variabelen en significant resultaat gaat opleveren. Daarna ga je met de T-test de x variabelen afzonderlijk controleren. Procedure voor T-test: 1) Opstellen van een hypothese. Deze is het zelfde als bij de F-test. H 0: β = 0 VS. H 1: β 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

10 9 3) Plausibiliteit controleren - Kritieke waarde Ook hier wordt er gebruik gemaakt van een tabel, meer bepaald deze van de T- verdeling. In deze tabel ga je locatie moeten zoeken aan de hand van de vrijheidsgraden. Er is hier wel een verschil met de F-test en dat is dat een T-test een dubbelzijdige test is. Hierdoor gaat de interpretatie iets anders zijn dan voorheen. Een dubbelzijdige test wilt dus ook zeggen dat je twee kritieke waarden gaat moeten opzoeken (een positieven en een negatieve). Het gemakkelijke aan deze verdelingen is dat ze een spiegelbeeld vormen. Wat ik hier mee wil zeggen is dat de positieve kritieke waarde het zelfde is als de negatieve, met het verschil dat er een - voor staat. In de praktijk ga je dus maar 1 waarde moeten opzoeken. t n k 1,1 α 2 t n k 1,1 α 2 n-k-1: is het zelfde als voorheen n: aantal deelnemers / patiënten k: aantal x variabelen (bij enkelvoudige regressie is dit altijd 1) 1 α : omdat een T-test een dubbelzijdige test is, ga je de α 2 delen door 2. Dit omdat je nu langs twee kanten van een verdeling moet kijken. Zoals je in de afbeelding kunt zien en zoals eerder vermeld ga je een tweezijdige test doen. De berekende test statistiek kan dus ook negatief zijn (de b in de formule kan namelijk negatief zijn). Dit is wel belangrijk voor de uiteindelijke interpretatie van de gegevens.

11 10 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Ook hier moet je rekening houden met het feit dat de T-test een dubbelzijdige test is. De p-waarde ligt dus verdeeld over de twee kanten. Om de totale P-waarde te willen weten ga je de waarde die je in de tabel kan aflezen nog moeten verdubbelen. Opzoeken van de p-waarde in de tabel van de t-verdeling p-waarde is de kans dat de t-verdeling nog extremer of even extreem is dan de berekende t-waarde. Om de p-waarde te bepalen ga je de tabel andersom moeten gebruiken als bij het bepalen van de kritieke waarde. a) Bereken de t-waarde. b) Ga in de t-verdeling tabel naar de rij met vrijheidsgraad n-k-1. c) Ga op zoek naar de berekende t-waarde. De overeenkomende u (= 1 α p waarde ) ga je nog moeten aftrekken van 1 om te 2 2 bekomen en deze nog eens verdubbelen om de p-waarde te bekomen. d) Indien de berekende t-waarde niet exact in de tabel staat ga je zo goed mogelijk moeten definiëren waar de p-waarde zich zal bevinden (door gebruik te maken van < en >).

12 11 - Betrouwbaarheidsinterval (= CI) Een betrouwbaarheidsinterval is een schatting van een marge die de precisie van de geschatte parameter weergeeft. Daarnaast geeft het ook een beeld van de significantie. o Een kleine marge betekend dat de schatting redelijk accuraat zal zijn o Indien de marde 0 bevat bestaat de kans dat de H0 correct is dus je kan niet met zekerheid zeggen dat het significant is. Als het betrouwbaarheidsinterval de 0 niet bevat gaat het wel significant zijn. Een CI geeft dus meer informatie over de gegevens dan enkel de kritieke waarde of de p-waarde. Een CI kan berekend worden voor verschillende zaken Voor de regressie parameters (α en β). Door het significantie niveau aan te passen kan je bepalen hoe strikt je het CI wilt hebben. (een CI van 100% is onmogelijk) Voor de voorspelling gemaakt met behulp van lineaire regressie. Hier kunnen we nog een extra onderscheid maken. Er kan namelijk nog gekeken worden of we een voorspelling maken voor een individu of voor een groep. Gemiddeld gezien ga je bij een groepsvoorspelling een CI bekomen dat nauwer is dan voor het maken van een individuele voorspelling. Dit omdat je bij een individuele voorspelling te maken kunt hebben met een extreme observatie. In een groep gaat hier voor zekere mate gecompenseerd worden.

13 12 Voorbeeld CI berekening bij betrouwbaarheid level van 95% Slope (b) = b ± t α n k 1,1 se(b) 2 = 0,608 ± 2,045 0,1468 Se(b) : standaard error van de slope (b) t α n k 1,1 : opzoeken in t-verdelingtabel 2 [0,308 ; 0,908] Intercept (a) = a ± t α n k 1,1 se(a) 2 = 21,5234 ± 2,045 2,6204 [16,16 ; 26,88] Se(a) : standaard error van het intercept (a) t α n k 1,1 : opzoeken in t-verdelingtabel 2 Het berekenen van het CI van a is minder belangrijk en wordt niet echt gedaan. Individuele voorspelling (FEV voor iemand met lengte:160 cm) y = x(height) = y ± t α n k 1,1 se 1 (y ) 2 = 2.90 ± ,126 y = y = 2.90 [2,62 ; 3,18] se 1 (y ) = s 2 xy [1 + 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ se 1 (y ) = 0,126 ( )² + ] 2288 Groepsvoorspelling (FEV voor groep met allemaal een lengte van: 160 cm) = y ± t α n k 1,1 se 2 (y ) 2 = 2.90 ± ,036 [2,82 ; 2,98] se 2 (y ) = s 2 xy [ 1 (x x )² + ] n L XX se 1 (y ) = 0,0145 [ 1 12 ( )² + ] 2288 se 1 (y ) = 0,036 In dit voorbeeld is duidelijk te zien dat de CI voor een groepsvoorspelling nauwer is dan voor een individuele voorspelling

14 13 Assumpties voor lineaire regressie 1) Er moet een lineair verband zijn om aan lineaire regressie te doen. Voor elke gegeven x moet de corresponderende y een gemiddelde waarde hebben van a + bx. (welke een lineaire functie is van x) 2) Residuals moeten normaal verdeeld zijn!! De foutenterm moet normaal verdeeld zijn Voor elke gegeven x, de corresponderende y is normaal verdeeld met een gelijke variantie σ 2 voor elke x. 3) Foutentermen moeten onafhankelijk zijn (ze mogen niet samenhangen) De fout die je maakt op een voorgaande observatie mag niet afhankelijk zijn van een voorgaande observatie. Hoe te controleren voor de assumpties: a) Controleer de normaliteit van de residuals. Dit kan met behulp van de shapiro-wilk normality test o H 0: residuals zijn normaal verdeeld o H 1: residuals zijn niet normaal verdeeld o P > α H 0 aanvaarden b) Kijk naar je gegevens (op een x-y scatterplot). In het voorbeeld hieronder zien we dat, hoe hoger het estriol gehalte wordt, hoe verder de punten verspreid liggen rond de regressielijn. Dit zie je uiteraard liever niet. (varianties moeten gelijk zijn) In deze plot kunnen we zien dat de gegevens geen curvilineariteit bevatten (dus lineair karakter hebben). c) Kijk naar de scatterplot van de residuals VS de voorspelde waardes van y. Hier kan je gaan zien of er homoscedadiciteit (gelijke variantie) is of niet. Je wilt in deze figuur liefst een random scattering zien, geen funnel bijvoorbeeld.

15 14 Wat als het blijkt dat de gegevens niet normaal verdeeld zijn: Transformeren van de afhankelijke variabele (y) op een ander schaal. = variance stabelizing transformation Meest gebruikte methodes zijn: o Vierkantwortel transformatie o Ln transformatie Correlatie coëfficiënt (r) In sommige gevallen zijn we niet zo zeer geïnteresseerd in het schatten van een afhankelijke variabele (y). Soms willen we gewoon achterhalen of twee variabelen gecorreleerd zijn met elkaar (of er een relatie is tussen de twee). Dit kunnen we doen aan de hand van het bepalen van een correlatie coëfficiënt (Pearson). Voor enkelvoudige regressie kunnen we stellen dat R² (wat eerder behandeld werd) het zelfde is als r² (correlatie coëfficiënt²). r = L xy L XX LYY Assumpties: T-test: X en Y moeten normaal verdeeld zijn Indien ze niet normaal verdeeld zijn kan je: o De gegevens transformeren o Een non parametrische test gebruiken (spearman) De spearman zou je in principe altijd kunnen gebruiken (ook bij normaal verdeelde gegevens) maar wordt enkel gebuikt bij niet normaal verdeelde gegevens. Om de significantie te testen van de correlatie. 1) Hypothese formuleren H 0 : ρ = 0 VS. H 1 : ρ 0 2) Teststatistiek (toetsingsgrootheid bepalen). t = r (n 2) 1 r²

16 15 3) Toetsen - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 Wanneer de teststatistiek groter is dan de positieve (rechter) kritieke waarde of wanneer de teststatiek kleiner is dan de negatieve (linker) kritieke waarde ga je de H 0 verwerpen. Als de teststatistiek tussen de positieve en de negatieve kritieke waarde ligt ga je H 0 aanvaarden. - P-waarde Het berekenen van de p-waarde gebeurt identiek zoals eerder besproken bij de t-test. Het is gewoon belangrijk dat je onthoudt dat je hier met een dubbelzijdige test zit. 4) Assumpties moeten gecontroleerd worden!!! Z-test Stel: je wilt onderzoeken of een bepaalde correlatie al dan niet verschillend is met een andere waarde dan 0. Als je bijvoorbeeld op basis van literatuur of voorgaande ervaringen hebt gezien dat je de correlatie beter kan testen ten opzichten van 0,5 (dus dat de H 0 : ρ = ρ 0 = 0,5). Dit kan gedaan worden met behulp van een Z-test. 1) Om deze test te kunnen doen is het eerst nodig om de z en de z 0 te bepalen. Dit kan aan de hand van de z-transformatie op de correlatie coëfficiënt r. 2) Bereken de teststatistiek λ

17 16 3) Toetsen - Kritieke waarde Z 1 α 2 Z 1 α 2 Om de te zien of de H0 al dan niet verworpen kan worden ga ja ook hier weer gebruik maken van een tabel. Deze keer de tabel van de Z-verdeling (=normaal verdeling). Er zijn verschillende tabellen waar je gebruik va nkan maken, afhankelijk van de situatie. De B kolom is, persoonlijk, het meest eenvoudige toe te passen. - P-waarde Neem de Z-verdeling tabel en zoek de berekende λ in de eerste kolom (x) Ga dan naar het overeenkomstige getal in de kolom B Verdubbel deze waarde om de totale p-waarde te bekomen. Deze zelfde test kan ook gebruikt worden om twee correlaties met elkaar te vergelijken. Is de correlatie van groep 1 vergelijkbaar met die van groep2? o Bijvoorbeeld: het vergelijken van 2 landen met elkaar. (belgen VS nederlanders) 1) Het begin is hier het zelfde als bij de voorgaande. Bereken de z van beide groepen. 2) Bereken de test statistiek 3) Toetsen van de waarde Dit is identiek als de vorige z-test.

18 17 Tot nu toe hebben we enkel een model gebruikt waar dat we met één predictor variabele (x) één afhankelijke variabele (y) proberen te schatten. Het kan echter ook zijn dat je evidentie hebt dat die ene predictor variabene niet alles kan verklaren. Er zijn eventueel nog andere predictor variabele die samen het volledige model kunnen verklaren. Om dit te testen kunnen we meervoudige lineaire regressie gebruiken. y = α + β 1 x 1 + β 2 x β k x k + e Ook hier ga je de methode van least sum of squares gebruiken om de regressielijn te kunnen formuleren en om α en β k te bepalen. Omdat deze berekeningen te ver gaan, zal op het examen een output gegeven worden uit R. in deze output is het wel mogelijk dat enkele zaken weggelaten worden die je aan de hand van de rest wel kan bepalen. Als voorbeeld gaan we onderzoeken wat de relatie is tussen bloeddruk van een pasgeborene en een volwassenen. Hierbij is er echter een probleem gedetecteerd dat er enkele externe factoren de bloeddruk van pasgeborenen kunnen beïnvloeden. - Geboortegewicht - Hoeveel dagen na de geboorte de bloeddruk gemeten werd. Deze twee variabelen zullen we dus betrekken in ons model om een correcter antwoord te kunnen formuleren. y = α + β 1 x 1 + β 2 x 2 + e sum sq Df = mean sq Reg MS = sum sq (birthweight)+ sum sq (age) k Res MS = sum sq residuals n k 1 Reg MS Res MS = F waarde estimate std.error = t waarde Y = 53,45 + 0,126x 1 + 5,89x 2 Partieel regressie coëfficiënt De schattingen van β 1, β 2,, β j zijn partiele regressie coeficienten. Dit wilt zeggen dat ze respectievelijk de gemiddelde toename in y per unit x 1, x 2, x j voorstellen, wanneer alle andere variabele constant gehouden worden (in andere worden na adjusting voor alle andere variabelen).

19 18 De variabelen β 1, β 2, β j zeggen dus iets over de invloed van een bepaalde x variabele op de y variabele. En dat wanneer je corrigeert voor de andere variabelen in het model. Het voordeel van multiple regressie is dat je al die variabelen samen kan onderzoeken. Door ze samen in een model te steken en niet allemaal afzonderlijk te analyseren zoals bij enkelvoudige regressie, ga je rekening houden met alle (andere) factoren die een invloed hebben op y. o De variabelen die je in je model steekt zijn dus allemaal deels verklarend (partieel) voor y. Is hierdoor dus accurater dan de enkelvoudige regressie Aangezien er hier meerdere predictor variabelen zijn, kan je u afvragen welke van deze variabelen nu de grootste impact heeft op het voorspellen van y. Het is in dit geval niet mogelijk om enkel te kijken naar de verschillen van de onderlinge beta s. Deze kunnen namelijk een verschil in sprong maken per unit. Het verschil tussen het meten van de bloeddruk op dag 1 of op dag 2 gaat een groot verschil met zich meebrengen (omdat je hier de variabele gaat vermenigvuldigen met 1 of met 2 respectievelijk) zie model. Als je dit gaat vergelijken met de invloed van een verschil in geboortegewicht van 100 of 101g, dan zie je dat het verschil van de sprong van ene variabele extremer is dan de sprong van de andere variabele. In dit geval is het dus aan te raden om de gegevens eerst te standaardiseren vooraleer er een vergelijking gemaakt wordt. De gestandaardiseerde regressie coëfficiënt: b s = b ( s x s y ) s x : standaard deviatie van x s y : standaard deviatie van y Dit moet je dus berekenen voor alle x variabelen en voor de y variabele. Berekenen van een standaard deviatie: - Bepaal het gemiddelde van x i (of y) - Bereken van elke waarde het verschil met het gemiddelde (deviatie) - Kwadrateer nu alle deviaties - Neem hier het gemiddelde van - Neem nu de vierkantswortel van dit gemiddelde Om dit terug te brengen naar het voorgaand voorbeeld: In deze gestandaardiseerde gegevens is te zien dat het geboortegewicht toegenomen is in belangrijkheid en dat leeftijd serieus gedaald is (in vergelijking met de niet gestandaardiseerde waarden). Het is echter wel nog duidelijk dat de leeftijd nog steeds een grotere impact heeft op de SBP dan geboortegewicht. De interpretatie van deze gestandaardiseerde waarden is wel iets ingewikkelder geworden.

20 19 De gemiddelde toename in SBP is 0,352 standaarddeviatie units van bloeddruk per standaarddeviatie toename in geboortegewicht (waarbij de leeftijd constant gehouden wordt). De gemiddelde toename in SBP is 0,833 standaarddeviatie units van bloeddruk per standaarddeviatie toename in leeftijd (waarbij het geboortegewicht constant gehouden wordt). Hypothese testen in multiple regressie F-test Met deze test kan er gecontroleerd worden of het wel nut heeft om met het gemaakte model aan regressie te doen. Er gaat dus gecontroleerd worden of er in het model minstens 1 β significant verschillend is van 0. Je krijgt hier geen beeld over welke, of hoeveel, variabele(n) een significant resultaat geven. Na de F-tets kan er geconcludeerd worden of het model de moeite is om tijd in te steken en verdere analyses te doen. 1) Bepalen van de hypothese H 0: alle β = 0 VS. H 1: minstens 1 β 0 Is het zelfde als : H 0: R² =0 VS H 1: R² 0 2) Berekenen van de test statistiek (toetsingsgrootheid) ook hier op basis van Res MS en Reg MS. Res MS: residual mean sum of squares (ook soms s²xy genoemd) = Res SS n k 1 Reg MS: regression mean sum of squares Reg SS = k o In de veronderstelling dat H 0 waar is en er dus geen verband is tussen de x en y variabelen, volgen de gegevens de F-verdeling.

21 20 3) Nu ga je willen kijken in welke mate deze gegevens plausibel zijn wanneer die F-verdeling geldt (onder de assumptie dat H 0 juist is). Dit kunnen we op 2 manieren bepalen. - kritieke waarde F k, n-k-1, 1-α k: het aantal onafhankelijke variabelen (predictor variabelen, x) n: het aantal deelnemers in het onderzoek α: significantie niveau (kan je zelf kiezen, meestal wordt een α van 0.05 gekozen) - p-waarde zie F-test (pagina 7) T-test als de F-test evidentie geeft om H0 te verwerpen wilt dat zeggen dat er in het model minstens 1 x-variabele een significante predictive variabele is. Om te achterhalen welke variabelen dit zijn ga je een t-test moeten uitvoeren voor alle x variabelen. 1) Opstellen van een hypothese. H 0: β j = 0 VS. H 1: β j 0 2) Berekenen van de toetsingsgrootheid (de teststatistiek). t = b S xy 2 L XX S² xy = Res MS t = b se (b) se (b) = standaard error van b

22 21 3) Toetsen van de teststatistiek Idem als eerder: - Kritieke waarde t n k 1,1 α 2 t n k 1,1 α 2 n: aantal deelnemers / patiënten k: aantal x variabelen α: significantieniveau - P-waarde - Betrouwbaarheidsinterval 4) opmerkingen - aandacht voor confounders!! Zie later er zijn statistische programma s om de keuze van de variabelen te verifiëren. (controleren of er geen confouding variabelen tussen zitten) dit door middel van forward of backwards selection - multicollinearity wanneer twee variabelen sterk aan elkaar gerelateerd zijn opgenomen worden in het model. Wanneer er dan gecontroleerd wordt voor de andere variabelen is te zien dat geen van beide een significant resultaat geeft. Voorbeeld: als je per ongeluk een variabele gender en sex opneemt in het model. Dat is twee keer het zelfde dus als je hier voor gaan controleren ga je nooit een significant resultaat bekomen (al zou dit wel kunnen zijn). Dit is uiteraard een heel extreem voorbeeld. 5) Assumpties - De zelfde assumpties dienen gecontroleerd te worden als bij enkelvoudige lineaire regressie. - Controleer aan de hand van (partial) residual plots Lineair verband Gelijke varianties en normaal verdeeld Foutentermen zijn onafhankelijk van elkaar Y variabele moet normaal verdeeld zijn, de x variabele niet Plotten van je gegevens kan een beeld geven van de verdeling van je observaties. Zo kun je eventuele outliers detecteren (en mogelijk weglaten). Eerst het volledige model plotten (scatterplot) Daarna kan je de partiele coëfficiënten nog eens plotten. Outliers ga je zien op alle plots die je maakt.

23 22 Na het weglaten van de outlier kan je nog eens een plot maken om te zien of de resultaten nu ook effectief beter verdeeld zijn. Indien er een outlier gedetecteerd wordt en deze wordt verwijderd ga je opnieuw de berekeningen maken van voorheen maar nu met de aangepaste data set. Het verwijderen van outliers moet doordacht en met duidelijke reden gebeuren. Het random karakter van de data set gaat hierdoor wat minder overtuigend zijn. Opmerkingen over multiple regressie: Een 2-sample t-test met gelijke varianties (waar je dus twee groep-gemiddelden met elkaar vergelijkt van normaal verdeelde data) is equivalent aan een lineaire regressie model (y = a+bx + e) waar y de uitkomst variabele is en x gelijk gesteld wordt aan 1 of 0 (1: deelnemer zit in de groep; 0: deelnemer zit niet in de groep) en waar e normaal verdeeld is met variantie σ 2 en gemiddelde 0. Het is dus mogelijk om aan de hand van een lineair regressie model een t-test te doen. Hiervoor moet er wel gebruik gemaakt worden van dummy variabelen die het mogelijk maken om groepen te onderscheiden (0 of 1). De R² bevat ook nog een probleem. Het is namelijk zo dat, wanneer er meer predictor variabelen toegevoegd worden aan een model voor multiple regressie, de R² altijd zal toenemen. Dit zou betekenen dat, als je er gewoon voor zorgt dat er voldoende predictor variabelen in het model zitten je altijd een goed model bekomt. Uiteraard is dit niet correct en moet hiervoor een correctie ingevoerd worden. Daarom is het mogelijk om de adjusted R² (R 2 adj ) te bepalen. Rank correlation 2 R adj 2 R adj n 1 Res SS = 1 ( ) n (k + 1) Reg SS n 1 = 1 ( ) (1 R²) n (k + 1) Om de correlatie (relatie) te bepalen tussen twee variabelen die beide normaal verdeeld zijn kan er gebruik gemaakt worden van de Pearson correlatie coëfficiënt. Echter wanneer de gegevens niet normaal verdeeld zijn is dit niet mogelijk en moet er gezocht worden naar een alternatief. Er bestaan non-parametrische testen waarbij de gegevens niet normaal verdeeld moeten zijn. De non-parametrische test voor een correlatie te bepalen is Spearman rank correlatie coëfficiënt (er zijn meerdere non-parametrische testen om dit te bepalen). Deze test is gelijkaardig aan de Pearson correlatie test echter gaat er hier gebruik gemaakt worden van de ranks in plaats van de directe gegevens.

24 23 t- test voor spearman rank correlatie 1) Berekenen van test statistiek t s = r s n 2 1 r s 2 2) Toetsen van test statistiek aan: - Kritieke waarde - P-waarde 2-zijdie test!! 3) Opmerking Deze test is enkel mogelijk vanaf een steekproef grootte van 10 Voorbeeld: (slide 115) APGAR score 1M APGAR score geragschikt 1M rank nummer 1M rank nummers gecorrigeerd 1M , , , , , , , , , , , , , ,5

25 24 Alle warden zijn vervangen door het corresponderende rank nummer. Indien er twee identieke observaties zijn (in dit geval 2 baby s met een zelfde APGAR score) gaat het gemiddelde genomen worden van alle rank nummers gekoppeld aan die waarden. Hoofdstuk 12: multisample inference Multisample: wanneer je meer dan 1 dataset hebt Inference: gevolgstrekking (wat kan je uit iets afleiden; de besluiten die je uit iets kan trekken) In het vorige hoofdstuk werd enkel gewerkt met 1 data set. Wat als je nu meerdere steekproeven genomen hebt (meerdere groepen)? o In dit geval kan er gewerkt worden met ANOVA (analysis of variance) Het ANOVA model kan bekeken worden als een regressie model. een t-test is namelijk de meest eenvoudige vorm van ANOVA en zoals eerder besproken kan je een t-test doen aan de hand van een regressiemodel. Voorbeeld van ANOVA:

26 25 In dit voorbeeld wil je dus onderzoeken wat het effect is van verschillende rookgewoontes op de longinhoud (FEF). Je zit dus met verschillende groepen die je onderling wilt vergelijken met een continue variabele (FEF). One-way ANOVA Er wordt hier gesproken van een one-way ANOVA omdat er maar door 1 variabele een onderscheid gemaakt wordt (het rookgedrag). Als je bijvoorbeeld nog gaat willen controleren of er naast het rookgedrag ook nog een verschil gaat zijn in FEF bij het rookgedrag en het geslacht (dus dat bijvoorbeeld in de groep van zware rokers nog een verschil te zien in tussen mannen en vrouwen), dan heb je een two-way ANOVA. Dat gaat zo verder per toevoeging van categorische variabelen. In een one-way ANOVA ga je de gemiddelden van elke groep (welke normaal verdeeld zijn met een gelijke variantie) kunnen vergeleken worden. Er gaat dus gekeken worden of de variabiliteit in de data voornamelijk komt van variabiliteit in de groepen of door variabiliteit tussen de groepen. One-way ANOVA fixed effect model Het model: y ij = µ + α i + e ij y ij : de j e observatie in de i e groep. µ : constante die voor elke observatie geld (gemiddelde over alle groepen heen) α i : stelt het deel voor dat eigen is aan de ie groep (kan positief of negatief zijn). Het is dus een constante eigen aan de groep. (het gemiddelde verschil met µ). e ij : foutenterm van specifieke observatie (kan positief of negatief zijn) De foutenterm e ij moet normaal verdeeld zijn met een gemiddelde 0 en een variantie van σ 2. Is een basis assumptie. Een observatie van de i e groep is normaal verdeeld met gemiddelde µ + α i en variantie σ 2. Ideaal gezien zouden we voor elke groep een gemiddelde α i moeten kunnen bepalen en een overall constante µ. Dit is echter niet mogelijk aangezien we maar k geobserveerde gemiddelde waarden hebben voor de k groepen welke gebruikt worden om k+1 paramater te schatten. Hierdoor zijn we verplicht om de parameters te beperken zodat we enkel k parameters moeten schatten. o De methode die wij gebruiken is dat we ervoor zorgen dat de som van de α i s gelijk is aan 0

27 26 Uitleg van de prof: aanvankelijk is µ een (gewone) constante (nog niet "the underlying mean of all groups taken together") en αi een constante specifiek voor de ide groep. En dan heb je k+1 constanten te schatten (k van de alfa's en nog een voor µ), en dat gaat niet met de info van de k groepen. Maar als men de µ wel gelijkstelt aan de "the underlying mean of all groups taken together" dan stelt αi het verschil voor tussen het gemiddelde van de ide groep en µ. En dan heb je dat de som van de αi's 0 is zodat je niet alle alfa's moet kennen want als je ze allemaal kent behalve één dan kan je de laatste ook kennen want hun som is nul. Fixed-effect model: Het fixed-model verwijst naar wat je wilt onderzoeken en hoe dit opgenomen is in het design van de studie. In een fixed model gaat het design van de studie er voorzorgen dat je specifieke groepen wilt vergelijken. Voorbeeld: Als we het voorbeeld er bij halen waar we geïnteresseerd zijn in de invloed van rookgedrag op de longinhoud (FEF). Stel dat we bij aanvang van de studie vastgelegd hebben dat we geïnteresseerd zijn in het onderzoeken van het verschil in FEF tussen passief rokers en niet rokers. Het studie design zal zo opgesteld zijn dat we uiteindelijk die twee groepen met elkaar kunnen vergelijken. De groepen zijn dus vastgelegd (fixed) bij aanvang van het onderzoek. Het tegenovergestelde is het random effect model. Hier ben je niet zo zeer geïnteresseerd in het vergelijken van twee bepaalde groepen maar ben je eerder op zoek naar een algemene vraag. Voorbeeld: Je wilt de longinhoud vergelijken wereldwijd (je bent dus geïnteresseerd of nationaliteit een rol speelt op je FEF). Je doet een onderzoek in Leuven (multiculturele stad) en noteert gewoon van elke participant de nationaliteit. Met deze gegevens doe je een ANOVA. Je wilt algemeen kunnen besluiten dat nationaliteit een invloed heeft op FEF. Je hebt hier dus niet specifiek gezocht naar bepaalde nationaliteiten om te vergelijken maar je hebt gewoon een random steekproef genomen en gezien dat er verschillende nationaliteiten zijn. random effect

28 27 Hypothese testing in one-way ANOVA fixed model We willen dus twee groepen met elkaar vergelijken en zien of ze significant verschillend zijn van elkaar. Meer bepaald willen we onderzoeken of de variabiliteit tussen twee groepen significant is en we willen daarbij ook uitsluiten dat het geobserveerde verschil niet komt door een grote variabiliteit in de groepen. We kunnen dit terug brengen naar de volgende formule: y ij : de j e observatie in de i e groep. y : algemeen gemiddelde over alle groepen heen y i : gemiddelde van 1 bepaalde groep. (y ij y i) : within group variabiliteit (y i y ) : between group variabiliteit Ideaal gezien zouden we dus een data set willen hebben waarbij de within group variabiliteit klein is en waar de between variabiliteit groot is. Ideale omstandigheden: kleine within variatie (dus alle observaties liggen dicht bij elkaar) en grote between variatie (de verschillen tussen de groepen zijn groot). Als je dit model hebt zal de kans groot zijn dat de H 0 verworpen zal worden. Niet ideaal!: grote within variabiliteit (veel variantie tussen de observaties in een zelfde groep) kleine between variabiliteit (de verschillen tussen de groepen is niet uitgesproken, dit is ook te zien doordat de groepen elkaar overlappen is een indicatie dat de bewteen variabiliteit niet goed is). Als je dit model hebt zal de kans groot zijn dat H 0 aanvaard zal worden.

29 28

30 29 F-test Het doel hier is het zelfde als bij lineaire regressie. Proberen te achterhalen of het wel nut heeft om verder te gaan met dit model. Meer specifiek ga de alfa s analyseren en zien of er überhaupt ergens een alfa significant verschillend is tussen twee groepen. In het voorbeeld ga je dus willen kijken of er ook maar 2 groepen met elkaar significant verschillen. Je gaat niet specifiek kijken welke groepen gewoon in het algemeen. Of de longinhoud van één van de groepen (met verschillend rookgedrag) significant verschillend is met een andere groep (met ander rookgedrag). Net zoals bij lineaire regressie ga je dit willen bepalen aan de hand van Res MS en Reg MS. Deze waarden kunnen we afleiden uit eerder vermelde formule. Ook in deze formule gaan we alles kwadrateren om ervoor te zorgen dat we niet altijd 0 gaan uitkomen en we de groepen ook kunnen vergelijken. Om deze waarden te berekenen kunnen volgende formules gebruikt worden.: Between SS = k i=1 n i y i 2 y.. 2 n = [(n 1 y 2 2 ) + (n 2 y 2 2 ) + + (n i y i 2 )] y.. 2 between MS = between ss k 1 n

31 30 k Within SS = (n i i=1 1) s i 2 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k Nu de within en between MS bepaald zijn kunnen deze gebruikt worden om de F-test uit te voeren. 1) Bepalen van de hypotheses H 0: α i = 0 voor alle groepen VS. H 1: minstens 1 α i 0 Als H0 waar is zullen de gegevens de F-verdeling volgen met k-1,n-k-1 vrijheidsgraden. 2) Berekenen van de teststatistiek f = Between MS Within MS 3) Toetsen van test statistiek - Kritieke waarde F k 1,n k 1,1 α - P-waarde Als de berekende f-waarde > dan de kritiekewaarde H 0 verwerpen Als de berekende f-waarde dan de kritieke waarde H 0 aanvaarden p = Pr(F k 1,n k 1 ) > f De kans dat de F-verdeling een meer extreme waarde zou geven dan de waarde die we meten. Als die kans klein is geloven we niet dat dit zo zal zijn en verwerpen we H 0. Indien H 0 verworpen kan worden kunnen we aannemen dat ergens in het model twee groepen zijn met een significant gemiddeld verschil tussen de variabelen. Om nu te kunnen achterhalen welke groepen dit juist zijn kunnen we een t-test gaan doen. Deze t-test zal afzonderlijk moeten gedaan worden (dus alle groepen afzonderlijk met elkaar vergelijken).

32 31 t-test Controleren welke groepen significant verschillen van elkaar. Vergelijken van paren van groepen (Vb.: passief rokers VS niet rokers) 1) Hypothese opstellen H 0: α 1 = α 2 VS. H 1: α 1 α 2 2) Berekenen van de gepoolde variantie (s²) Deze heb je nodig om de teststatistiek te kunnen bepalen. s² = within MS van de one way anova 3) Berekenen van de teststatistiek t = y 1 y 2 s 2 ( 1 n n 2 ) Indien H0 correct is zullen de gegevens de t verdeling volgen met n-k vrijheidsgraden. het grote verschil tussen een gewone t-test en deze in ANOVA, is dat je hier ook informatie betrekt van de volledige populatie (je doet een t-test tussen twee groepen, rekening houdend met alle groepen door de s² te integreren). Bij ANOVA maak je gebruik van de variantie over alle groepen. Je doet dit omdat je er toch vanuit gaat dat alle varianties gelijk zijn in alle groepen. Dus als je de variantie kunt gebruiken van alle groepen samen, ga je een meer accurate representatie krijgen van de variantie in de totale populatie. Indien je redenen hebt om te geloven dat de varianties niet in alle groepen gelijk zijn, dan kan je geen ANOVA doen. in dit geval kan je beter een gewone 2 sample t-test doen met enkel de varianties van de twee groepen. Deze test is wel nog mogelijk met ongelijke varianties. 4) Toetsen - Kritieke waarde 2-zijdige test!! Dus denk er aan dat je aan twee kanten moet kijken (maken van een figuur!!) - P-waarde 2-zijdige test!!! De p-waarde die je gaat aflezen in de tabel moet je nog eens verdubbelen. Bij het maken van een tekening moet je de p/2 aanduiden aan beide kanten van de gauscurve. Deze methode wordt ook wel LSD genoemd (least significant difference).

33 32 Lineair contrast In een situatie waar je geïnteresseerd bent om een verzameling van groepen te vergelijken met een andere verzameling van groepen. Bijvoorbeeld als je niet rokers wilt vergelijken met inhalerende rokers (onder inhalerende rokers worden zowel de lichte rokers, medium rokers als zware rokers bedoeld). Berekenen van het lineair contrast (L) k L = c i y i i=1 Waarbij de som van de coëfficiënten (c i ) = 0 Berekenen van de t-test a. Hypothese formuleren H 0 = µ L = 0 VS H 1 = µ L 0 µ L = gemiddelde lineair contrast b. Gepoolde schatting van de variantie s² bepalen (= within MS) 2 Within SS = (n i 1) s i k i=1 [(n 1 1) s 1 2 ] + [(n 2 1) s 2 2 ] + + [(n i 1) s i 2 ] within MS = within ss n k c. Berekenen van lineair contrast

34 33 k L = c i y i i=1 d. Bepalen van de teststatistiek L t = s 2 k c i 2 i=1 n i t = L se(l) e. Toetsen i. Kritieke waarde ii. P-waarde Multiple comparisons In normale omstandigheden ga je bij aanvang van uw onderzoek definiëren wat je wilt onderzoeken en welke groepen je wilt gaan vergelijken. Als je eerst naar de data gaat kijken en dan zien wat er allemaal getest kan worden zijn er veel mogelijkheden. Als je te veel gaat testen, bestaat de kans dat de significante verschillen die je detecteert enkel komen door toeval. Doordat je de testen gaat doen men een significantieniveau (α: 0,05) laat je 5% kans op een fout toe. (5% kans om een extreme groep waar te nemen in je onderzoek). Als je veel zaken gaat vergelijken in 1 onderzoek gaat die α opbouwen (want je laat bij elke meting 5% kans op het maken van een fout toe). o Als je 10 t-testen na elkaar doet op de zelfde data set is de kans groot dat je 1 significant resultaat bekomt dat eigenlijk niet significant is (dus dat je een meting tegenkomt die binnen die foutmarge van α (5%) zit. o Bij 1 t-test valt die fout nog mee, maar als je meerdere testen gaat uitvoeren gaat die fout cumuleren (bv als je 2 testen doet op dezelfde data set ga je in de plaats van een foutmarge van 5%, een foutmarge krijgen van 10% en dat gaat zo verder. Dit concept wordt ook het multiple comparison probleem genoemd. Je kan bepalen hoe groot de kans is op het maken van een fout bij het maken van meerdere testen. Bijvoorbeeld: als je 6 groepen hebt Hier kan je 15 paren mee maken (en dus ook vergelijken) dit is enkel voor gepaarde t-test (niet bij lineair contrast omdat er hier oneindig veel mogelijkheden zijn, hiervoor is een andere methoden bedacht) Elk van deze 15 vergelijkingen draagt een foutmarge van α (5%)

35 34 Probabiliteit (minstens 1 vals positieve t-test) = 1-pr(geen vals positieve t-test) = 1-0,95 15 = 1-0,46 = 0,54 Je hebt met dit voorbeeld dus 54% kans om een vals positieve t-test te bekomen. (een significant resultaat terwijl het niet significant is) Voor deze redenen zijn er dus enkele correctie methoden geïntroduceerd die hier rekening mee kunnen houden. - Bonferroni - Scheffé Bonferroni: Is een heel gekende correctie maar is ook zeer streng. Na deze correctie ben je zo goed als zeker dat je geen vals positieve resultaten bekomt o Het is echter ook wel zo dat de kans op het überhaupt bekomen van een significant resultaat sterk zal dalen. Deze gedaalde kans op het bekomen van een significant resultaat kan vooral een groot effect hebben bij een data set waar de significantie sowieso maar klein gaat zijn. Bonferroni ontneemt u ook een deel om significantie te ontdekken, je moet al een heel significant resultaat bekomen om deze na correctie nog te behouden. Bij de bonferroni correctie ga je de α strenger maken bij een toenemend aantal testen dat je doet. α waar c = het aantal testen dat je doet. c Concreet wilt dit zeggen dat je in het voorbeeld van eerder (met de 6 groepen) niet meer gaat vergelijken op een α (0,05) maar op een α (0,0033). α = 0,05 = 0,0033 c 15 je gaat in dit voorbeeld dus pas concluderen dat een vergelijking significant is als de p-waarde kleiner is dan 0,0033. Scheffé: Indien je lineaire contrasten wilt doen welke niet gepland zijn bij aanvang van het onderzoek maar welke gesuggereerd worden na het bekijken van de data, biedt scheffé een goede correctie voor dit multiple testing probleem. Voor lineaire contrasten is het nodig om een andere correctie methoden te gebruiken dan bonferroni aangezien het hier minder eenvoudig is om het aantal lineaire contrasten vast te leggen, het kunnen er namelijk oneindig veel zijn.

36 35 Methode: 1) Berekenen van test statistiek t = t = L s 2 k c i 2 L se(l) i=1 n i = identiek aan de berekening van een gewoon lineair contrast. 2) Bepalen kritieke waarde c 2 = (k 1) F k 1,n k 1,1 α c 1 = (k 1) F k 1,n k 1,1 α Als de berekende t groter is dan c 2 of kleiner dan c 1 H 0 verwerpen Als de berekende t kleiner of gelijk is aan c 2 of groter of gelijk aan c 1 H 0 aanvaarden De kritieke waarde wordt bepaald op basis van de F-verdeling!!

37 36 One-way ANOVA en multiple regressie Deze twee methoden zijn analoog aan elkaar. Je kan ANOVA formuleren als een regressie. Hiervoor moet je gebruik maken van dummy variabelen. Dummy variabelen: Stel dat je k aantal categorieën hebt in je gegevens. Het doel is om twee groepen met elkaar te vergelijken. Je kan dit doen met behulp van dummy variabelen. Een dummy variabelen kan 2 waarden aannemen: 0 of 1. Waarbij 1 gaat verwijzen dat de groep meegenomen wordt in de vergelijking met een referentie waarde en waar 0 verwijst naar het weglaten van die categorie in de betreffende vergelijking. Om dit wat te verduidelijken kunnen we er best het model bij nemen. y = α + β 1 x 1 + β 2 x β k x k + e In dit model gaan de symbolen wel een licht gewijzigde betekenis krijgen dan bij multiple regressie. α = de gemiddelde waarde y voor de subjecten in categorie 1 (de referentiegroep) β j = het verschil tussen de gemiddelde waarde α en de gemiddelde waarde van categorie j. de gemiddelde waarde voor categorie j = α + β j x j = de dummy variabelen ( 1 of 0). e = foutenterm De referentiegroep kan je zelf toewijzen en is veelal afhankelijk van de onderzoeksvraag die je maakt. Voorbeeld: We nemen het voorbeeld terug van de groepen met verschillend rookgedrag. We gaan de groepen willen vergelijken met de non smokers, deze wordt dus de referentiegroep. Alle andere krijgen dus een dummy variabele toegekend. Op die manier kan je de 5 overgebleven groepen één voor één gaan vergelijken met de referentiegroep. categorie dummy variabele x k-1 x 1 x 2 x 3 x 4 x 5 Non smokers (ref) light smokers medium smokers heavy smokers passive smokers non inhaling smokers Als je bijvoorbeeld de light smokers wilt gaan vergelijken met de referentie groep dan ga je bij de categorie light smokers kijken en gebruik je die x en in het model. Houd wel rekening dat de gerelateerde β1 niet de zelfde is als bij multiple regressie (deze is in dit model namelijk de α geworden).

38 37 Fixed effect two way ANOVA Het enige verschil met one-way ANOVA is dat er hier een tweede categorische variabele bij komt. Voorbeeld: We hebben een data set waar we geïnteresseerd zijn om een verband te zoeken tussen bepaalde voedingspatronen en SBP (systolische bloeddruk). Als we het hier bij laten zouden we een one way ANOVA hebben. Echter zijn we ook geïnteresseerd of geslacht een rol speelt in deze verschillen. (je kan bijvoorbeeld wel een verschil detecteren tussen voedingspatroon en SBP maar wat als dat geobserveerde verschil nu veroorzaakt wordt doordat het geslacht in deze groepen verschillend is en het verschil dat we zien eigenlijk veroorzaakt wordt door het verschil in geslacht. als we geslacht meenemen in het model spreken we van een two-way ANOVA. Interactie effect: De twee categorische variabelen (in het voorbeeld voedingsgewoonte en geslacht) interageren met elkaar wat de uitkomst kan beïnvloeden. Als je bijvoorbeeld ziet dat SBP bij SV mannen lager is dan bij NOR mannen maar wanneer je bij de vrouwen kijkt is er geen verschil tussen de twee voedingspatronen. Het is dus duidelijk dat er een interactie is tussen geslacht en voedingspatroon (het effect van één factor (voedingspatroon) hangt af van de andere factor (geslacht). Er is een interactie omdat het effect van het voedingspatroon op SBP verschillend zal zijn tussen mannen en vrouwen. Dit zal de interpretatie moeilijker maken van de afzonderlijke effecten van elke variabele. Het kan dus zijn dat er geen significante interactie is en dat beide variabelen afzonderlijk kunnen bekeken worden. Dit zal getest moeten worden. Ideaal gezien wil je dus een data set waar geen interactie is tussen de variabelen.

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Classification - Prediction

Classification - Prediction Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training

Nadere informatie

G0N11C Statistiek & data-analyse Project tweede zittijd

G0N11C Statistiek & data-analyse Project tweede zittijd G0N11C Statistiek & data-analyse Project tweede zittijd 2014-2015 Naam : Raimondi Michael Studierichting : Biologie Gebruik deze Word-template om een antwoord te geven op onderstaande onderzoeksvragen.

Nadere informatie

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3 Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke

Nadere informatie

Statistiek II. Sessie 5. Feedback Deel 5

Statistiek II. Sessie 5. Feedback Deel 5 Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, 9.00-12.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2

mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 mlw stroom 2.2 Biostatistiek en Epidemiologie College 9: Herhaalde metingen (2) Syllabus Afhankelijke Data Hoofdstuk 4, 5.1, 5.2 Bjorn Winkens Methodologie en Statistiek Universiteit Maastricht 21 maart

Nadere informatie

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018

Les 5: ANOVA. Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 28 november 2018 Les 5: ANOVA Elke Debrie 1 Statistiek 2 e Bachelor in de Biochemie en Biotechnologie 28 november 2018 1 Gebaseerd op de slides van Koen Van den Berge Testen die we tot nu toe gezien hebben: Toetsen van

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

Les 5: Analysis of variance

Les 5: Analysis of variance Les 5: Analysis of variance 2de bachelor in de chemie en biologie 14/11/2018 Jeroen Gilis Gebaseerd op slides Caroline De Tender Testen die we tot nu toe gezien hebben: Toetsen van één gemiddelde ten opzichte

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit College 7 Regressie-analyse en Variantie verklaren Inleiding M&T 2012 2013 Hemmo Smit Neem mee naar tentamen Geslepen potlood + gum Collegekaart (alternatief: rijbewijs, ID-kaart, paspoort) (Grafische)

Nadere informatie

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek cursus 23 mei 2012 werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen onderzoek streeft naar inzicht in relatie tussen variabelen bv. tussen onafhankelijke

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, 14.00-17.00 uur De uitwerkingen van de opgaven dienen duidelijk geformuleerd

Nadere informatie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,

Nadere informatie

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Formuleblad Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i Plaats van de median berekenen: Oneven aantal observaties: (n+1)/2 Even aantal observaties: gemiddelde van de

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA Masterclass: advanced statistics Bianca de Greef Sander van Kuijk Afdeling KEMTA Inhoud Masterclass Deel 1 (theorie): Achtergrond regressie Deel 2 (voorbeeld): Keuzes Output Model Model Dependent variable

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2

Methoden van Onderzoek en Statistiek, Deeltentamen 2, 29 maart 2012 Versie 2 Vraag 1. Voor welk van de onderstaande variabelen zal een placebo effect waarschijnlijk het grootst zijn? 1. Haarlengte. 2. Lichaamstemperatuur. 3. Mate van tevredenheid met de behandeling. 4. Hemoglobinegehalte

Nadere informatie

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse.

1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Oefentoets 1 1. De volgende gemiddelden zijn gevonden in een experiment met de factor Conditie en de factor Sekse. Conditie = experimenteel Conditie = controle Sekse = Vrouw 23 33 Sekse = Man 20 36 Van

Nadere informatie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28 Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) Avondopleiding. donderdag 6-6-3, 9.-. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent. Hoofdstuk 12 : Regressie en correlatie Marnix Van Daele MarnixVanDaele@UGentbe Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent Regressie en correlatie p 1/26 Regressielijn Vraag : vind het

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Les 2: Toetsen van één gemiddelde

Les 2: Toetsen van één gemiddelde Les 2: Toetsen van één gemiddelde Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie & Biotechnologie 22 oktober 2018 Het statistisch testen van één gemiddelde is een veel voorkomende toepassing

Nadere informatie

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Meervoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 5 februari 2010 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 5 februari - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 9 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018

Les 5: ANOVA. Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie. 19 november 2018 Les 5: ANOVA Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie en Biotechnologie 19 november 2018 Toetsen van 2 gemiddeldes Het toetsen van twee gemiddeldes met ongekende variantie H 0 : µ X =

Nadere informatie

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003

ANOVA in SPSS. Hugo Quené. opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 ANOVA in SPSS Hugo Quené hugo.quene@let.uu.nl opleiding Taalwetenschap Universiteit Utrecht Trans 10, 3512 JK Utrecht 12 maart 2003 1 vooraf In dit voorbeeld gebruik ik fictieve gegevens, ontleend aan

Nadere informatie

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009 EIND TOETS TOEGEPASTE BIOSTATISTIEK I 30 januari 2009 - Dit tentamen bestaat uit vier opgaven onderverdeeld in totaal 2 subvragen. - Geef bij het beantwoorden van de vragen een zo volledig mogelijk antwoord.

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Biostatistiek voor BMT (2S390) op maandag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2S390) op maandag 19-11-2001, 14.00-17.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari 2009 14.00-17.00 uur Faculteit der Wiskunde en Informatica Tentamen Biostatistiek voor BMT (2DM4), op maandag 5 januari 29 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en van een onbeschreven

Nadere informatie

Hoofdstuk 8: Multipele regressie Vragen

Hoofdstuk 8: Multipele regressie Vragen Hoofdstuk 8: Multipele regressie Vragen 1. Wat is het verschil tussen de pearson correlatie en de multipele correlatie R? 2. Voor twee modellen berekenen we de adjusted R2 : Model 1 heeft een adjusted

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden

Enkelvoudige ANOVA Onderzoeksvraag Voorwaarden Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

Statistiek ( ) eindtentamen

Statistiek ( ) eindtentamen Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op

Nadere informatie

Antwoordvel Versie A

Antwoordvel Versie A Antwoordvel Versie A Interimtoets Toegepaste Biostatistiek 13 december 013 Naam:... Studentnummer:...... Antwoorden: Vraag Antwoord Antwoord Antwoord Vraag Vraag A B C D A B C D A B C D 1 10 19 11 0 3

Nadere informatie

Toegepaste Statistiek, Dag 7 1

Toegepaste Statistiek, Dag 7 1 Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek

Nadere informatie

Eindtoets Toegepaste Biostatistiek

Eindtoets Toegepaste Biostatistiek Eindtoets Toegepaste Biostatistiek 2013-2014 29 januari 2014 Dit tentamen bestaat uit vier opgaven, onderverdeeld in 24 subvragen. Begin bij het maken van een nieuwe opgave steeds op een nieuw antwoordvel.

Nadere informatie

Beschrijvende statistiek

Beschrijvende statistiek Beschrijvende statistiek Beschrijvende en toetsende statistiek Beschrijvend Samenvatting van gegevens in de steekproef van onderzochte personen (gemiddelde, de standaarddeviatie, tabel, grafiek) Toetsend

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie?

c. Geef de een-factor ANOVA-tabel. Formuleer H_0 and H_a. Wat is je conclusie? Opdracht 13a ------------ Een-factor ANOVA (ANOVA-tabel, Contrasten, Bonferroni) Bij een onderzoek naar de leesvaardigheid bij kinderen in de V.S. werden drie onderwijsmethoden met elkaar vergeleken. Verschillende

Nadere informatie

4 Domein STATISTIEK - versie 1.2

4 Domein STATISTIEK - versie 1.2 USolv-IT - Boomstructuur DOMEIN STATISTIEK - versie 1.2 - c Copyrighted 42 4 Domein STATISTIEK - versie 1.2 (Op initiatief van USolv-IT werd deze boomstructuur mede in overleg met het Universitair Centrum

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud

Cursus Statistiek Parametrische en non-parametrische testen. Fellowonderwijs Intensive Care UMC St Radboud Cursus Statistiek Parametrische en non-parametrische testen Fellowonderwijs Intensive Care UMC St Radboud Vergelijken gemiddelde met hypothetische waarde 13 24 19 18 11 22 10 17 14 31 21 18 22 12 18 11

Nadere informatie

Voorbeeld regressie-analyse

Voorbeeld regressie-analyse Voorbeeld regressie-analyse In dit voorbeeld wordt gebruik gemaakt van het SPSS data-bestand vb_regr.sav (dit bestand kan gedownload worden via de on-line helpdesk). We schatten een model waarin de afhankelijke

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Verband tussen twee variabelen

Verband tussen twee variabelen Verband tussen twee variabelen Inleiding Dit practicum sluit aan op hoofdstuk I-3 van het statistiekboek en geeft uitleg over het maken van kruistabellen, het berekenen van de correlatiecoëfficiënt en

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur Kansrekening en statistiek WI22TI / WI25IN deel 2 2 februari 22, 4. 6. uur VOOR WI22TI: Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Een formuleblad is niet toegestaan.

Nadere informatie

Opgave 1: (zowel 2DM40 als 2S390)

Opgave 1: (zowel 2DM40 als 2S390) TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Biostatistiek voor BMT (DM4 en S39) op donderdag, 4.-7. uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op vrijdag 29-04-2004, 9-2 uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA

16. MANOVA. Overeenkomsten en verschillen met ANOVA. De theorie MANOVA 16. MANOVA MANOVA Multivariate variantieanalyse (MANOVA) kan gebruikt worden in een situatie waarin je meerdere afhankelijke variabelen hebt. Met MANOVA kan er 1 onafhankelijke variabele gebruikt worden

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00

3de bach TEW KBM. Theorie. uickprinter Koningstraat Antwerpen ,00 3de bach TEW KBM Theorie Q www.quickprinter.be uickprinter Koningstraat 13 2000 Antwerpen 168 6,00 Online samenvattingen kopen via www.quickprintershop.be BOEK 1: ENKELVOUDIGE EN MEERVOUDIGE REGRESSIE

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

Les 1: de normale distributie

Les 1: de normale distributie Les 1: de normale distributie Elke Debrie 1 Statistiek 2 e Bachelor in de Biomedische Wetenschappen 18 oktober 2018 1 Met dank aan Koen Van den Berge Indeling lessen Elke bullet point is een week. R en

Nadere informatie

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen.

Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. Het gebruik van een grafische rekenmachine is toegestaan tijdens dit tentamen, alsmede één A4-tje met aantekeningen. 1. (a) In de appendix van deze vraag, is een dataset gegeven met de corresponderende

Nadere informatie

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters:

Het ANCOVA model is een vorm van het general linear model (GLM), en kan als volgt geschreven worden qua populatie parameters: Hoofdstuk 4 4.1 De ANCOVA is een vorm van statistische controle, en was specifiek ontworpen om on-uitgelegde foutvariatie ( error variation ) te verminderen. Om dit te doen is er een co-variabele ( covariate

Nadere informatie

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen

Cursus Statistiek 2. Fellowonderwijs Opleiding Intensive Care. UMC St Radboud, Nijmegen Cursus Statistiek 2 Fellowonderwijs Opleiding Intensive Care UMC St Radboud, Nijmegen Cursus Statistiek 2 Steekproefgrootte en power berekening Vergelijken van gemiddelden (T-testen) Niet-parametrische

Nadere informatie

Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook

Hoofdstuk 2. Aanduiding 1: Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook Hoofdstuk 2 Aanduiding 1: X ij Aanduiding 2: Formule 1: Formule 2: s2 x = Formule 3: s x = Formule 4: X nieuw = X oud ± a betekent ook ± a Formule 5: X nieuw = bx oud betekent t X nieuw = X oud/b betekent

Nadere informatie