Statistiek II. Feedbackbundel. Feedback Deel 7

Maat: px
Weergave met pagina beginnen:

Download "Statistiek II. Feedbackbundel. Feedback Deel 7"

Transcriptie

1 Statistiek II Feedbackbundel Feedback Deel 7 VPPK Universiteit Gent

2 Feedback Q & A

3 Oefensessie 2 Extra informatie - Power De power (kans dat we H 0 verwerpen indien deze fout is) is het paarse gebied. Als ik de grafiek bekijk, wordt ook het rode gebied hiertoe gerekend (overlap met type 1-fout). Dit snap ik niet zo goed, aangezien dit de kans is dat we H 0 verwerpen, gegeven deze correct is. Bij de power willen we net dat deze niet correct is. Ik ben dan ook geneigd de rode kans af te trekken van de paarse kans. Zouden jullie dit kunnen verklaren voor me in de laatste vragenbundel? De twee grafieken moeten we eigenlijk apart bekijken. We hebben de blauwe grafiek, deze heeft als assumptie dat H 0 correct is. In deze grafiek hebben we dus de Type I-fout (of α), met name het rode gebied, en de betrouwbaarheid of het blauwe gebied. Deze twee kansen sommeren tot 1. Daarnaast hebben we een andere grafiek, de paarse grafiek, waar de assumptie is dat H a correct is (en dus H 0 foutief). De oppervlakte onder deze grafiek is ook gelijk aan 1. We hebben daar het paarse gebied, de power (of 1 β) en het groene gebied, de Type II-fout. We moeten deze apart bekijken om de kans te gaan berekenen. Dus als we de power of Type II-fout willen berekenen gaan we enkel kijken naar de paarse grafiek. Als we de betrouwbaarheid of Type I-fout willen berekenen gaan we enkel kijken naar de blauwe grafiek. Ze zijn over elkaar gelegd in de bundel om te laten zien dat de cut-off tussen beide kansen in elke grafiek op dezelfde waarde wordt gelegd. Om dit misschien ook even samen te vatten in symbolen (wat misschien alles wat duidelijker maakt): P(H 0 H 0 ) = 1 α: blauwe gebied. De kans dat we H 0 accepteren, gegeven dat deze correct is P(H a H 0 ) = α: rode gebied. De kans dat we H a accepteren, gegeven dat H 0 correct is Deze twee kansen behoren tot de grafiek waar we ervan uitgaan dat H 0 correct is, dus de blauwe grafiek P(H a H a ) = 1 β: paarse gebied. De kans dat we H a accepteren, gegeven dat deze correct is P(H 0 H a ) = β: groene gebied. De kans dat we H 0 accepteren, gegeven dat H a correct is Deze twee kansen behoren tot de grafiek waar we ervan uitgaan dat H a correct is, dus de paarse grafiek Oefensessie 3 Oefening 6 - Eerste Gauss-Markov assumptie De laatste oefening van reeks 3 stond niet in jullie bundel, kunnen jullie uitleggen hoe je E(ε i X i = 5) berekent? Ofwel kijk ik erover maar vind dit nergens. Als ik mij niet vergis is er geen oplossing beschikbaar voor de laatste oefening van oefensessie 3 (eerste gauss-markov assumptie). Misschien is dit nog een idee voor de laatste feedbackbundel? Allereerst onze excuses. We hebben blijkbaar deze oefening over het hoofd gezien toen we de bundel opstelden. Eerst gaan we een regressierechte trekken op basis van de vergelijking gegeven Y = X: 2

4 Dit geeft al een idee hoe de residuals liggen. Als we nu gaan kijken naar daar waar de waarde van X i = 5, dan kunnen we daar de rest van de informatie uit krijgen. We duiden dit hier aan met een groene kader. Van daaruit kunnen we nu 2 waarden afleiden, namelijk de geschatte waarde op basis van de vergelijking (de hoogte van de regressierechte) en de voorwaardelijke verwachting wanneer X i = 5. De eerste waarde is ongeveer 720 en de tweede waarde is ongeveer 700. Van daaruit kunnen we nu de voorwaardelijke verwachting van de residuals afleiden: E(ε i X i = 5) = = 20. Wanneer onze voorwaardelijke verwachting onder de regressierechte ligt gaan we een negatieve voorwaardelijke verwachting van de residuals observeren. Als deze erboven ligt een positieve waarde, en wanneer deze gelijk zijn de waarde 0. Dus we kunnen dit ook doen voor de andere waarden. We zullen merken dat we een groter gewicht krijgen voor de negatieve waarden. Dus gaan we onze eerste Gauss-Markov assumptie niet kunnen bevestigen, en krijgen we E(ε i ) 0. Let op: dit is duidelijk een fictief voorbeeld. De regressierechte is hier niet de best passende lijn. Want als dit wel de best passende rechte zou zijn, dan krijgen we automatisch dat de schatting van de residuals zal sommeren tot 0. 3

5 Oefensessie 4 Oefening 2 - Statismex: slaperigheid2 en gewicht Bij oefening 2 en dan het deel 1 (de vraag rond intercept) staat er een hele uitleg geschreven hoe we hier aan het intercept kunnen komen. Nu snap ik niet goed waarom we hier op deze manier te werk gaan, ik dacht dat je altijd gewoon kon kijken wat het snijpunt met de y-as was? En dat dan het intercept was? Waarom doen we dat niet in deze situatie? Het intercept is onze Y -waarde wanneer de X-waarde 0 is. Dus als we het snijpunt willen gebruiken met de y-as moet het nulpunt van de x-as zichtbaar zijn, en dus bij voorkeur de origine (het snijpunt van de assen) zichtbaar zijn. Als we gewoon een grafiek tekenen in R zonder extra argumenten krijgen we dit niet. Dan is het snijpunt met de y-as niet waar de X-waarde gelijk is aan 0. Als we kijken naar de plot zoals R deze gewoon geeft, met daarop de regressierechte dan krijgen we een vertekend beeld: Maar laten we er voor zorgen dat de grafiek nu wel de x-as volledig toont, dan zien we dat het snijpunt met de y-as nu niet zomaar af te lezen valt: Om die reden gaan we ook onze grafiek onderaan willen zien: 4

6 Nu kunnen we wel ons intercept aflezen als daar waar onze regressierechte onze y-as snijdt. Dus ofwel kan je het berekenen als in de feedbackbundel van oefensessie 4, ofwel ga je moeten uitzoomen op de grafiek. Bij oefening 2, het tweede stukje. Ik vraag me af waarom we een plot opstellen met juist deze zaken erin. Bij bijvoorbeeld oefening 4, deel 2, vragen we andere zaken van ons plot. Wanneer vraag je wat voor een soort plot? Waarom werk je de ene keer met residuals en de andere keer niet? De beide plots waarnaar verwezen wordt geeft dezelfde informatie. Je moet beide plots maar eens maken, dan zie je dat de puntenwolk dezelfde vorm heeft in beide. Beide tonen hoe het zit met de variantie (dus voor de homoscedasticiteit). Het enige verschil is de schaal waarop de x-as wordt getoond, in de plot bij oefening 2 hebben we de geobserveerde X-waarden, bij oefening 4 hebben we de geschatte waarden op basis van de geobserveerde X-waarden. Dus in oefening 4 zijn onze X-waarden herschaald. Oefening 3 - Statismex: slaperigheid2 en geslacht Bij oefening 3, deel 3. Als ik daar de plots op vraag krijg ik boxplots te zien. Waarom is dat? Dit omdat onze variabele geslacht een nominale variabele is die gedefinieerd staat in de dataset als een factor. R gaat automatisch de boxplot gebruiken als het om een variabele gaat die als een factor gedefinieerd is. Noot: Hier lijkt het ons ook wel even handig om te vermelden dat een nominale of ordinale variabele niet altijd noodzakelijk in R gedefinieerd is als een factor. Stel dat we bijvoorbeeld over leerjaren spreken, dan is dit doorgaans in cijfers. Wanneer we dit in Excel of SPSS invoegen, en dan overzetten naar R, dan herkent R dit niet als een factor. Dan zal je nog handmatig moeten aangeven dat het een factor is. Oefensessie 6 Oefening 4 - Uitslagen, didactisch softwarepakket en geslacht De schattingen van de verwachting van uitslag bij mannen met softwarepakket A wordt gevraagd, hetzelfde voor mannen + softwarepakket B en voor vrouwen + softwarepakket B. Op pg 230 in de cursus wordt aangegeven dat we het intercept niet kunnen interpreteren als een schatting van de verwachting, omdat het over meerdere predictoren gaat. Zoekende naar een oplossing voor deze vraag, gebruikte ik de functie aggregate. In de feedbackbundel van oefensessie 6, vind ik toch de schattingen van de verwachtingen terug gegeven in de output via summary(lm...)? Waar redeneer ik verkeerd? 5

7 Het verschil tussen beide benaderingen is dat in de oefensessie uitsluitend van nominale predictoren gebruik werd gemaakt. In dat geval is ons intercept gelijk aan het referentieniveau (of met meerdere nominale predictoren aan de combinatie van alle referentieniveaus). Zodra we een predictor van minstens interval gebruiken dan wordt de interpretatie van het intercept iets lastiger. Met name dat alle continue variabelen gelijk moeten zijn aan 0, en voor de nominale predictoren we het referentieniveau hanteren. Op pagina 230 in de cursus is het intercept dus de geschatte waarde van de variabele tijd wanneer lengte en sport gelijk zijn aan 0, en de sport van de categorie andere is. Oefening 6 - California Test Score Data Test Er staat: we observeren de grootste F -waarde bij 6de model, dus die nemen we als eerste op. In de cursus wordt er enkel gesproken van te kijken naar de laagste p-waarde en deze factor neem je dan in het model op. Betekent de hoogste F -waarde altijd ook dat de p-waarde het kleinst is. Kan je dit uitleggen. Ja. Het is beter de F -waarde te gebruiken, want zodra de p-waarde zeer zeer klein wordt is het te klein voor R om nog een onderscheid te tonen. Hoe je dit verband het beste kan voorstellen is te zien naar de definitie van de p-waarde. Als we dit in de grafiek zouden bekijken zorgt een grotere F -waarde dat de oppervlakte aan de rechterkant (dus erboven) kleiner wordt, en deze oppervlakte is de p-waarde. Dus hoe groter de F -waarde, hoe kleiner de oppervlakte aan de rechterkant, hoe kleiner de p-waarde. Oefening 9 - Etnische afkomst en vakbond Ik snap waarom de kolom van ACV 0.30 is aangezien dit in opgave wordt weergegeven, maar snap niet waarom de laatste twee kolommen wijzigen naar 0.25 en 0.25? Ik heb al enkele keren de opgave herlezen, maar zie dit nergens terug vandaar ik dit even vraag. Voor deze oefening is er geen eenduidig correct antwoord. De verdeling moet zelf gekozen worden. Wij hebben hier gekozen voor deze waarden omdat we dan zo min mogelijk verschillen hebben tussen de cellen. Maar dit is niet noodzakelijk. Zoals gezegd, er is geen uniek correct antwoord en veel hangt af van hoe je dit zelf invult. Je kan gerust de waarden houden van de eerste rij, zolang de som van elke rij op zich maar gelijk is aan 1. Vragen m.b.t. R Waarom wordt nu precies lower.tail = FALSE gebruikt in R? Ik dacht dat dit enkel gebruikt worden voor als je kansen groter dan wil berekenen. Maar waarom wordt dit bijvoorbeeld gebruikt in de berekening van het BI op p82? of bijvoorbeeld ook op p148, waar een tweezijdige p-waarde wordt berekend. Ik weet niet goed wanneer je in de R-code lower.tail= TRUE of FALSE moet schrijven. Ik versta het verschil niet echt tussen beide. In de voorbeeld examenvragen oefening 3 dachten wij dat het eronder was bij lower.tail = FALSE. Maar in de antwoorden staat erboven? Is het dan altijd erboven bij lower.tail = FALSE? Wanneer moet je lower.tail in je R-code schrijven? Bij het rechtszijdig toetsen? Inderdaad, we gebruiken het argument lower.tail = FALSE wanneer we willen zien naar de rechterzijde van de grafiek (dus groter dan). Herinner dat onze t-verdeling symmetrisch rond 0 is. Dus een waarde links in de grafiek is negatief, een waarde rechts in de grafiek is positief. Wanneer we een kritieke waarde willen berekenen, zoals op pagina 82, dan willen we de positieve waarde, dus we gaan zien naar de rechterkant van de grafiek. Standaard gaat R naar links zien, dus lower.tail = FALSE. We zullen even het commando erbij nemen en met de kennis deze analyseren: qt( p = 0.025, df = n-1, lower.tail = FALSE ). 6

8 We zijn op zoek naar een kwantiel: qt We moeten de kans geven waarin we geïnteresseerd zijn. We willen weten waar nog 2.5% rest: p = Als we niets specifiëren dan gaat R het kwantiel geven waar 2.5% onder ligt. Dit zou dus aan de linkerkant zijn, en dus negatief. Maar we willen een positief getal. Daarom geven we lower.tail = FALSE. Dit zorgt ervoor dat we aan R vragen naar het kwantiel waar 2.5% boven ligt. Dit is hetzelfde als zonder het argument, met uitzondering dat het positief is. We gaan nu dus in de rechterkant van de grafiek zoeken. Laat ons nu even het commando van pagina 148 erbij nemen: pt(q= , df = 250, lower.tail = FALSE) Nu krijgen we een kwantiel, en op basis daarvan moeten we een kans berekenen: pt(q=...) Bij een tweezijdige test gaan we zoeken naar de kans die boven het positieve kwantiel, hier de toetsingsgrootheid, ligt en de kans die onder het negatieve kwantiel, ook de toetsingsgrootheid - maar verschillend teken, ligt. Het gevonden kwantiel is positief, dus gaan we op zoek naar de rechterkant. De kans dat we groter dan de toetsingsgrootheid zitten. Indien we lower.tail = TRUE gebruiken (of niets als argument zetten) dan krijg je de kans dat je kleiner zit dan deze waarde, maar we willen de andere kant. Daarom gebruiken we het argument. Aangezien onze t-verdeling symmetrisch is kunnen we gewoon vermenigvuldigen. Want het commando van pagina 148 is hetzelfde als: pt(q= , df = 250, lower.tail = TRUE). Let op het min-teken voor het kwantiel. Moet de afhankelijke variabele of de onafhankelijke variabele links of rechts van de tilde? In R is het altijd de afhankelijke variabele die links van de tilde staat. De predictoren, oftewel onafhankelijke variabelen, horen rechts van de tilde. Dus: lm(formula = Afhankelijke variabele ~ Onafhankelijke variabele(n)). Welke van de twee commandos in R is correct? Geslacht <- factor(c( m, v, v ) OF Geslacht <- c( m, v, v ) Want ik vroeg mij af of je enkel en alleen de functie factor (bij een nominale variabele, dus niet gecombineerd met levels en ordered ) ook mag gebruiken wanneer geslacht bijvoorbeeld gecodeerd is als m en v? Of mag je die functie enkel gebruiken wanneer geslacht gecodeerd is als 0 = man en 1 = vrouw (dus enkel met numerieke waarden)? Beide commando s zijn correct. Waarom het soms bij numerieke waarden wordt gebruikt is om duidelijk te maken dat het een factor is, omdat R dit anders zou herkennen als een continue variabele. Wanneer je met letters werkt dan zal R dit automatisch al herkennen als een factor. Maar het kan zeker geen kwaad als je er ook nog eens factor bij zet. Betrouwbaarheid, Power, p-waarde,... Het blijft voor mij onduidelijk hoe je een p-waarde kan berekenen. Het zou super zijn moesten jullie mij dit eens willen uitleggen. We kunnen enkel voor een binomiale verdeling onze p-waarde manueel uitrekenen. Dit hebben we uitgebreid uitgelegd in de bundel van sessie 1 en sessie 2, met de oefening van de zuivere munt. Voor alle andere verdelingen kunnen we een p-waarde nooit manueel volledig uitrekenen. Tot een paar jaar werden hier voornamelijk tabellen 7

9 voor gebruikt. Sinds 3 jaar wordt er voor dit vak gebruik gemaakt van tips, omdat het opzoeken in een tabel een ouderwets gegeven is geworden. We gebruiken voornamelijk R. Het belangrijkste van de tips is dat je weet hoe je deze moet interpreteren. We gaan trachten een overzicht te geven hoe je de tips kan lezen voor elke verdeling, en dus hoe je aan de p-waarde komt voor elke verdeling. Tweezijdige t-toets: hier hebben we een uitgebreide uitleg gegeven in de bundel van sessie 1 (beginnende vanaf pagina 11) - dus we raden ook aan dat stuk nog eens grondig te bekijken. Eenzijdige t-toets: de redenering is hier dezelfde als bij de tweezijdige t-toets. Het enige verschil is dat we hier onze kans niet gaan vermenigvuldigen met 2. F -toets: als we als voorbeeld oefening 2 uit oefensessie 5 nemen. We krijgen een toetsingsgrootheid van F 2,5 = De bijhorende p-waarde die we zoeken is de kans dat we groter dan of gelijk aan deze waarde observeren, dus we zoeken de kans die hoort bij P(F 2, ). Dit staat in de tips, en komt overeen met de waarde p = Indien de andere kans gegeven is, met name P(F 2, ) = dan kunnen we onze p-waarde berekenen door deze kans af te trekken van 1. 1 P(F 2, ) = = χ 2 -toets: hier volgen we dezelfde logica als bij de F -toets. We nemen hier als voorbeeld oefening 6 uit sessie 5. We verkrijgen een toetsingsgrootheid van χ 2 2 = Onze p-waarde is de kans dat we minstens even groot observeren dan de gevonden waarde. Dus p = P(χ ) = Bij de opdrachten voor R (vbv power.t.test, pwr.t2n.test, enz) hoort steeds een item alternative, waar je dan: one.sided, two.sided, greater of less hoort te zetten; maar het is mij niet duidelijk wanneer je wat zet, immers: Bij het berekenen van de power, werk je met een specifieke H a ; dan weet je toch of die in de richting van groter of kleiner gaat, dus zet je toch steeds greater of less, waarom zou je one.sided zetten, of two.sided, wat helemaal onlogisch lijkt? Wanneer we een power-berekening uitvoeren moeten we zien naar de oorspronkelijke alternatieve hypothese, en niet naar de specifieke. Dus we gaan zien of de oorspronkelijke alternatieve hypothese stelt dat we eenzijdig of tweezijdig gaan toetsen. Indien we oorspronkelijk tweezijdig toetsen geven we het argument two.sided in. Wanneer we oorspronkelijk eenzijdig testen dan gebruiken we ofwel one.sided, ofwel greaeter, ofwel less. Op het examen zal er geen twijfel worden gezaaid of het bijvoorbeeld one.sided of greater is. Het is op het examen van belang dat je de argumenten kent, maar omdat sommige functies slechts vragen dat je specifieert dat het eenzijdig is en andere functies vragen of je specifieert dat het groter of kleiner is, is het vaak een onmogelijke zaak om deze volledig van buiten te kennen. Maar het verschil tussen less en greater is wel belangrijk. Ook hier ga je terug naar de oorspronkelijke alternatieve hypothese zien. Dus uiteindelijk is het van belang naast de specifieke alternatieve hypothese ook de oorspronkelijke alternatieve hypothese voor je te houden. Ik lees in een bundel van jullie, denk ik, dat je bij een F -verdeling altijd zoekt naar waarden groter of gelijk aan. Lijkt me logisch, gezien de vorm van de curve. In de cursus op blz. 67 staan echter enkel voorbeelden van kleiner. Dat lijkt me misleidend; je moet bij pf(...) dus ALTIJD lower.tail=false toevoegen?! We hebben dit eventjes apart genomen en niet bij de vragen betreffende lower.tail = FALSE gezet. Normaal op basis van het stuk bij vragen m.b.t. R kan je al een antwoord vinden, maar we willen het toch even apart uitlichten om alle verwarring weg te werken. Wanneer we een p-waarde of kritieke waarde gaan zoeken bij een F -toets in de lineaire regressie dan gaan we inderdaad altijd het stuk erboven nodig hebben. Dus ofwel gebruik je lower.tail = FALSE, ofwel als je niets of lower.tail = TRUE gebruikt, dan moet je deze kans van 1 aftrekken. 8

10 Dat het op pagina 67 zo uitgelegd staat is enkel om de F -verdeling uit te leggen. In komende jaren gaan jullie andere toepassingen zien van de F -verdeling waar je ook de onderkant gaat nodig hebben (maar daar moeten jullie nu nog niet van wakker liggen). Het is dus gewoon ter illustratie om duidelijk te maken hoe de F -verdeling in elkaar zit, en nog niet toegepast op het stuk waar jullie p-waarden e.d. gaan berekenen. De eerste beslissing om al dan niet te toetsen is door te kijken of de steekproef de alternatieve hypothese ondersteunt. Als dat het geval is gaat men toetsen om te zien of dat dit niet toevallig is. Maar waarom toets je ook niet als de steekproef de alternatieve hypothese niet ondersteunt. Het feit dat deze dat niet ondersteunt, kan toch ook aan het toeval te wijten zijn? De wetenschap werkt met het proces van falsificatie. Dus dit wil zeggen dat we een hypothese vooropstellen die we al dan niet trachten te verwerpen. Dit is de nulhypothese. Dit wil zeggen dat de nulhypothese centraal staat. Tegenover deze nulhypothese stellen we een alternatieve hypothese (bijvoorbeeld niet gelijk aan, of groter of kleiner). Als onze alternatieve hypothese al niet kan aanvaard worden (bijvoorbeeld dat het geobserveerde gemiddelde lager is dan de verwachting en de alternatieve hypothese stelt dat het groter is dan de verwachting) dan heeft het geen zin om te gaan zien in welke mate het te wijten is aan toeval met de alternatieve hypothese centraal. In andere gevallen gaan we hetgeen je vraagt wel bestuderen, en dit doen we met de power-berekeningen. Wat is het verschil tussen de p-waarde en de toetsingsgrootheid die je uitrekent? Geldt het ene voor het andere? Zodra we de toetsingsgrootheid en de vrijheidsgraden kennen, dan kennen we ook de p-waarde. Net hetzelfde, als we de p-waarde en de vrijheidsgraden kennen, dan kunnen we ook de toetsingsgrootheid hieruit afleiden. Er is een 1 op 1 relatie tussen de toetsingsgrootheid, vrijheidsgraden en p-waarde. Hoe bepaal je die specifieke alternatieve hypothese bij het berekenen van de power, mag je dit volledig zelf kiezen? Als er een specifieke alternatieve hypothese is gegeven, dan is het vrij duidelijk. Ook kan een alternatieve hypothese opgesteld worden op basis van een gewenste effectgrootte (zoals in de oefensessies). Maar zodra je zelf wetenschappelijk onderzoek gaat verrichten (bijvoorbeeld voor de masterthesis) dan zal je zelf een alternatieve hypothese moeten opstellen, dit gebeurt dan op basis van voorafgaand onderzoek - kijkende naar wat er is gevonden in het verleden, en op basis daarvan ga je zelf een specifieke alternatieve hypothese bepalen. Zorgt een kleine α niet voor een grotere power? Ik vermoed van niet, want een kleine α betekent een grote β (lage power want meer kans op fout 2de soort), maar ben niet helemaal zeker. Al deze zaken hangen samen, β, α, n, sd,... We proberen hier een overzichtje te geven van de meest belangrijke zaken in deze cursus (er zijn nog zoveel invloeden, maar deze staan niet allemaal in de cursus). We gaan pagina 20 en 21 van Feedbackbundel 2 erbij te nemen, dit zal veel verduidelijken. Misschien een beetje een open deur intrappen eerst, wanneer α groter wordt, dan verhoogt onze Type 1-fout. Wanneer α kleiner wordt, dan verkleint onze Type 1-fout. Dit kunnen we zien als het verschuiven van de grens tussen de blauwe en de rode oppervlakte. Wanneer onze α kleiner wordt, dan verkleint onze Type 1-fout. Dan vergroot onze blauwe oppervlakte. Maar dit wil ook zeggen dat in de curve van onze alternatieve hypothese de grens evenveel verschuift, en gaat ons paars gebied verkleinen. Dus onze power wordt kleiner. Misschien makkelijk om te onthouden, 9

11 als α kleiner wordt, dan wordt β groter, en omgekeerd. Want als de power kleiner wordt, dan wordt β groter (het groene gebied) Iets wat niet onmiddellijk uit de grafiek valt af te lezen, omdat onze α hetzelfde blijft, en we ons dus niet meer op de grafiek kunnen baseren, maar we naar de formules moeten gaan zien. Als n groter wordt, dan wordt onze sd kleiner, dit zorgt ervoor dat ons betrouwbaarheidsinterval smaller gaat worden. Onze Type 1-fout blijft dus nog steeds Maar het gevolg voor onze power is dat deze groter wordt. n stijgt, α blijft gelijk β wordt kleiner Dit zijn de 3 belangrijkste punten om mee te nemen. Lineaire Regressie en t-testen Voor mij en enkele vrienden is er wat onduidelijkheid over het gebruik van de F -toets en t-toets bij de lineaire regressies (zowel enkelvoudig, meervoudig,... ). Wanneer gebruik je welke? Welke R code gebruik je ervoor? Wat is het verschil ertussen? We krijgen alle informatie via de functie summary. Bij de coëfficiënten die geschat worden in de output zien we de t-toetsen, onderaan in de output zien we de F -toets. Maar wat is het verschil nu tussen deze, en wanneer gebruik je welke? De F -toets is een algemene toets, deze maakt geen onderscheid tussen de verschillende predictoren. Als we bijvoorbeeld 3 predictoren hebben, dan test de F -toets of er een significant verschil is tussen het nulmodel (dus zonder predictoren) en het model met 3 predictoren. De t-toets van een predictor zegt of de predictor in het gespecifieerde model significant is. Dus als we een model met 3 predictoren hebben dan geeft de t-toets aan of er een significant verschil is tussen het model met 2 predictoren (exclusief de predictor die getoetst wordt) en het model met 3 predictoren. Er bestaat ook een speciaal geval, als we maar 1 predictor hebben. Dan zullen we zien dat de p-waarde van de F -toets en de p-waarde van de t-toets hetzelfde zijn. Bij meerdere predictoren is dit niet het geval. Oefenbundel 3. Bij vraag 1, subvraag 5 en 6 begrijp ik niet hoe je bij de tips weet welke α je moet kiezen? De ene keer is het en de andere keer 0.5? Wanneer we een lineaire regressie gaan doen is onze t-toets altijd tweezijdig. Dus als de betrouwbaarheid die we hanteren 0.95 is, dan weten we dat we op zoek moeten gaan naar (1 0.95)/2. Dus we willen zowel in onze t-verdeling links als rechts werken. Bij een F -toets, zoals uitgelegd in de vorige bundel, is onze toets automatisch tweezijdig. Er wordt geen rekening meer gehouden of het groter dan of kleiner dan is, hier hebben we gewoon extremer. Dus we hebben een eenzijdige verdeling voor een tweezijdige toets. Bij de F -verdeling gaan we dus zoeken naar Klopt het dat je bij de F -toets je kans nooit moet vermenigvuldigen met 2 omdat dit een eenzijdige toets is en dat je bij de t-toets als de alternatieve hypothese tweezijdig is de kans nog wel moet vermenigvuldigen met 2? Wanneer we een t-toets gebruiken en de alternatieve hypothese is tweezijdig (zoals bij lineaire regressie) dan moet je de kans nog wel vermenigvuldigen met 2, want onze verdeling is ook tweezijdig. De F -toets bij een lineaire regressie moeten we niet meer vermenigvuldigen met 2. De alternatieve hypothese is tweezijdig, maar onze verdeling is eenzijdig maar geeft wel inherent een tweezijdige toets. We verwijzen hierbij naar de uitgebreide uitleg in de vorige feedbackbundel. 10

12 Heeft iemand een overzicht met alle linken tussen S, S n, σ, V, SS X,...? We zullen proberen een exhaustief overzicht te geven van deze zaken uit de cursus, maar we raden aan om toch zelf nog eens na te kijken want er is altijd kans dat wij ook iets over het hoofd hebben gezien: sn 2 X = SS X/n = ( n i=1 (x i x) 2) /n = s 2 x(n 1)/n = σ 2 X SS X = n i=1 (x i x) 2 b 1 = r XY sn Y /sn X = r XY s Y /s X SNX 2 = ( n i=1 (X i X) 2) /n = SX 2 (n 1)/n s 2 X = ( n i=1 (x i x) 2) /(n 1) = SS X /(n 1) = sn 2 X n/(n 1) = ˆσ2 X SX 2 = ( n i=1 (X i X) 2) /(n 1) = SNX 2 n/(n 1) Alles betreft SS Y, SS Tot,... staat al in een feedbackbundel, dus daar gaan we niet meer dieper op in. Ik voerde voor deze oefening eerst een aparte t-test uit. t.test (x= sporttijdm, y = sporttijdv, alternative= two.si Hierbij was mijn p-waarde De t-test via summary(lm...) geeft echter een p-waarde van Waarom zijn deze niet gelijk? Dit gaat toch over een t-test voor 2 gemiddelden, onafhankelijke steekproeven? Bij de functie lm geldt er de assumptie van homoscedasticiteit. Bij een t-test voor 2 onafhankelijke steekproeven niet. Wanneer we bij t.test het argument var.equal = TRUE zouden gebruiken dan komen we exact dezelfde p-waarde uit. Nu zit er een klein verschil op omwille van de homoscedasticiteitsassumptie bij de lineaire regressie en het ontbreken van deze assumptie bij een t-test. Bij de achterwaartse en voorwaartse selectie voeren we telkens de functie LM uit, en kijken naar de p-waarde van de t-toets. Ik ga er dus van uit dat je, met slechts 1 predictor en 1 afhankelijke variabele (vb. stap 1 bij de voorwaartse, waar je van iedere predictor apart een summary LM maakt), ook een t-toets kan uitvoeren. Welke t-toets is dat dan? Dit is nauw verwant met de vorige vraag. We kunnen bij 1 predictor en 1 afhankelijke variabele dezelfde toetsingsgrootheid en p-waarde bekomen als we bij t.test het argument var.equal = TRUE gebruiken. Volgens de syllabus wordt situatie a) de regressiecofficinten zijn allemaal nul (p ) vergeleken met rubr en situatie b) de cofficint is nul met rubr Beide p-waarden komen echter terug in de oefening onder rubr (de cofficint is nul). Kan iemand me uitleggen wat ik over het hoofd zie? Op dit moment begrijp ik niet wat de linken zijn. Wat de syllabus tracht duidelijk te maken is dat de hypothese die wordt getoetst in het eerste geval gelijkaardig is aan de hypothese die wordt getoetst in 9.6.2, waar je naar de algemene toetsing gaat zien (de p-waarde horende bij de F -toetsingsgrootheid, onderaan de summary). In het tweede geval wordt er 1 specifieke variabele getest, zoals in 9.6.1, en gaan we zien naar de bijhorende t-toetsingsgrootheid en bijhorende p-waarde. Je vindt deze beide inderdaad terug in de output van omdat in een andere dataset wordt gebruikt. Het is enkel ter illustratie. Ik ben nog steeds verward over de verschillende tekens, zoals bij de formule voor de toetsingsgrootheid waar je x µ X doet in de teller. Soms wissel ik deze om. Is er een manier om hier een overzichtje van te maken? Het lijkt op den duur allemaal hetzelfde. Niet alleen voor dit voorbeeld maar ook voor andere tekens 11

13 Wanneer we kwadrateren maakt de volgorde niet uit. Maar voor de andere hebben we niet echt een pasklaar antwoord. Wat je bij de t-toets als geheugensteuntje kan nemen is dat wanneer je gemiddelde ( x) kleiner is dan je verwachting uit H 0 (µ X ) dan moet je een negatief getal uitkomen. Dus als je deze omwisselt in de formule krijg je een positief getal en weet je dat je deze moet omwisselen. Bij het berekenen van je F -toetsingsgrootheid moet je in gedachte houden dat de eerste SS in je teller de grootste moet zijn van de 2. In de noemer moet je de kleinste van de 2 zetten. Voor de ene SS uit de andere te berekenen moet je voor ogen houden dat een SS altijd positief is, dus als deze negatief is moet je iets aanpassen in je formule. En als je je R 2 gaat berekenen moet je een positief getal tussen 0 en 1 uitkomen. Dit zijn enkele zaken die je kunnen helpen om de formules te onthouden of te reconstrueren. Pagina 100: Toets met twee gemiddelden: echter in de toets gebruikt men rijfoutenmet en rijfoutenzonder en niet mean(rijfoutenmet-rijfoutenzonder). Maw de t-toets gaat hier toch niet over gemiddelden? Mag dat dan zo worden toegepast? Wanneer het over afhankelijke steekproeven gaat zijn er twee methodes. Ofwel geef je aan R door dat de twee steekproeven afhankelijk zijn met het argument paired = TRUE, ofwel maak je de verschilscore, zoals het voorbeeld in de syllabus. Beide geven dezelfde resultaten. Pagina 126: staat en R-uitslag van de t.test. hier staat dat df: Kan je dit uitleggen want, n 1 = 119 en n 2 = 56. Hoe komt R aan.48? De vrijheidsgraden hier komen van de Welch-test. Je kan dit berekenen met de formule op pagina 97. Je zal dan merken dat de vrijheidsgraden geen geheel getal meer zijn, maar een decimaal getal, in dit geval Pagina 140: Waarom is de voorwaardelijke variantie V (β 0 + β 1 x i ) = 0? β 0 en β 1 zijn beide constanten. Aangezien β 0 een constante is kunnen we deze laten vallen. Dus houden we enkel V (β 1 x i ) over. We kunnen de constante buiten de haakjes brengen: β 2 1V (x i ). Nu moeten we dus enkel de variantie kennen van x i. Aangezien x i een exacte waarde is, omdat we de voorwaarde stellen dat X i = x i hebben we hier ook een constante. De variantie van een constante is per definitie 0 (want het is constant). Dus krijgen we 0β 2 1 = 0. Op pagina 222 wordt er ineens geen rekening gehouden met de α-fout, en dat er gewoon een waarde 0.05 wordt gebruikt. In beide gevallen in dat stuk wordt er op zich maar 1 significantie getest, namelijk dat van geslacht. De rest laten we links liggen. In de eerste methode doen we een omnibus-test (die automatisch al corrigeert voor de verschillende t-testen die worden gedaan - maar hier dieper op ingaan zou ons te ver leiden) waar we dan enkel gaan zien naar de p-waarde van de variabele geslacht. In het tweede geval doen we maar 1 test, namelijk de modelvergelijking tussen beide modellen. Voor zij die meer interesse hebben in de omnibus-procedure en de Type I-fout, op internet kan je veel vinden rond multiple testing correction. Maar dit is buiten de scope van deze cursus. Bij de t-verdeling worden de vrijheidsgraden met l benoemd, is dit gewoon altijd zo? 12

14 Dit is een notatie, maar soms worden deze ook aangeduid met df. Maar l is ook een correcte notatie. De Gauss-Markov assumpties, daar staat vaak i en j bij, wat is de precieze betekenis van deze letters? Wanneer we een gewone lineaire regressie hebben, dan gebruiken we 1 index, met name i. Dit wil zeggen de i de observatie. Bij een meervoudige lineaire regressie hebben we 2 indices. Hier staat i voor de observatie en j voor de variabele, dus we gaan dan kijken naar de i de observatie van de j de variabele. In het stuk categorische data-analyse is dit om het verschil aan te duiden tussen de rijen en kolommen (of de populaties en de categoriën). Wat zijn predicties juist? Is dat een voorspelling/schatting omtrent de voorwaardelijke verwachting of variantie? Is een predictie gelijk te stellen aan een schatter? Een predictie is een voorwaardelijke verwachting. We krijgen de waarde die onze predictor aanneemt, en op basis daarvan gaan we schatten wat de waarde van onze afhankelijke variabele is. Dus het is de waarde van onze afhankelijke variabele, voorwaardelijk op een bepaalde waarde van onze predictor. Dus het is een voorwaardelijke verwachting, dewelke we ook een schatting kunnen noemen van onze afhankelijke variabele. Wordt bij het toetsen van een lineair model β 1 altijd gelijkgesteld aan 0 bij de nulhypothese? Waarom is dit zo en wat betekent dat? Dat het geen predictor is, vermoed ik? Bij het nulmodel zijn er geen predictoren, hoe kunnen er dan predicties gemaakt worden? We hebben deze 2 vragen samengenomen, omdat ze elkaar kunnen helpen verklaren. Bij het nulmodel hebben we geen predictoren, enkel een β 0. Dit wil dus zeggen dat we een intercept hebben en onze regressierechte een horizontale lijn is. Deze waarde is gelijk aan het gemiddelde van onze afhankelijke variabele. Dus elke predictie is het gemiddelde van de afhankelijke variabele. Dit staat ook bekend als het slechts mogelijke model. Wanneer we nu gaan zien of er een predictor significant is dan stelt onze nulhypothese dat β 1 = 0. Dit komt overeen met het nulmodel, met name dat onze regressierechte een horizontale rechte is, met als intercept het gemiddelde van de afhankelijke variabele. Dus we gaan zien of onze β 1 ervoor zorgt of onze richtingscoëfficiënt kan veranderen van 0 of niet, of onze regressierechte nu niet meer horizontaal is. Graag zou ik een verduidelijking hebben van de spreidingsdiagrammen van SS Mod en SS Res, waar de punten op aangeduid zijn met de juiste betekenis vb. Waar ligt de ŷ en ȳ in zo n diagram? Zou het mogelijk zijn om een verduidelijking te geven omtrent een spreidingsdiagram waar je de predicties, schattingen en residuen vanuit kan afleiden? We verwijzen voor de afbeeldingen hier naar Feedbackbundel 3, oefening 5. Het eerste spreidingsdiagram (deelvraag 2) toont de geobserveerde y-waarden. In deelvraag 3 vinden we de rode horizontale rechte, deze stelt het nulmodel voor. Het intercept, en elke waarde is hier ȳ. Deelvraag 4 geeft nu aan hoe we SS Res0 kunnen aflezen. De som van de gekwadrateerde afstanden van een geobserveerde waarde (een punt) naar de rode lijn vormt SS Res0. In deelvraag 5 hebben we de regressierechte toegevoegd, dit is de blauwe lijn. Hier vinden we voor elke waarde van dosis de predictie op terug, met name ŷ. De som van de gekwadrateerde afstanden van een geobserveerde waarde tot de blauwe lijn geeft SS Res1. Het enige wat hier nog niet opstaat is SS Mod. Dit kunnen we vinden door de som van de gekwadrateerde afstanden van de blauwe lijn tot de rode lijn voor elke geobserveerde waarde. De aangepaste R 2 is kleiner dan R 2, maar je hebt toch juist een grote waarde nodig voor een lineair verband? 13

15 R 2 is minstens even groot (maar meestal groter) vergeleken met de aangepaste R 2. Dit komt omdat de formule voor R 2 ervoor zorgt dat bij het toevoegen van een predictor onze R 2 altijd groter wordt, ook al draagt deze predictor niet echt iets bij aan het model. Daarvoor is R 2 ontwikkeld. Hier wordt een strafmaat ingevoegd voor het invoegen van extra predictoren. Als een predictor niets significant bijdraagt aan het model, dan daalt onze R 2. Als er daarentegen wel veel informatie zit in de predictor krijgen we toch een stijging. Dit om een correcter beeld te krijgen, en ons te helpen bij modelselectie. Dus voor een significant lineair verband zoeken we naar de grootste R 2. Is het mogelijk om een duidelijk voorbeeld te geven van de betekenis van een regressie in de vorm van Y wordt groter door verandering X. Maar dan met een concreet voorbeeld We zullen het voorbeeld uit hoofdstuk 8 nemen. Er wordt een lineaire regressie gemaakt waar we gaan zien naar de invloed van de duur van werkloosheid op de uitgaven betreffende gezondheid. Bovenaan pagina 155 zien we de output. Wat kunnen we hieruit afleiden? Bij iemand die niet werkloos is (en dus duur = 0) verwachten we uitgaven voor gezondheid van (intercept) euro Iemand dat 1 maand werkloos is (duur = 1), daar verwachten we uitgaven voor gezondheid van = euro. Dus als onze predictor (X) 1 eenheid stijgt (hier 1 maand) dan verwachten we een stijging van euro van de uitgaven. Let op dit gaat over ŷ. Wanneer moet je summary of anova gebruiken? summary(...) gebruiken we als we bijvoorbeeld een model willen toetsen tegenover het nulmodel, of als we interesse hebben in individuele toetsen (per predictor). Hier krijgen we de resultaten van alle predictoren. anova(...) gebruiken we bij modelvergelijkingen. Dus we kunnen hier ook hetzelfde mee bereiken als bij summary(...), maar we kunnen hier nog een paar stappen verder gaan. Als we bijvoorbeeld een model met 4 predictoren hebben, en we willen dit vergelijken met een model met 2 van de 4 predictoren, dan gebruiken we anova(...). Hebben k en p steeds andere betekenissen? De betekenis van k en p hangt altijd af van de context. We merken dat deze een andere betekenis hebben bij meervoudige lineaire regressie dan bij lineaire regressie met nominale predictoren. Het is voornamelijk van belang te weten wat je bij welke methode nodig hebt, en dan kan je vaak de betekenis van k en p zelf beginnen afleiden. Klopt dit: Wanneer de p-waarde kleiner is dan 5 procent, verwerpen we de nulhypothese en is dat dus een predictor? AFhankelijk van hoe groot je α stelt. Indien je dit zet op 0.05 dan klopt het volledig. Bij Dummy-codering snap ik niet goed wat de voorwaardelijke verwachtingen zijn en welke betekenis deze hebben. Kiest R zelf de referentiegroep? Alfabetisch? 14

16 R gebruikt standaard dummy-codering en neemt de eerste categorie als referentiegroep. Dit kan alfabetisch zijn, maar is het niet noodzakelijk. Het intercept is de voorwaardelijke verwachting van de referentiegroep. Bijvoorbeeld op pagina 228 is de voorwaardelijke verwachting van behandeling A De voorwaardelijke verwachting van elke andere behandeling is het intercept plus de coëfficiënt van de desbetreffende behandeling. Bijvoorbeeld voor behandeling B wordt de voorwaardelijke verwachting = Op pagina 99 in de cursus gaat het over afhankelijke steekproeven. Bij de voorwaarden gaat het over de verschillen van de twee afhankelijke steekproeven (D). De voorwaarde is dus dat D normaal verdeeld moet zijn of de steekproef moet groot zijn. Maar op pagina 101 in de cursus staat er een tweede manier om in R een statistische toets in te geven wanneer het gaat over 2 afhankelijke steekproeven, namelijk met behulp van de functie t.test (waarbij de verschillen niet zelf berekend moeten worden). Het lijkt dus heel erg op de functie die wordt ingegeven bij onafhankelijke steekproeven, alleen moet je hier (bij afhankelijke steekproeven) paired= TRUE ingeven om aan te geven dat het om afhankelijke steekproeven gaat. Maar nu vroeg ik mij af of dat de voorwaarden veranderen indien je gebruik maakt van die methode zoals hierboven omgeschreven (en op pagina 101 in de cursus) wanneer het gaat om afhankelijke steekproeven. Want je gebruikt dan een functie zoals bij onafhankelijke steekproeven dus veranderen de voorwaarden dan naar: X moet normaal verdeeld zijn in beide populaties of beide steekproeven moeten groot zijn (en dus niet meer n steekproef zoals de voorwaarden bij afhankelijke steekproeven)? Wat de voorwaarde is bij 2 afhankelijke steekproeven is dat de verschilscore normaalverdeeld moet zijn of de steekproef zeer groot zijn. Dus die uitleg van de verschilscore D klopt. Wanneer we in R aangeven dat ze paired zijn dan berekent R achter de schermen zelf de verschilscore. Dus neen, de voorwaarden veranderen niet. Op pagina 160 (onder titel 8.10) staat er: b1 = Van waar komt die 1166? Dit is volgens ons een fout. Als we gaan zien op pagina 155 bovenaan zien we de beta s. ˆ Onze b 0 zal niet veranderen, maar onze b 1 zal inderdaad 12 keer groter worden, dus dit wordt b 1 = 2 12 = 24. Maar in de cursus heeft prof. Marchant de waarde van b 0 vermenigvuldigd met 12. We zullen dit doorgeven aan de professor en zijn assistenten om dit te in het erratum op te nemen en te corrigeren naar volgend jaar toe. Normaliteitsassumptie Wanneer we in de output de informatie over een regressie opvragen via Summary, kijken we bij de residuals of dit symmetrisch is. Indien dit zo is, gaan we verder. Wat als dit echter niet symmetrisch is? Als er grote verschillen zijn? Moet je dan kijken of n groter is dan 30? Of mag je sowieso niet verder? De normaliteitsassumptie is dezelfde als bij een t-toets. Uit hetgeen we merken in de vragen bestaan hier nogal wat misverstanden rond. De cursus geeft een antwoord hierover onderaan op pagina 102. We gaan dit hier even samenvatten: Is n < 30? Dan moeten de residuals normaalverdeeld zijn. Geen uitzondering Is 30 n < 100? Dan zijn kleine afwijkingen wel toegelaten op de normaliteit. Maar als de normaliteit echt te veel afwijkt mogen we niet verder. Is n 100? Dan is onze steekproef groot genoeg om de centrale limietstelling te laten spelen, en is de normaliteit niet meer. Let op: wanneer we met een nominale predictor zitten dan slaat de n in de vuistregels hierboven op de steekproefgrootte per groep. Dus de centrale limietstelling gaat hier pas op wanneer elke groep minstens 100 observaties 15

17 telt. Let op: het moet symmetrisch rond 0 zijn. Waarom mogen we het lineair model van oefening 81 niet toetsen? De qqnorm toont aan dat de fouten niet normaalverdeeld zijn (dus stop toetsing), maar de steekproefgrootte is 200, dus de voorwaarde of normaalverdeeld, of groot is toch voldaan? Wij gaan volledig akkoord met deze opmerking, zeker kijkende naar de uitleg hierboven. We gaan dit doorgeven aan de professor en zijn assistenten, en de garantie vragen dat op het examen hier zeker rekening mee wordt gehouden bij het opstellen van de vragen. Voorwaartse en achterwaartse selectie Op p 201 staat er bij de toepassing, dat we de nominale predictoren uit het model verwijderen om de voorwaartse selectie toe te passen. In hoofdstuk 10, op p 223, wordt echter probleemloos een achterwaartse selectie uitgevoerd met nominale predictoren. Zie ik iets over het hoofd? Want op zich gebeurt op p 223 niets anders dan op p 201; R voert uit, en wij kijken enkel naar de p-waarde en interpreteren β j van de variabelen (ook de nominale)? Spijtig genoeg kunnen we hier geen bevredigend antwoord op geven. Hier zijn in onze ogen een paar onlogische beslissingen genomen door de professor bij het opstellen van de cursus. In deze cursus wordt nergens de combinatie gemaakt van continue en nominale predictoren in een meervoudige lineaire regressie. Dat lijkt ons de reden waarom deze niet mee is opgenomen in de voorwaartse selectie. In de cursus Onderzoeksmethoden in 3de Bachelor zullen jullie wel meervoudige lineaire regressie zien met beide soorten predictoren. We vinden het dan wel raar dat een nominale predictor wordt opgenomen in de achterwaartse selectie. Het enige wat wij hier kunnen zeggen is dat je ook nominale predictoren kan opnemen, maar dat dit niet echt behandeld is in deze cursus. Micro-oefening 97 - Voorwaartse selectie: Op basis van het meetniveau van de predictoren, hou ik 8 predictoren over ipv 5: gestation - parity - age - ht - wt.1 - dage - dht - dwt. Deze 8 lijken mij allemaal interval en ratio te zijn... Als ik dan de opdracht pairs (geboorte[c( wt, gestation, parity, age, ht, wt.1, dage, dht, dwt )], lower.panel=null) uitvoer, dan zie ik ook geen reden om nog predictoren niet te gebruiken omwille van geen lineaire regressie. Kan iemand me zeggen welke 3 predictoren ik teveel gebruik, en waarom? Sla ik stappen over? Op pagina 192 wordt uitgelegd welke 5 predictoren er gebruikt worden en waarom. Wanneer we van de 5 predictoren die daar overblijven (gestation, parity, age, dwt en number), dan komen we wel uit wat de oplossingen zeggen. Pagina midden van de pagina wordt gezegd dat je bij de achterwaartse selectie een kleinere α waarde kiest omdat je bij elke stap een α-fout kan maken.maar je legt toch steeds het geheel terug, dus er verandert op zich toch niets aan de data? Bij elke toets die je doet heb je een kans van α op een Type I-fout, ongeacht of je dezelfde data gebruikt of andere. Stel, we doen 10 verschillende testen met α = 0.05 dan is de kans op een Type I fout groter dan Want: P(Minstens 1 significante toets) = 1 P(Geen van de 10 significant) =

18 Dus wordt de kans op een Type I-fout ongeveer Om die redenen kiezen we een kleinere α om onze Type I-fout niet te groot te laten worden. Dit bewijst dat de 2 methoden niet equivalent zijn. Echter de uitkomst is verschillende omdat een andere α wordt gebruikt bij elke methode. De uitkomst in de twee lineaire regressies zijn identiek p195 en 200; alleen is bij de achterwaartse methode een α van 0.03 gebruikt en bij de voorwaartse een α van Is er buiten het verschil in α dan een effect van het verschil tussen de twee methodes? Op zich is het geen ideale dataset om het verschil duidelijk te maken. Wanneer je met veel predictoren zit dan is het zeer goed mogelijk dat je met andere variabelen gaat overblijven in het finaal model, ook met dezelfde α, dit omdat de p-waarden van je variabelen altijd mede bepaald worden door de variabelen die al dan niet in het model zitten. Dus ja, er is een verschil tussen beide methodes, maar dit is niet duidelijk in dit voorbeeld. Bij de voorwaartse selectie moet je eerst regressies apart uitvoeren en dan nog 1 samen met alle predictoren? Bij voorwaartse selectie ga je eerst regressies uitvoeren met elke predictor apart. Dan kies je de predictor met de kleinste p-waarde, die onder α ligt. Dan ga je meervoudige regressies uitvoeren met de gekozen predictor in elk model, vergezelgd van elke andere predictor apart per model. Dit herhaal je. Op het einde voeg je een regressie uit met alle gekozen predictoren. De vuistregel bij opmerkingen (pagina 204 onderaan) gaat als volgt: n/p moet groter zijn dan 40. Die p (het aantal predictoren); gaat dat over het aantal predictoren VOOR de selectie of over het aantal predictoren bij het finale model NA de selectie? Omdat we op voorhand niet weten hoeveel predictoren we gaan opnemen in het finale model kunnen we dus niet onze n bepalen voor selectie. We gaan er altijd van uit dat er de mogelijkheid is dat alle predictoren moeten opgenomen worden. Dus het gaat over de verhouding n/p van ALLE predictoren. Categorische data-analyse Bij HF 11: op p. 251 staat dat de het niet uitmaakt welke variabele je als populatie (k) en als categorie (p) bepaalt. Maar mag dit ook zelf bepaald worden bij onafhankelijke variabelen of doet het er daar wel toe? In deze context heeft afhankelijk en onafhankelijk een andere betekenis. Dit kan je best nalezen in de cursus op pagina 57. Maar om toch een antwoord te geven of je dat altijd zelf mag kiezen: Ja. Bij een Pearson χ 2 voor de afhankelijkheid maakt het niet uit wat de rijen en de kolommen zijn. Wat er eigenlijk getoetst wordt is of beide variabelen al dan niet afhankelijk zijn. De nulhypothese bij deze test is dat beide variabelen onafhankelijk zijn. Wanneer we dus p < 0.05 krijgen wil dit zeggen dat beide variabelen afhankelijk zijn. Maar er wordt geen rekening gehouden met wat je als rijen en wat als kolommen gebruikt, je kan deze gerust omwisselen. Staat proportie altijd voor een relatieve frequentie? Of wat wordt bedoeld met het toetsen van een hypothese betreffende een proportie? Een proportie is inderdaad een relatieve frequentie. Dus een hypothese betreffende een proportie is dat je 17

19 wilt testen op een proportie of relatieve frewuentie. Bij de afhankelijkheid van 2 categorische variabelen: Hoe ga je dit concreet gaan berekenen? Dit is exact dezelfde methode als Oefening 6 uit Feedbackbundel 5. Voorbeeldvragen In het voorbeeld examen van op Minerva wordt bij vraag 6 de productie als nominaal gezien. Waarom mag je dit niet als ordinaal bestempelen aangezien men spreekt van midden - hoger kader. Hier zit dan toch wel een orde in? De variabele van categorie werknemer is nominaal. Als we zouden zeggen dat dit ordinaal is gaan we zeggen dat iemand uit het hoger kader meer of groter is dan een arbeider. Maar op welke meetschaal dan? Op welke basis? Wat eventueel wel kan is dat de loonschaal ordinaal zou zijn. Iemand uit het hoger kader zal in een hogere loonschaal zitten dan iemand uit het middenkader. Maar we kunnen niet zeggen dat er een orde is in de klassen van werknemers. Als we even parallel zouden denken: de variabele geslacht is nominaal (in nog niet zo verre tijden zouden velen pleiten dat het zelfs ordinaal was). Maar een man verdient over het algemeen meer dan een vrouw. Dit gaat er niet voor zorgen dat onze variabele plots ordinaal wordt. Wanneer je twijfelt of het ordinaal of nominaal is, stel jezelf dan de vraag op welke basis je de ene categorie groter of meer kan noeman dan de andere categorie. Moet bij vraag 34 niet eerst gedefinieerd worden wat de oorspronkelijke positie van persoon 12 is om het antwoord op deze vraag te kunnen weten? De vraag is zo opgesteld dat het niet nodig is. Aangezien er wordt gezegd dat een fout gecorrigeerd wordt en een observatie nu de waarde arbeider krijgt weten we dat er meer arbeiders zullen zijn dan in de oorspronkelijke data. Er is maar 1 pie chart die hieraan voldoet. 2 pie charts hebben minder arbeiders en 1 pie chart evenveel. Mochten er nu 2 pie charts zijn met meer arbeiders, dan moet je wel de originele categorie weten. Vragen buiten categorie We hebben deze vraag hier gezet omdat wat hier gevraagd wordt verder gaat dan wat de cursus van jullie verwacht, en dit dus ook niet op het examen zal komen. Toch zijn we altijd blij als we dergelijke vragen krijgen, omdat we dan merken dat jullie echt jullie uiterste best doen om alles te begrijpen. wat is de implicatie (in vgl met de andere verdeling die we gezien hebben) dat de verwachting bij de T -verdeling altijd 0 is. Ik heb daar meen ik nog geen oefening over gezien, waarbij dit feit een impact heeft. Kan je dit uitleggen. Wat is nu het antwoord op deze vraag? Wat is het gevolg dat de t-verdeling als verwachting 0 heeft? Het gevolg is dat deze verdeling symmetrisch is en dus ideaal voor tweezijdige toetsen. Het grote verschil met de F -verdeling is dat je met de t-verdeling ook eenzijdig kan toetsen en je voor een tweezijdige toets slechts 1 kant moet kennen, net omdat deze symmetrisch rond 0 is. Waarom wordt sd in de power-toets gebruikt, als de power vooral verandert als n, α of delta. 18

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3

Statistiek II. Sessie 3. Verzamelde vragen en feedback Deel 3 Statistiek II Sessie 3 Verzamelde vragen en feedback Deel 3 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 3 1 Statismex en bloeddruk 1. Afhankelijke variabele: Bloeddruk (van ratio-niveau) Onafhankelijke

Nadere informatie

Statistiek II. Sessie 5. Feedback Deel 5

Statistiek II. Sessie 5. Feedback Deel 5 Statistiek II Sessie 5 Feedback Deel 5 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 5 1 Statismex, gewicht en slaperigheid2 1. Lineair model: slaperigheid2 = β 0 + β 1 dosis + β 2 bd + ε H 0 :

Nadere informatie

Statistiek II. Sessie 4. Feedback Deel 4

Statistiek II. Sessie 4. Feedback Deel 4 Statistiek II Sessie 4 Feedback Deel 4 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 4 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1

Statistiek II. Sessie 1. Verzamelde vragen en feedback Deel 1 Statistiek II Sessie 1 Verzamelde vragen en feedback Deel 1 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 1 1 Staafdiagram 1. Wat is de steekproefgrootte? Op de horizontale as vinden we de respectievelijke

Nadere informatie

11. Multipele Regressie en Correlatie

11. Multipele Regressie en Correlatie 11. Multipele Regressie en Correlatie Meervoudig regressie model Nu gaan we kijken naar een relatie tussen een responsvariabele en meerdere verklarende variabelen. Een bivariate regressielijn ziet er in

Nadere informatie

9. Lineaire Regressie en Correlatie

9. Lineaire Regressie en Correlatie 9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)

Nadere informatie

8. Analyseren van samenhang tussen categorische variabelen

8. Analyseren van samenhang tussen categorische variabelen 8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde

Nadere informatie

Hoofdstuk 5 Een populatie: parametrische toetsen

Hoofdstuk 5 Een populatie: parametrische toetsen Hoofdstuk 5 Een populatie: parametrische toetsen 5.1 Gemiddelde, variantie, standaardafwijking: De variantie is als het ware de gemiddelde gekwadrateerde afwijking van het gemiddelde. Hoe groter de variantie

Nadere informatie

Hoofdstuk 8 Het toetsen van nonparametrische variabelen

Hoofdstuk 8 Het toetsen van nonparametrische variabelen Hoofdstuk 8 Het toetsen van nonparametrische variabelen 8.1 Non-parametrische toetsen: deze toetsen zijn toetsen waarbij de aannamen van normaliteit en intervalniveau niet nodig zijn. De aannamen zijn

Nadere informatie

Examen Statistiek I Feedback

Examen Statistiek I Feedback Examen Statistiek I Feedback Bij elke vraag is alternatief A correct. Bij de trekking van een persoon uit een populatie beschouwt men de gebeurtenissen A (met bril), B (hooggeschoold) en C (mannelijk).

Nadere informatie

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN Inleiding Statistische gevolgtrekkingen (statistical inference) gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Nadere informatie

Hoofdstuk 3 Statistiek: het toetsen

Hoofdstuk 3 Statistiek: het toetsen Hoofdstuk 3 Statistiek: het toetsen 3.1 Schatten: Er moet een verbinding worden gelegd tussen de steekproefgrootheden en populatieparameters, willen we op basis van de een iets kunnen zeggen over de ander.

Nadere informatie

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses

Vandaag. Onderzoeksmethoden: Statistiek 3. Recap 2. Recap 1. Recap Centrale limietstelling T-verdeling Toetsen van hypotheses Vandaag Onderzoeksmethoden: Statistiek 3 Peter de Waal (gebaseerd op slides Peter de Waal, Marjan van den Akker) Departement Informatica Beta-faculteit, Universiteit Utrecht Recap Centrale limietstelling

Nadere informatie

Hoofdstuk 6 Twee populaties: parametrische toetsen

Hoofdstuk 6 Twee populaties: parametrische toetsen Hoofdstuk 6 Twee populaties: parametrische toetsen 6.1 De t-toets voor het verschil tussen twee gemiddelden: In veel onderzoekssituaties zijn we vooral in de verschillen tussen twee populaties geïnteresseerd.

Nadere informatie

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015 Cursus TEO: Theorie en Empirisch Onderzoek Practicum 2: Herhaling BIS 11 februari 2015 Centrale tendentie Centrale tendentie wordt meestal afgemeten aan twee maten: Mediaan: de middelste waarneming, 50%

Nadere informatie

Hoofdstuk 10: Regressie

Hoofdstuk 10: Regressie Hoofdstuk 10: Regressie Inleiding In dit deel zal uitgelegd worden hoe we statistische berekeningen kunnen maken als sprake is van één kwantitatieve responsvariabele en één kwantitatieve verklarende variabele.

Nadere informatie

Statistiek II. Sessie 6. Feedback Deel 6

Statistiek II. Sessie 6. Feedback Deel 6 Statistiek II Sessie 6 Feedback Deel 6 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 6 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat het document met

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen»

Nadere informatie

College 2 Enkelvoudige Lineaire Regressie

College 2 Enkelvoudige Lineaire Regressie College Enkelvoudige Lineaire Regressie - Leary: Hoofdstuk 7 tot p. 170 (Advanced Correlational Strategies) - MM&C: Hoofdstuk 10 (Inference for Regression) - Aanvullende tekst 3 Jolien Pas ECO 011-01 Correlatie:

Nadere informatie

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef

Statistiek II. 1. Eenvoudig toetsen. Onderdeel toetsen binnen de cursus: Toetsen en schatten ivm één statistiek of steekproef Statistiek II Onderdeel toetsen binnen de cursus: 1. Eenvoudig toetsen Toetsen en schatten ivm één statistiek of steekproef Via de z-verdeling, als µ onderzocht wordt en gekend is: Via de t-verdeling,

Nadere informatie

Feedback examen Statistiek II Juni 2011

Feedback examen Statistiek II Juni 2011 Feedback examen Statistiek II Juni 2011 Bij elke vraag is alternatief A correct. 1 De variabele X is Student verdeeld in een bepaalde populatie, met verwachting µ X en variantie σ 2 X. Je trekt steekproeven

Nadere informatie

Hoofdstuk 12: Eenweg ANOVA

Hoofdstuk 12: Eenweg ANOVA Hoofdstuk 12: Eenweg ANOVA 12.1 Eenweg analyse van variantie Eenweg en tweeweg ANOVA Wanneer we verschillende populaties of behandelingen met elkaar vergelijken, dan zal er binnen de data altijd sprake

Nadere informatie

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES

HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES HOOFDSTUK 7: STATISTISCHE GEVOLGTREKKINGEN VOOR DISTRIBUTIES 7.1 Het gemiddelde van een populatie Standaarddeviatie van de populatie en de steekproef In het vorige deel is bij de significantietoets uitgegaan

Nadere informatie

Statistiek II. Sessie 2. Verzamelde vragen en feedback Deel 2

Statistiek II. Sessie 2. Verzamelde vragen en feedback Deel 2 Statistiek II Sessie 2 Verzamelde vragen en feedback Deel 2 VPPK Universiteit Gent 2017-2018 Feedback Oefensessie 2 We hebben besloten de bekomen grafieken in R niet in het document in te voegen, dit omdat

Nadere informatie

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing G0N11a Statistiek en data-analyse: project Eerste zittijd 2007-2008 Modeloplossing Opmerking vooraf: Deze modeloplossing is een heel volledig antwoord op de gestelde vragen. Om de maximumscore op een vraag

Nadere informatie

werkcollege 6 - D&P9: Estimation Using a Single Sample

werkcollege 6 - D&P9: Estimation Using a Single Sample cursus 9 mei 2012 werkcollege 6 - D&P9: Estimation Using a Single Sample van frequentie naar dichtheid we bepalen frequenties van meetwaarden plot in histogram delen door totaal aantal meetwaarden > fracties

Nadere informatie

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16

Hiermee rekenen we de testwaarde van t uit: n. 10 ( x ) ,16 modulus strepen: uitkomst > 0 Hiermee rekenen we de testwaarde van t uit: n 10 ttest ( x ) 105 101 3,16 n-1 4 t test > t kritisch want 3,16 >,6, dus 105 valt buiten het BI. De cola bevat niet significant

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek Terugblik - Inductieve statistiek Afleiden van eigenschappen van een populatie op basis van een beperkt aantal metingen (steekproef) Kennis gemaakt met kans & kansverdelingen

Nadere informatie

Statistiek ( ) eindtentamen

Statistiek ( ) eindtentamen Statistiek (200300427) eindtentamen studiejaar 2010-11, blok 4; Taalwetenschap, Universiteit Utrecht. woensdag 29 juni 2011, 17:15-19:00u, Educatorium, zaal Gamma. Schrijf je naam en student-nummer op

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek 2 voor TeMa (2S95) op dinsdag 5-03-2005, 9.00-22.00 uur Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine

Nadere informatie

Oefenvragen bij Statistics for Business and Economics van Newbold

Oefenvragen bij Statistics for Business and Economics van Newbold Oefenvragen bij Statistics for Business and Economics van Newbold Hoofdstuk 1 1. Wat is het verschil tussen populatie en sample? De populatie is de complete set van items waar de onderzoeker in geïnteresseerd

Nadere informatie

1. Reductie van error variantie en dus verhogen van power op F-test

1. Reductie van error variantie en dus verhogen van power op F-test Werkboek 2013-2014 ANCOVA Covariantie analyse bestaat uit regressieanalyse en variantieanalyse. Er wordt een afhankelijke variabele (intervalniveau) voorspeld uit meerdere onafhankelijke variabelen. De

Nadere informatie

Examen Statistiek I Januari 2010 Feedback

Examen Statistiek I Januari 2010 Feedback Examen Statistiek I Januari 2010 Feedback Correcte alternatieven worden door een sterretje aangeduid. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Twee derden van de mannen

Nadere informatie

Toegepaste Statistiek, Week 6 1

Toegepaste Statistiek, Week 6 1 Toegepaste Statistiek, Week 6 1 Eén ordinale en één nominale variabele Nominale variabele met TWEE categorieën, 1 en 2 Ordinale variabele normaal verdeeld binnen iedere categorie? Variantie in beide categorieën

Nadere informatie

Samenvatting Statistiek II Studiejaar Mathilde Dieleman. Samenvatting statistiek II. Auteur: Mathilde Dieleman Studiejaar:

Samenvatting Statistiek II Studiejaar Mathilde Dieleman. Samenvatting statistiek II. Auteur: Mathilde Dieleman Studiejaar: Samenvatting statistiek II Auteur: Mathilde Dieleman Studiejaar: 2017 2018 Inhoudsopgave Hoofdstuk 2: Beschrijvende statistiek... 1 2.1.1 Centrummaten (pag. 31)... 1 2.2.2 Spreidingsmaten (pag. 34)...

Nadere informatie

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk:

Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 13. Factor ANOVA De theorie achter factor ANOVA (tussengroep) Bij factor ANOVA is er een tweede onafhankelijke variabele in de analyse bij gekomen. Er zijn drie soorten designs mogelijk: 1. Onafhankelijke

Nadere informatie

Feedback proefexamen Statistiek I 2009 2010

Feedback proefexamen Statistiek I 2009 2010 Feedback proefexamen Statistiek I 2009 2010 Het correcte antwoord wordt aangeduid door een sterretje. 1 Een steekproef van 400 personen bestaat uit 270 mannen en 130 vrouwen. Een derde van de mannen is

Nadere informatie

werkcollege 6 - D&P10: Hypothesis testing using a single sample

werkcollege 6 - D&P10: Hypothesis testing using a single sample cursus huiswerk opgaven Ch.9: 1, 8, 11, 12, 20, 26, 36, 37, 71 werkcollege 6 - D&P10: Hypothesis testing using a single sample Activities 9.3 en 9.4 van schatting naar toetsing vorige bijeenkomst: populatie-kenmerk

Nadere informatie

Les 2: Toetsen van één gemiddelde

Les 2: Toetsen van één gemiddelde Les 2: Toetsen van één gemiddelde Koen Van den Berge Statistiek 2 e Bachelor in de Biochemie & Biotechnologie 22 oktober 2018 Het statistisch testen van één gemiddelde is een veel voorkomende toepassing

Nadere informatie

Toegepaste data-analyse: oefensessie 2

Toegepaste data-analyse: oefensessie 2 Toegepaste data-analyse: oefensessie 2 Depressie 1. Beschrijf de clustering van de dataset en geef aan op welk niveau de verschillende variabelen behoren Je moet weten hoe de data geclusterd zijn om uit

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 8 september 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte Classroom Exercises GEO2-4208 Opgave 7.1 a) Regressie-analyse dicteert hier geen stricte regels voor. Wanneer we echter naar causaliteit kijken (wat wordt door wat bepaald), dan is het duidelijk dat hoogte

Nadere informatie

College 6 Eenweg Variantie-Analyse

College 6 Eenweg Variantie-Analyse College 6 Eenweg Variantie-Analyse - Leary: Hoofdstuk 11, 1 (t/m p. 55) - MM&C: Hoofdstuk 1 (t/m p. 617), p. 63 t/m p. 66 - Aanvullende tekst 6, 7 en 8 Jolien Pas ECO 01-013 Het Experiment: een voorbeeld

Nadere informatie

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1

Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 Hoeveel vertrouwen heb ik in mijn onderzoek en conclusie? Les 1 1 Onderwerpen van de lessenserie: De Normale Verdeling Nul- en Alternatieve-hypothese ( - en -fout) Steekproeven Statistisch toetsen Grafisch

Nadere informatie

Data analyse Inleiding statistiek

Data analyse Inleiding statistiek Data analyse Inleiding statistiek 1 Doel Beheersen van elementaire statistische technieken Toepassen van deze technieken op aardwetenschappelijke data 2 1 Leerstof Boek: : Introductory Statistics, door

Nadere informatie

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf

HAVO 4 wiskunde A. Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf HAVO 4 wiskunde A Een checklist is een opsomming van de dingen die je moet kennen en kunnen. checklist SE1 wiskunde A.pdf 1. rekenregels en verhoudingen Ik kan breuken vermenigvuldigen en delen. Ik ken

Nadere informatie

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse

Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse Hoofdstuk 10 Eenwegs- en tweewegs-variantieanalyse 10.1 Eenwegs-variantieanalyse: Als we gegevens hebben verzameld van verschillende groepen en we willen nagaan of de populatiegemiddelden van elkaar verscihllen,

Nadere informatie

Reconstructie Bedrijfsstatistiek 2016

Reconstructie Bedrijfsstatistiek 2016 Reconstructie Bedrijfsstatistiek 2016 Open vragen Vraag 1 1. Bewijs dat σ^² een onvertekende schatter is voor σ²=σi 1/n * Xi² 2. Bereken de variantie van o^² 3. Is de schatter consistent? 4. Teken chi-kwadraat

Nadere informatie

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt

Berekenen en gebruik van Cohen s d Cohen s d is een veelgebruikte manier om de effectgrootte te berekenen en wordt A. Effect & het onderscheidingsvermogen Effectgrootte (ES) De effectgrootte (effect size) vertelt ons iets over hoe relevant de relatie tussen twee variabelen is in de praktijk. Er zijn twee soorten effectgrootten:

Nadere informatie

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie.

Dit jaar gaan we MULTIVARIAAT TOETSEN. Bijvoorbeeld: We willen zien of de scores op taal en rekenen van kinderen afwijken in de populatie. Toetsen van hypothesen Bijvoorbeeld: nagaan of het gemiddeld IQ bij een bepaalde steekproef groter/kleiner is als in de populatie. µ = 100 Normaalverdeling, waarbij we de score van de steekproef gaan vergelijken

Nadere informatie

Toegepaste Statistiek, Dag 7 1

Toegepaste Statistiek, Dag 7 1 Toegepaste Statistiek, Dag 7 1 Statistiek: Afkomstig uit het Duits: De studie van politieke feiten en cijfers. Afgeleid uit het latijn: status, staat, toestand Belangrijkste associatie: beschrijvende statistiek

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur Kansrekening en statistiek wi205in deel 2 6 april 200, 4.00 6.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na afloop

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamenopgaven Statistiek 2DD71: UITWERKINGEN 1. Stroopwafels a De som S van de 12 gewichten is X 1 + X 2 + + X 12. Deze is normaal

Nadere informatie

College 3 Meervoudige Lineaire Regressie

College 3 Meervoudige Lineaire Regressie College 3 Meervoudige Lineaire Regressie - Leary: Hoofdstuk 8 p. 165-169 - MM&C: Hoofdstuk 11 - Aanvullende tekst 3 (alinea 2) Jolien Pas ECO 2012-2013 'Computerprogramma voorspelt Top 40-hits Bron: http://www.nu.nl/internet/2696133/computerprogramma-voorspelt-top-40-hits.html

Nadere informatie

HOOFDSTUK VII REGRESSIE ANALYSE

HOOFDSTUK VII REGRESSIE ANALYSE HOOFDSTUK VII REGRESSIE ANALYSE 1 DOEL VAN REGRESSIE ANALYSE De relatie te bestuderen tussen een response variabele en een verzameling verklarende variabelen 1. LINEAIRE REGRESSIE Veronderstel dat gegevens

Nadere informatie

Toegepaste Statistiek, Week 3 1

Toegepaste Statistiek, Week 3 1 Toegepaste Statistiek, Week 3 1 In Week 2 hebben we toetsingstheorie besproken mbt een kwantitatieve (ordinale) variabele G, en met name over zijn populatiegemiddelde E(G). Er waren twee gevallen: Er is

Nadere informatie

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018 Statistiek in de alfa en gamma studies Aansluiting wiskunde VWO-WO 16 april 2018 Wie ben ik? Marieke Westeneng Docent bij afdeling Methoden en Statistiek Faculteit Sociale Wetenschappen Universiteit Utrecht

Nadere informatie

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn

Statistiek: Spreiding en dispersie 6/12/2013. dr. Brenda Casteleyn Statistiek: Spreiding en dispersie 6/12/2013 dr. Brenda Casteleyn dr. Brenda Casteleyn www.keu6.be Page 2 1. Theorie Met spreiding willen we in één getal uitdrukken hoe verspreid de gegevens zijn: in hoeveel

Nadere informatie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur. TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor TeMa (S95) op dinsdag 3-03-00, 9- uur. Bij het tentamen mag gebruik worden gemaakt van een zakrekenmachine en

Nadere informatie

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R

Bij herhaalde metingen ANOVA komt het effect van het experiment naar voren bij de variantie binnen participanten. Bij de gewone ANOVA is dit de SS R 14. Herhaalde metingen Introductie Bij herhaalde metingen worden er bij verschillende condities in een experiment dezelfde proefpersonen gebruikt of waarbij dezelfde proefpersonen op verschillende momenten

Nadere informatie

mlw stroom 2.1: Statistisch modelleren

mlw stroom 2.1: Statistisch modelleren mlw stroom 2.1: Statistisch modelleren College 5: Regressie en correlatie (2) Rosner 11.5-11.8 Arnold Kester Capaciteitsgroep Methodologie en Statistiek Universiteit Maastricht Postbus 616, 6200 MD Maastricht

Nadere informatie

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing

Bijlage Bijlage 3. Statistische toetsing: werkwijze, toetsen, formules, toepassing Bijlage 3 Statistische toetsing: werkwijze, toetsen, formules, toepassing In dit boek wordt kennis van statistiek en statistische ( hypothese)toetsing in principe bekend verondersteld. Niettemin geven

Nadere informatie

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening

Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Statistiek voor Natuurkunde Opgavenserie 1: Kansrekening Inleveren: 12 januari 2011, VOOR het college Afspraken Serie 1 mag gemaakt en ingeleverd worden in tweetallen. Schrijf duidelijk je naam, e-mail

Nadere informatie

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17

Stochastiek 2. Inleiding in de Mathematische Statistiek 1 / 17 Stochastiek 2 Inleiding in de Mathematische Statistiek 1 / 17 Statistische toetsen 2 / 17 Toetsen - algemeen - 1 Setting: observatie X in X, model {P θ : θ Θ}. Gegeven partitie Θ = Θ 0 Θ 1, met Θ 0 Θ 1

Nadere informatie

Examen G0N34 Statistiek

Examen G0N34 Statistiek Naam: Richting: Examen G0N34 Statistiek 7 juni 2010 Enkele richtlijnen : Wie de vragen aanneemt en bekijkt, moet minstens 1 uur blijven zitten. Je mag gebruik maken van een rekenmachine, het formularium

Nadere informatie

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:

We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren: INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies

Nadere informatie

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling Kwantitatieve Data Analyse (KDA) Onderzoekspracticum Sessie 2 11 Aanpassingen takenboek! Check studienet om eventuele verbeteringen te downloaden! Huidige versie takenboek: 09 Gjalt-Jorn Peters gjp@ou.nl

Nadere informatie

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009 Naam:... Voornaam:... DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009 Slechts één van de vier alternatieven is juist. Kruis het bolletje aan vóór het juiste antwoord. Indien je een meerkeuzevraag verkeerd

Nadere informatie

Hoofdstuk 5: Steekproevendistributies

Hoofdstuk 5: Steekproevendistributies Hoofdstuk 5: Steekproevendistributies Inleiding Statistische gevolgtrekkingen worden gebruikt om conclusies over een populatie of proces te trekken op basis van data. Deze data wordt samengevat door middel

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 14 Donderdag 28 Oktober 1 / 37 2 Statistiek Indeling: Hypothese toetsen Schatten 2 / 37 Vragen 61 Amerikanen werd gevraagd hoeveel % van de tijd zij liegen. Het gevonden

Nadere informatie

gemiddelde politieke interesse van hoger opgeleide mensen)

gemiddelde politieke interesse van hoger opgeleide mensen) SPSS-oefening 2: Hypothesetoetsen Opgave Oefening 1 a) Het zijn onafhankelijke steekproeven. De scores voor politieke interesse zijn afkomstig van verschillende mensen aangezien elke persoon slechts in

Nadere informatie

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages. MARGES EN SIGNIFICANTIE BIJ STEEKPROEFRESULTATEN. De marges van percentages Metingen via een steekproef leveren een schatting van de werkelijkheid. Het toevalskarakter van de steekproef heeft als consequentie,

Nadere informatie

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten Hoofdstuk 8 Betrouwbaarheidsintervallen In het vorige hoofdstuk lieten we zien hoe het mogelijk is om over een ongekende karakteristiek van een populatie hypothesen te formuleren. Een andere manier van

Nadere informatie

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter. STATISTIEK OPLOSSINGEN OEFENZITTINGEN 5 en 6 c D. Keppens 2004 5 1 (a) Zij µ de verwachtingswaarde van X. We moeten aantonen dat E[M i ] = µ voor i = 1, 2, 3 om te kunnen spreken van zuivere schatters.

Nadere informatie

Kansrekening en Statistiek

Kansrekening en Statistiek Kansrekening en Statistiek College 11 Dinsdag 25 Oktober 1 / 27 2 Statistiek Vandaag: Hypothese toetsen Schatten 2 / 27 Schatten 3 / 27 Vragen: liegen 61 Amerikanen werd gevraagd hoeveel % van de tijd

Nadere informatie

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008 Examen Statistische Modellen en Data-analyse Derde Bachelor Wiskunde 14 januari 2008 Vraag 1 1. Stel dat ɛ N 3 (0, σ 2 I 3 ) en dat Y 0 N(0, σ 2 0) onafhankelijk is van ɛ = (ɛ 1, ɛ 2, ɛ 3 ). Definieer

Nadere informatie

Kwadratische verbanden - Parabolen klas ms

Kwadratische verbanden - Parabolen klas ms Kwadratische verbanden - Parabolen klas 01011ms Een paar basisbegrippen om te leren: - De grafiek van een kwadratisch verband heet een parabool. - Een parabool is dalparabool met een laagste punt (minimum).

Nadere informatie

Hoofdstuk 2: Grafieken en formules

Hoofdstuk 2: Grafieken en formules Hoofdstuk 2: Grafieken en formules Wiskunde VMBO 2011/2012 www.lyceo.nl Hoofdstuk 2: Grafieken en formules Wiskunde 1. Basisvaardigheden 2. Grafieken en formules 3. Algebraïsche verbanden 4. Meetkunde

Nadere informatie

11. Meerdere gemiddelden vergelijken, ANOVA

11. Meerdere gemiddelden vergelijken, ANOVA 11. Meerdere gemiddelden vergelijken, ANOVA Analyse van variantie (ANOVA) wordt gebruikt wanneer er situaties zijn waarbij er meer dan twee condities vergeleken worden. In dit hoofdstuk wordt de onafhankelijke

Nadere informatie

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets

introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets introductie Wilcoxon s rank sum toets Wilcoxon s signed rank toets toetsende statistiek week 1: kansen en random variabelen week : de steekproevenverdeling week 3: schatten en toetsen: de z-toets week : het toetsen van gemiddelden: de t-toets week 5: het toetsen van varianties:

Nadere informatie

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur

Tentamen Kansrekening en Statistiek MST 14 januari 2016, uur Tentamen Kansrekening en Statistiek MST 14 januari 2016, 14.00 17.00 uur Het tentamen bestaat uit 15 meerkeuzevragen 2 open vragen. Een formuleblad wordt uitgedeeld. Normering: 0.4 punt per MC antwoord

Nadere informatie

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y 1 Regressie analyse Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y Regressie: wel een oorzakelijk verband verondersteld: X Y Voorbeeld

Nadere informatie

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen M, M & C 7.3 Optional Topics in Comparing Distributions: F-toets 6.4 Power & Inference as a Decision 7.1 The power of the t-test 7.3 The power of the sample t- Toetsende Statistiek Week 5. De F-toets &

Nadere informatie

Inleiding Statistiek

Inleiding Statistiek Inleiding Statistiek Practicum 1 Op dit practicum herhalen we wat Matlab. Vervolgens illustreren we het schatten van een parameter en het toetsen van een hypothese met een klein simulatie experiment. Het

Nadere informatie

Voorbeeldtentamen Statistiek voor Psychologie

Voorbeeldtentamen Statistiek voor Psychologie Voorbeeldtentamen Statistiek voor Psychologie 1) Vul de volgende uitspraak aan, zodat er een juiste bewering ontstaat: De verdeling van een variabele geeft een opsomming van de categorieën en geeft daarbij

Nadere informatie

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf.

Voer de gegevens in in een tabel. Definieer de drie kolommen van de tabel en kies als kolomnamen groep, vooraf en achteraf. Opdracht 10a ------------ t-procedures voor gekoppelde paren t-procedures voor twee onafhankelijke steekproeven samengestelde t-procedures voor twee onafhankelijke steekproeven Twee groepen van 10 leraren

Nadere informatie

Oplossingen hoofdstuk XI

Oplossingen hoofdstuk XI Oplossingen hoofdstuk XI. Hierbij vind je de resultaten van het onderzoek naar de relatie tussen een leestest en een schoolrapport voor lezen. Deze gegevens hebben betrekking op een regressieanalyse bij

Nadere informatie

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking Gegevensverwerving en verwerking Staalname - aantal stalen/replicaten - grootte staal - apparatuur Experimentele setup Bibliotheek Statistiek - beschrijvend - variantie-analyse - correlatie - regressie

Nadere informatie

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28

Inhoud. Woord vooraf 13. Hoofdstuk 1. Inductieve statistiek in onderzoek 17. Hoofdstuk 2. Kansverdelingen en kansberekening 28 Inhoud Woord vooraf 13 Hoofdstuk 1. Inductieve statistiek in onderzoek 17 1.1 Wat is de bedoeling van statistiek? 18 1.2 De empirische cyclus 19 1.3 Het probleem van de inductieve statistiek 20 1.4 Statistische

Nadere informatie

drie getallen met spreidingsbreedte 11, bijvoorbeeld 5, 9 en 16

drie getallen met spreidingsbreedte 11, bijvoorbeeld 5, 9 en 16 Antwoordmodel VWO 00-I wiskunde A (oude stijl) Antwoorden Opgave Kwaliteitscontrole z =,5 P(X < 500) = 0,006 0,6% ( %) het hanteren van de GR met gebruik van de normale-verdelingsfunctie met µ = 50 en

Nadere informatie

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden

Wiskunde - MBO Niveau 4. Eerste- en tweedegraads verbanden Wiskunde - MBO Niveau 4 Eerste- en tweedegraads verbanden OPLEIDING: Noorderpoort MBO Niveau 4 DOCENT: H.J. Riksen LEERJAAR: Leerjaar 1 - Periode 2 UITGAVE: 2018/2019 Wiskunde - MBO Niveau 4 Eerste- en

Nadere informatie

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur

Kansrekening en statistiek wi2105in deel 2 27 januari 2010, uur Kansrekening en statistiek wi2105in deel 2 27 januari 2010, 14.00 16.00 uur Bij dit examen is het gebruik van een (evt. grafische) rekenmachine toegestaan. Tevens krijgt u een formuleblad uitgereikt na

Nadere informatie

Statistiek voor A.I. College 12. Dinsdag 23 Oktober

Statistiek voor A.I. College 12. Dinsdag 23 Oktober Statistiek voor A.I. College 12 Dinsdag 23 Oktober 1 / 20 2 Deductieve statistiek Orthodoxe statistiek 2 / 20 3 / 20 Jullie - onderzoek Wivine Tijd waarop je opstaat (uu:mm wordt weergeven als uumm). Histogram

Nadere informatie

Statistiek voor A.I. College 14. Dinsdag 30 Oktober

Statistiek voor A.I. College 14. Dinsdag 30 Oktober Statistiek voor A.I. College 14 Dinsdag 30 Oktober 1 / 16 2 Deductieve statistiek Orthodoxe statistiek 2 / 16 Grootte steekproef Voorbeeld NU.nl 26 Oktober 2012: Helft broodjes döner kebab vol bacteriën.

Nadere informatie

Exponentiële Functie: Toepassingen

Exponentiële Functie: Toepassingen Exponentiële Functie: Toepassingen 1 Overgang tussen exponentiële functies en lineaire functies Wanneer we werken met de exponentiële functie is deze niet altijd gemakkelijk te herkennen. Daarom proberen

Nadere informatie

1 Basisbegrippen, W / O voor waar/onwaar

1 Basisbegrippen, W / O voor waar/onwaar Naam - Toetsende Statistiek Rijksuniversiteit Groningen Lente Docent: John Nerbonne Tentamen di. 22 juni om 14 uur tentamenhal Belangrijke instructies 1. Schrijf uw naam & studentnummer hierboven, schrijf

Nadere informatie

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8

Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting Wiskunde Samenvatting en stappenplan van hfst. 7 en 8 Samenvatting door N. 1410 woorden 6 januari 2013 5,4 13 keer beoordeeld Vak Methode Wiskunde Getal en Ruimte 7.1 toenamediagrammen Interval

Nadere informatie

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn. Opdracht 12a ------------ enkelvoudige lineaire regressie Kan de leeftijd waarop een kind begint te spreken voorspellen hoe zijn score zal zijn bij een latere test op verstandelijke vermogens? Een studie

Nadere informatie

4.1 Negatieve getallen vermenigvuldigen [1]

4.1 Negatieve getallen vermenigvuldigen [1] 4.1 Negatieve getallen vermenigvuldigen [1] Voorbeeld 1: 5 x 3 = 15 (3 + 3 + 3 + 3 + 3 = 15) Voorbeeld 2: 5 x -3 = -15 (-3 +-3 +-3 +-3 +-3 = -3-3 -3-3 -3 = -15) Voorbeeld 3: -5 x 3 = -15 Afspraak: In plaats

Nadere informatie