Linjär regressionsstatistik och analys

Linjär regression är en statistisk teknik som används för att lära sig mer om förhållandet mellan en oberoende (prediktor) -variabel och en beroende (kriterium) -variabel. När du har mer än en oberoende variabel i din analys kallas detta multipel linjär regression. I allmänhet tillåter regression forskaren att ställa den allmänna frågan "Vad är den bästa prediktorn för ???"

Till exempel, låt oss säga att vi studerade orsakerna till fetma, mätt med kroppsmassaindex (BMI). Vi ville särskilt se om följande variabler var betydande förutsägare för en persons BMI: antal snabbmat måltider som äts per vecka, antal timmar tittat på tv per vecka, antalet minuter som har tränats per vecka och föräldrarnas BMI. Linjär regression skulle vara en bra metod för denna analys.

Regressionsekvationen

När du gör en regressionsanalys med en oberoende variabel är regressionsekvationen Y = a + b * X där Y är den beroende variabeln, X är den oberoende variabeln, a är konstanten (eller skärningen) och b är de lutningen för regressionslinjen

instagram viewer

. Låt oss till exempel säga att GPA bäst förutsäges av regressionsekvationen 1 + 0,02 * IQ. Om en student hade en IQ på 130, skulle hans eller hennes GPA vara 3,6 (1 + 0,02 * 130 = 3,6).

När du genomför en regressionsanalys där du har mer än en oberoende variabel är regressionsekvationen Y = a + b1 * X1 + b2 * X2 +... + Bp * Xp. Om vi till exempel ville inkludera fler variabler i vår GPA-analys, till exempel mått på motivation och självdisciplin, skulle vi använda detta ekvation.

R-Square

R-square, även känd som determinationskoefficient, är en vanligt förekommande statistik för att utvärdera modellen för en regressionsekvation. Det vill säga, hur bra är alla dina oberoende variabler att förutsäga din beroende variabel? Värdet på R-kvadratet sträcker sig från 0,0 till 1,0 och kan multipliceras med 100 för att erhålla en procentandel av variation förklaras. Till exempel, gå tillbaka till vår GPA-regressionsekvation med bara en oberoende variabel (IQ)... Låt oss säga att vår R-kvadrat för ekvationen var 0,4. Vi kan tolka detta så att 40% av variansen i GPA förklaras av IQ. Om vi sedan lägger till våra andra två variabler (motivation och självdisciplin) och R-kvadratet ökar till 0,6, betyder detta att IQ, motivation och självdisciplin tillsammans förklarar 60% av variationen i GPA betyg.

Regressionsanalyser görs vanligtvis med statistisk mjukvara, till exempel SPSS eller SAS, så R-kvadratet beräknas för dig.

Tolkning av regressionskoefficienterna (b)

B-koefficienterna från ekvationerna ovan representerar styrkan och riktningen för förhållandet mellan de oberoende och beroende variablerna. Om vi tittar på GPA- och IQ-ekvationen är 1 + 0,02 * 130 = 3,6, 0,02 regressionskoefficienten för variabeln IQ. Detta säger oss att relationens riktning är positiv så att när IQ ökar, ökar också GPA. Om ekvationen var 1 - 0,02 * 130 = Y, skulle detta betyda att förhållandet mellan IQ och GPA var negativt.

antaganden

Det finns flera antaganden om data som måste uppfyllas för att kunna göra en linjär regressionsanalys:

linjäritet: Det antas att förhållandet mellan de oberoende och beroende variablerna är linjära. Även om detta antagande aldrig kan bekräftas fullt ut, tittar man på a spridningsdiagram av dina variabler kan hjälpa dig att göra denna bestämning. Om det finns en krökning i förhållandet kan du överväga att omvandla variablerna eller uttryckligen tillåta icke-linjära komponenter.
normalitet: Det antas att residualer av dina variabler distribueras normalt. Det vill säga att felen i förutsägelsen av värdet på Y (den beroende variabeln) fördelas på ett sätt som närmar sig den normala kurvan. Du kan titta på histogram eller normala sannolikhetsplaner för att kontrollera fördelningen av dina variabler och deras restvärden.
Oberoende: Det antas att felen i förutsägelsen av värdet på Y är alla oberoende av varandra (inte korrelerade).
homoskedasticitet: Det antas att variationen runt regressionslinjen är densamma för alla värden för de oberoende variablerna.

Källa

_{Statsoft: Elektronisk statistikbok. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}