Parade data i statistik, ofta benämnda ordnade par, hänvisar till två variabler hos individerna i en population som är kopplade ihop för att bestämma korrelationen mellan dem. För att en datauppsättning ska betraktas som ihopkopplade data måste båda dessa datavärden bifogas eller länkas till varandra och inte betraktas separat.
Idén om parade data kontrasteras med den vanliga kopplingen av ett nummer till varje datapunkt som i andra kvantitativa data anger att varje enskild datapunkt är associerad med två siffror, vilket tillhandahåller en graf som gör det möjligt för statistiker att observera förhållandet mellan dessa variabler i en population.
Denna metod för parade data används när en studie hoppas kunna jämföra två variabler hos individer i befolkningen för att dra någon sorts slutsats om den observerade korrelationen. När man observerar dessa datapunkter är parningens ordning viktig eftersom det första talet är ett mått på en sak medan den andra är ett mått på något helt annat.
Exempel på ihopkopplade data
För att se ett exempel på parade data, antar att en lärare räknar antalet läxuppgifter varje elev aktiverade för en viss enhet och kopplar sedan in detta nummer med varje elevs andel på enhetstestet. Paren är som följer:
- En person som slutförde 10 uppdrag tjänade 95% på sitt test. (10, 95%)
- En person som slutförde 5 uppdrag tjänade 80% på sitt test. (5, 80%)
- En person som slutförde 9 uppdrag tjänade 85% på sitt test. (9, 85%)
- En person som slutförde 2 uppdrag tjänade 50% på sitt test. (2, 50%)
- En person som slutförde 5 uppdrag tjänade 60% på sitt test. (5, 60%)
- En person som slutförde 3 uppdrag tjänade 70% på sitt test. (3, 70%)
I var och en av dessa uppsättningar med parade data kan vi se att antalet uppdrag alltid kommer först i ordnade par medan den procentuella andelen som uppnås på testet kommer på andra plats, sett i första hand av (10, 95%).
Medan en statistisk analys av dessa data också kan användas för att beräkna det genomsnittliga antalet läxuppgifter som genomförts eller den genomsnittliga testpoängen, det kan finnas andra frågor att ställa om uppgifterna. I det här fallet vill läraren veta om det finns något samband mellan antalet läxuppgifter aktiverade och utförde testet, och läraren skulle behöva hålla uppgifterna ihopkopplade för att svara på detta fråga.
Analysera ihopkopplade data
De statistiska tekniker av korrelation och regression används för att analysera parade data varvid korrelationskoefficient kvantifierar hur nära data ligger längs en rak linje och mäter styrkan i det linjära förhållandet.
Å andra sidan används regression för flera applikationer inklusive att bestämma vilken linje som passar bäst för vår uppsättning data. Denna rad kan sedan i sin tur användas för att uppskatta eller förutsäga y värden för värden på x som inte ingick i vår ursprungliga datauppsättning.
Det finns en speciell typ av graf som är särskilt väl lämpad för parade data som kallas en spridplot. I denna typ av graf, representerar en koordinataxel en kvantitet av de parade data medan den andra koordinataxeln representerar den andra kvantiteten av de parade data.
En spridningsdiagram för ovanstående data skulle ha x-axeln att beteckna antalet tilldelade inställningar medan y-axeln skulle beteckna poängen på enhetstestet.