Körningstestet för slumpmässiga sekvenser

Med tanke på sekvens av data, en fråga som vi kanske undrar är om sekvensen inträffade av slumpfenomen eller om uppgifterna inte är slumpmässiga. Slumpmässighet är svårt att identifiera, eftersom det är mycket svårt att helt enkelt titta på data och bestämma om de producerats av en slump eller inte. En metod som kan användas för att avgöra om en sekvens verkligen inträffade av en slump kallas körtestet.

Körningstestet är ett test av betydelse eller hypotestest. Förfarandet för detta test är baserat på en körning eller en sekvens av data som har ett visst drag. För att förstå hur körtestet fungerar måste vi först undersöka begreppet körning.

Sekvenser av data

Vi börjar med att titta på ett exempel på körningar. Tänk på följande sekvens av slumpmässiga siffror:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Ett sätt att klassificera dessa siffror är att dela upp dem i två kategorier, antingen jämnt (inklusive siffrorna 0, 2, 4, 6 och 8) eller udda (inklusive siffrorna 1, 3, 5, 7 och 9). Vi kommer att titta på sekvensen av slumpmässiga siffror och beteckna jämna siffror som E och udda siffror som O:

instagram viewer

E E O E E O O E O E E E E E E O E E O O

Körningarna är lättare att se om vi skriver om detta så att alla Os är tillsammans och alla Es är tillsammans:

EE O EE OO E O EEEEE O EE OO

Vi räknar antalet block med jämna eller udda siffror och ser att det finns totalt tio körningar för data. Fyra körningar har längd en, fem har längd två och en har längd fem

Betingelser

Med någon test av betydelse, är det viktigt att veta vilka förhållanden som är nödvändiga för att utföra testet. För körtestet kommer vi att kunna klassificera varje datavärde från provet i en av två kategorier. Vi räknar det totala antalet körningar relativt antalet datavärden som faller in i varje kategori.

Testet kommer att vara en dubbelsidig test. Anledningen till detta är att för få körningar innebär att det troligtvis inte är tillräckligt med variation och antalet körningar som skulle inträffa från en slumpmässig process. För många körningar kommer att resultera när en process växlar mellan kategorierna för ofta för att beskrivas av en slump.

Hypoteser och P-värden

Varje test av betydelse har en noll och en alternativ hypotes. För körtestet är nollhypotesen att sekvensen är en slumpmässig sekvens. Den alternativa hypotesen är att sekvensen för provdata inte är slumpmässig.

Statistisk programvara kan beräkna p-värde som motsvarar en viss teststatistik. Det finns också tabeller som ger kritiska nummer vid ett visst nivå av betydelse för det totala antalet körningar.

Kör testexempel

Vi kommer att arbeta igenom följande exempel för att se hur körtestet fungerar. Anta att för en uppgift blir en student uppmanad att vända ett mynt 16 gånger och notera ordningen på huvud och svansar som dykte upp. Om vi slutar med denna datauppsättning:

H T H H H T T H T T H T H T H H

Vi kanske frågar om eleven faktiskt gjorde sina läxor, eller fuskade han och skrev ner en serie H och T som ser slumpmässiga ut? Körningstestet kan hjälpa oss. Antagandena uppfylls för körtestet eftersom uppgifterna kan klassificeras i två grupper, antingen som ett huvud eller en svans. Vi fortsätter genom att räkna antalet körningar. Omgruppering, vi ser följande:

H T HHH TT H TT H T H T HH

Det finns tio körningar för våra data med sju svansar är nio huvuden.

Nollhypotesen är att uppgifterna är slumpmässiga. Alternativet är att det inte är slumpmässigt. För en betydelse av alfa som är lika med 0,05 ser vi genom att konsultera rätt tabell att vi avvisar nollhypotesen när antalet körningar är antingen mindre än 4 eller högre än 16. Eftersom det finns tio körningar i våra data, vi misslyckas med att avvisa nollhypotesen H₀.

Normal tillnärmning

Körningstestet är ett användbart verktyg för att avgöra om en sekvens troligtvis är slumpmässig eller inte. För en stor datamängd är det ibland möjligt att använda en normal tillnärmning. Denna normala tillnärmning kräver att vi använder antalet element i varje kategori och sedan beräknar medelvärdet och standardavvikelsen för lämplig normal distribution.