Området för statistiska datauppsättningar

I statistik och matematik är intervallet skillnaden mellan maximala och minsta värden för en datamängd och fungerar som en av två viktiga funktioner i en datamängd. Formeln för ett intervall är det maximala värdet minus det minsta värdet i datasatsen, vilket ger statistiker en bättre förståelse för hur varierande datauppsättningen är.

Två viktiga funktioner i en datamängd inkluderar datacentret och spridningen av data, och centret kan varauppmätt på ett antal sätt: de mest populära av dessa är medelvärdet, median, läge och mellanklass, men på liknande sätt finns det olika sätt att beräkna hur spridningen av datamängden är och det enklaste och grovaste måttet på spridning kallas intervallet.

Beräkningen av intervallet är mycket enkelt. Allt vi behöver göra är att hitta skillnaden mellan det största datavärdet i vår uppsättning och det minsta datavärdet. Kort sagt har vi följande formel: Område = Maximum Value – Minimum Value. Till exempel har datauppsättningen 4,6,10, 15, 18 högst 18, ett minimum av 4 och ett intervall av 18-4 = 14.

instagram viewer

Området är en mycket grov mätning av spridningen av data eftersom det är extremt känsligt för utskott, och som ett resultat är det vissa begränsningar för användbarheten av ett riktigt intervall av en datauppsättning till statistiker eftersom ett enda datavärde kan påverka värdet på räckvidd.

Tänk till exempel uppsättningen data 1, 2, 3, 4, 6, 7, 7, 8. Maxvärdet är 8, det minsta är 1 och intervallet 7. Tänk sedan på samma uppsättning data, bara med värdet 100 inkluderat. Utbudet blir nu 100-1 = 99 varvid tillägget av en enda extra datapunkt i hög grad påverkade värdet på intervallet. Standardavvikelsen är ett annat mått på spridningen som är mindre mottaglig för utläggare, men nackdelen är att beräkning av standardavvikelsen är mycket mer komplicerat.

Utbudet berättar inte heller för oss om de interna funktionerna i vår datauppsättning. Vi tänker till exempel på datauppsättningen 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 10 där intervallet för denna datamängd är 10-1 = 9. Om vi jämför detta med datauppsättningen 1, 1, 1, 2, 9, 9, 9, 10. Här är intervallet, än en gång, nio, för denna andra uppsättning och till skillnad från den första uppsättningen, grupperas data runt det minsta och det maximala. Annan statistik, såsom den första och tredje kvartilen, skulle behöva användas för att upptäcka en del av denna interna struktur.

Utbudet är ett bra sätt att få en mycket grundläggande förståelse för hur spridda siffror i datauppsättningen verkligen är eftersom det är lätt att göra beräkna eftersom det bara kräver en grundläggande aritmetisk operation, men det finns också några andra applikationer för en datasats i statistik.

Området kan också användas för att uppskatta ett annat mått på spridningen, standardavvikelsen. Istället för att gå igenom en ganska komplicerad formel för att hitta standardavvikelsen, kan vi istället använda det som kallas intervallregel. Området är grundläggande i denna beräkning.

Området uppträder också i en boxplot, eller box och whiskers-plot. Max- och minimivärdena är båda diagramade i slutet av whiskers i diagrammet och den totala längden på whiskers och rutan är lika med intervallet.