Hur man använder klusteranalys i samhällsvetenskaplig forskning

Klusteranalys är en statistisk teknik som används för att identifiera hur olika enheter - som människor, grupper eller samhällen - kan grupperas tillsammans på grund av de egenskaper de har gemensamt. Även känd som clustering, är det ett undersökande dataanalysverktyg som syftar till att sortera olika objekt i grupper på ett sådant sätt att när de tillhör samma grupp har de en maximal grad av förening och när de inte tillhör samma grupp är deras föreningsgrad minimal. Till skillnad från vissa andra statistiska tekniker, de strukturer som upptäckts genom klusteranalys behöver ingen förklaring eller tolkning - det upptäcker struktur i data utan att förklara varför de finns.

Vad är kluster?

Kluster finns i nästan alla aspekter av vårt dagliga liv. Ta till exempel föremål i en mataffär. Olika typer av objekt visas alltid på samma eller närliggande platser - kött, grönsaker, läsk, spannmål, pappersprodukter etc. Forskare vill ofta göra samma sak med data och gruppera objekt eller ämnen i kluster som är vettiga.

instagram viewer

För att ta ett exempel från samhällsvetenskap, låt oss säga att vi tittar på länder och vill gruppera dem i kluster baserade på egenskaper som arbetsfördelning, militärer, teknik eller utbildad befolkning. Vi skulle finna att Storbritannien, Japan, Frankrike, Tyskland och USA har liknande egenskaper och skulle samlas ihop. Uganda, Nicaragua och Pakistan skulle också grupperas i ett annat kluster eftersom de delar en annan uppsättning egenskaper, inklusive låga förmögenheter, enklare arbetsfördelning, relativt instabila och odemokratiska politiska institutioner och låg teknik utveckling.

Klusteranalys används vanligtvis i den undersökande fasen av forskningen när forskaren inte har någon förutfattade hypoteser. Det är vanligtvis inte den enda statistiska metoden som används, utan görs snarare i ett tidigt skede av ett projekt för att hjälpa till med resten av analysen. Av denna anledning är signifikantestning vanligtvis varken relevant eller lämplig.

Det finns flera olika typer av klusteranalyser. De två mest använda är K-betyder kluster och hierarkisk kluster.

K-betyder Clustering

K-betyder kluster behandlar observationerna i data som objekt som har platser och avstånd från varandra (observera att avstånden som används vid kluster ofta inte representerar rumsliga avstånd). Den delar upp objekten i K ömsesidigt exklusiva kluster så att objekt inom varje kluster är som nära varandra som möjligt och samtidigt, så långt ifrån föremål i andra kluster som möjligt. Varje kluster kännetecknas sedan av dess medel- eller mittpunkt.

Hierarkisk klustering

Hierarkisk gruppering är ett sätt att undersöka grupperingar i data samtidigt över en mängd skalor och avstånd. Det gör detta genom att skapa ett klusterträd med olika nivåer. Till skillnad från K-betyder kluster är trädet inte en enda uppsättning kluster. Snarare är trädet en hierarki på flera nivåer där kluster på en nivå förenas som kluster på nästa högre nivå. Den algoritm som används börjar med varje enskilt fall eller variabel i ett separat kluster och kombinerar sedan kluster tills bara en är kvar. Detta gör det möjligt för forskaren att bestämma vilken nivå av kluster som är bäst lämpad för hans eller hennes forskning.

Utför en klusteranalys

Mest programvara för statistik kan utföra klusteranalys. Välj i SPSS analysera från menyn klassificera och klusteranalys. I SAS, proc kluster funktionen kan användas.

Uppdaterad av Nicki Lisa Cole, Ph. D.