Model-based cluster analysis of longitudinal data and with residual cluster


Project leader


Funding source

Swedish Research Council - Vetenskapsrådet (VR)


Project Details

Start date: 01/01/2006
End date: 31/12/2008
Funding: 1014000 SEK


Description

Modellbaserad klusteranalys av longitudinella data och med ett speciellt avvikarkluster. Klusteranalys är en gammal och välkänd statistisk teknik. Ursprungligen var den rent deskriptiv och svarade på frågan: Hur delar man på bästa sätt in ett material i ett antal grupper? Senare har man fogat in det i klassisk statistisk terminologi med bakomliggande sannolikhetsfördelningar, hypotesprövning och konfidensintervall. Då blir frågorna av typen: Kan data anses vara genererade av ett bestämt antal statistiska fördelningar? I vårt arbete tar vi ett steg vidare och försöker foga in klusteranalys i Bayesianska metoder och MCMC-tekniker. Vi kan då svara på nya frågor; t ex vad är sannolikheten att två specifika individer kommer från samma bakomliggande fördelning? Eller ge nya aspekter på gamla frågor t ex Vilka korrelationer finns mellan skattningarna av de olika klustrens mittpunkter? Vid klusteranalys av longitudinella data kan man ha olika ansatser. Man kan klustra data vid olika tidpunkter för sig och sedan studera hur individerna rör sig mellan klustren. Man kan också försöka studera själva förflyttningarna och dela in individerna i kluster efter hur deras förändringsmönster ser ut (t ex ett kluster av stadigt växande och ett andra av alla som ligger kvar på samma nivå och ett tredje av dem som gör en språngvis förändring mellan två nivåer). Vi försöker studera båda dessa ansatser. I verkliga livet brukar man ofta klassificera individer i olika grupper, men en del individer går inte att klassificera till någon speciell grupp. De representerar bara sig själv. Vi kommer att titta på detta problem och införa ett speciellt kluster för alla dem som inte följer något vanligt mönster. Detta görs formellt genom att ett kluster svarar mot en bakomliggande fördelning med mycket större spridning än övriga. När man har begränsade data innebär det att det alltid kommer att finnas en viss sannolikhet att personer där mätningarna överensstämmer med ett vanligt mönster, ändå kommer från residualklustret. Skulle vi haft möjligheten att mäta ytterligare variabler, skulle det ha visat sig att de inte följde det vanliga mönstret för gruppen. Ett tredje problem som vi räknar med att kunna behandla är bortfall. Vid longitudinella undersökningar är detta speciellt viktigt eftersom många individer kommer att sakna värden vid någon tidpunkt eller till och med vara totalbortfall vid en speciell tidpunkt men finnas med för övrigt. Det första året kommer vi främst att ägna oss åt att utveckla metoderna och skriva program. Under de kommande två åren kommer vi främst att applicera våra modeller på verkliga data. Data är hämtade från bland annat IDA-projektet vid psykologiska institutionen, Stockholms Universitet där man följt barn genom skolåldern och senare ut i vuxenlivet samt ULF-undersökningen från SCB som är en studie av levnadsförhållanden där en del av urvalet består av en panel med återkommande mätningar vart åttonde år. Vi hoppas kunna få tillgång till ytterligare material där metoderna kan prövas.

Last updated on 2017-24-03 at 12:57