Om Validero > Testteori och konstruktion

För dig som är vetenskapligt intresserad presenteras nedan hur Valideros test konstruerats.

1. Bakgrund

Efter undersökning av marknaden och genomgång av tillgängliga test konstaterades att det finns en rik flora av test med varierande kvalitet. Gemensamt för test av högre kvalitet granskade av STP verkar vara en hög vetenskaplig tillförlitlighet avseende hur väl skalornas mått stämmer överens med egenskaper hos individen. Många av dessa test visar emellertid uppenbara brister i såväl användbarhet som koppling mellan skalor och faktisk arbetsprestation.

Idén med Valideros test är att skapa ett dynamiskt test med goda vetenskapliga egenskaper som förmår att mäta och undersöka egenskaper som ligger nära arbetsprestationen för olika yrken och som är lättanvänt och lättförståeligt även för dem som inte arbetar med rekrytering dagligen. Syftet är att skapa ett dynamiskt instrument där man, beroende på vilken yrkesroll som är föremål för urvalet, kan välja olika egenskaper som skall mätas.

2. Framtagande av skalor

Med utgångspunkten i uppgiften att ta fram skalor och egenskaper som skulle vara lättförståeliga och intimt kopplade till specifika arbetsprestationer gjordes en genomgång av hundratals olika yrkeskategorier.

För att identifiera ett antal olika egenskaper som är väsentliga för olika yrkeskategorier undersöktes de olika yrkeskategorierna utifrån kravprofiler och annonser samt även utifrån litteraturstudier, intervjuer och egen praktisk erfarenhet. De olika yrkeskategorierna grupperades sedan ner till 20 huvudkategorier och de egenskaper som var kopplade till respektive kategori samlades under dessa.

Detta resulterade i 4-8 egenskaper per huvudyrkeskategori. De egenskaper som togs fram på detta sätt hade som gemensam faktor att de relaterade till specifika faktorer som visat sig vara vanligt förekommande i annonser, kravprofiler och beskrivningar av vad som anses leda till framgång inom respektive yrkeskategori.

En analys av dessa faktorer ledde till 38 faktorer som visade sig förekomma i olika kombinationer bland samtliga av de 20 yrkeskategorierna. Namnen på skalorna behölls utifrån de ursprungliga dokumenten, vilket resulterade i lättförståeliga och jordnära skalor så som ”Många bollar i luften”, ”Businessförmåga”, ”Målinriktad”, ”Social förmåga” och likande.

Skalorna delades upp i att representera antingen positiva egenskaper som gör att man lyckas bättre, dessa kallades Framgångsfaktorer, eller negativa egenskaper som gör att man lyckas sämre, dessa kallades Svagheter.

3. Skalbeskrivningar

Nästa steg var att skapa definitioner av varje skala. Med hjälp av erfarenhet, litteraturgenomgång, intervjuer och genomgång av arbetsbeskrivningar, annonser, kravprofiler och liknande material skapades beskrivningar av samtliga skalor.

4. Testkonstruktion

a) Itemgenerering

Som nästa steg konstruerades items för var och en av de ovanstående skalorna. 10-14 frågor per skala genererades och granskades, ändrades och förbättrades under en pågående process. Varje item granskades utifrån ett språkligt perspektiv, läsbarhetsperspektiv och relevansperspektiv. Efter upprepade genomgångar ansågs frågebatteriet vara redo för förstudier.

b) Förstudier

30 personer fick fylla i testets första version via internet. I denna version fanns även möjlighet för kandidaterna att kommentera varje fråga utifrån läsbarhet, relevans och övriga synpunkter. Deltagarna fick sedan återkoppling och intervjuades kring hur de kände igen sig i de olika skalorna. Information från dessa återkopplingar återfördes och ledde till förändringar av items. Ovanstående procedur upprepades flera gånger för att ytterligare förbättra items.

c) Ytterlighetsbeskrivningar

För varje skala konstruerades ytterlighetsbeskrivningar utifrån vad som är typiska kännetecken hos en individ för ett lågt respektive ett högt resultat. Dessa testades och utprovades mot de individer som deltagit i förstudien.

5. Normering och validering

a) Datainsamling

Ett testformulär konstruerades där varje item hade svarsalternativen SANT eller FALSKT. Skalbeskrivningarna bestod av beskrivning samt ytterligheter och en svarsskala mellan 1 och 10 där kandidaten ombads välja det värde som bäst stämde överens med hur han eller hon upplevde sig själv. För att undvika bias så visades inte skalnamnen för kandidaterna. Bakgrundsfrågor om kön, ålder och sysselsättning ställdes i slutet av formuläret. Varje respondent blev även ombedd att ange 1-3 peers som skulle göra en bedömning av personen utifrån skalbeskrivningarna.

Normgruppen består av 1000 personer.

Figur 1: bakgrundsdata för normgruppen

N=1000
Könsfördelning Sysselsättningsform
Män 435 st Anställd 26,9%
Kvinnor 565 st Arbetssökande 27,3%
Egna företagare 3,7%
Ålder Studenter 42,0%
Min 18 år
Max 62 år
Medel 28 år

b) Itemreducering

Den första analys som gjordes av materialet var faktoranalys av samtliga skalor samt items för respektive skala. Faktoranalys av respektive skala gjordes för att minska antalet item per skala. Detta resulterade i 7 items per skala.

c) Reliabilitet (är resultatet skalan ger tillförlitligt?)

Samtliga skalor undersöktes för Crombach Alpha och skalor med otillräcklig styrka ströks på grund av för låg reliabilitet. Utgångspunkt var att ingen skala med en koefficient under 0,65 skulle godkännas och motivationen till detta relativt låga gränsvärde var följande: Skalornas själva natur i formen av specifika konstrukt gör att det är rimligt att anta att en viss sänkning av reliabiliteten hänger ihop med skalornas varierande natur. Som exempel kan nämnas Serviceförmåga som är en sammansättning av en mängd olika egenskaper som fångas upp i de 7 items som mäter denna. Valideros skalor har en reliabilitet på mellan 0,66 och 0,84.

d) Validitet (mäter skalorna det de avser att mäta?)

För att undersöka om skalorna verkligen mäter det de avser att mäta gjordes en valideringsstudie i samband med att normgruppen fyllde i testet. Svaren på varje skala jämfördes med den självskattning och den peerskattning som gjordes för att undersöka deras samband. Resultatet från självskattningarna jämfördes också med peerskattningarna. Varje skala jämfördes mot medelvärdet av motsvarande själv- och peerskattning. Valideros skalor har en validitet på mellan 0,47 och 0,76.

Valideros utvecklingsavdelning arbetar kontinuerligt med nya undersökningar för att säkerställa att skalorna mäter det de avser att mäta och att de även i fortsättningen identifierar rätt kandidater för olika tjänster.