Blogg

IBM:s SPSS Modeler gör analysen effektivare

En effektiv analys kräver effektiva verktyg och det finns både kostnadsfria och kommersiella alternativ. Analysverktygen kan delas in i kodstyrda program och program med ett grafiskt användargränssnitt. Det är stora skillnader i verktygens användningssätt, egenskaper, prestationsförmåga och priser, varför analytikerns yrkeskunskap, tid och målet med analysen bestämmer vilket som är det lämpligaste verktyget, vid sidan av priset.

En bra tumregel är att betrakta de kommersiella alternativen som grafiska produkter och de avgiftsfria analysredskapen som programmeringsspråk. Det finns dock undantag. De vanligaste kommersiella produkterna är SAS och IBM SPSS Modeler. De mest populära programmeringsspråken för brytning, modellering och visualisering av data är R och Python. Arbetet med SAS Miner och SPSS Modeler sker som workflow, varvid processen sköts med färdiga komponenter och körs som flöde. De kodstyrda R och Python å sin sida förutsätter kodning i brukssituationen. Dessa alternativ kräver betydligt mera avancerad programmeringskompetens, vilket höjer tröskeln för att utöka dessa verktyg.

Användargränssnitten för de kommersiella grafiska analysverktygen är mycket överskådliga, och man lär sig snabbt att använda dem. Förutom detta har dessa verktyg den viktiga fördelen att det är lätt att arbeta med processerna. Den viktigaste fördelen med avgiftsfria programmeringsspråk är flexibiliteten (man kan styra datorn nästan hur man vill).

I flera kommersiella produkter kan man också bädda in kod, så att man vid behov kan uppnå samma nivå som kodade produkter vad gäller omfattningen av funktionaliteter. Processer kan automatiseras både i avgiftsfria och i kommersiella alternativ, men för de kommersiella produkternas del är detta någorlunda lättare.

Jag har själv sju års erfarenhet av R-programmering och under de senaste åren har jag använt IBM:S SPSS Modeler och dess kringprodukter i mitt arbete så gott som dagligen. Nedan är en sammafattning av mina erfarenheter i användningen av dessa verktyg:

  • Med R-programmeringsspråket tar programmeringen cirka tre gånger längre än vad det tar att göra en SPSS Modeler-stream. Ju mer data det finns och i ju flera källor de används, desto bättre vänds tidsrelationen till förmån för Modeler.
  • Det är enkelt att använda Modeler och testa analysprocesser. Med Modeler kommer man igång med processtillverkningen snabbt, eftersom komponenterna för prepareringen och modelleringen av data lätt dras till workflow, efter vilket deras attribut klickas på plats. För en nybörjare är Modeler ett betydligt lättare verktyg för att uppnå resultat än gratisalternativet som kräver kodning.
  • Analytiska processer är ofta mycket omfattande. Att spåra beroenden är arbetsamt och svårt att tolka, varför det är lätt att missa någon faktor i programmeringen. Det är betydligt lättare att hantera, bearbeta och konturera helheter i Modeler än att tolka och bearbeta en lång kod. Om till exempel mittpunkten i en programmering som gjorts från första början ändras, är den ett hot för slutprocessens robusthet (=störningsokänslighet), funktion med små ändringar. Om lösningen har gjorts enligt best practice-principerna, är förändringarna oftast minimala.
  • I allmänhet är funktionaliteterna i SPSS Modeler tillräckliga för genomförande av hela processen. Om det ändå uppstår behov av att utvidga funktionaliteten, går det bra med att bädda in R-kod som en delprocess.