R | Isak Hietala

Programvaror

I resten av denna text kommer exempel visas i tre olika programvaror. Här följer en kortare presentation av dessa. R och RStudio R är ett programmeringsspråk som används väldigt frekvent inom statistikområdet.

Klassificering

Följande delkapitel exemplifierar hur övervakad inlärning, där vetskap om de sanna utfallen finns, fungerar i R med de tidigare presenterade paketen. Uppdelning av datamaterial För att motverka överanpassning vid övervakad inlärning används en datauppdelning som delar upp det insamlade materialet till en tränings-, validerings- och/eller testmängd.

Visualisering

Varför är visualisering viktigt? “En bild säger mer än tusen ord” är ett vanligt förekommande ordspråk som innehåller mycket sanning. Speciellt när det kommer till information används visualiseringar i olika former för att på ett effektivt och tydligt sätt förmedla stora mängder data som hade varit svårare att uppfatta som enskilda siffror.

Grundläggande visualisering

Grundläggande begrepp Ett diagram innehåller olika delar som kommer refereras i resterande text. Här följer en kortare ordlista: Diagramyta: Det område som innehåller all information tillhörande en visualisering Rityta: Det område som innehåller det faktiska data som visualiseras Axel: Kanterna som begränsar ritytan, ofta benämnt som x- och y-axel för den vågräta ( - ) respektive lodräta ( | ) axeln Axelförklaring: En rubrik som beskriver vad den angivna axeln visar för information Skalvärden: Steg som anger specifika värden på den angivna axeln Stödlinjer: Linjer vilka agerar som en förlängning av axlarnas skalvärden i bakgrunden av ritytan Titel/rubrik: En rubrik för diagrammet Källhänvisning: En text placerade i någon av de nedre hörnen som anger en källa för det visualiserade datamaterialet om sådan finns Ett bra diagram För att skapa ett bra diagram behöver man tänka på flera olika saker.

Klustring

Klustringmetoder ämnar att hitta underliggande grupperingar av observationer (eller variabler) i datamaterialet som inte är angivna från början, ett exempel på oövervakad inlärning. I verkliga fall är det väldigt ovanligt att materialet kan visualiseras och man med blotta ögat kan identifiera dessa grupperingar, men i detta underlag kommer första steget av varje algoritm innehålla ett visualiseringssteg för att kunna påvisa vilka algoritmer som klarar av att hitta vilka sorters klustertyper.

Visualisering av beskrivande statistik

Stapeldiagram Den absolut enklaste formen av visualisering är stapeldiagram. Denna diagramtyp består utav staplar vars höjd kommer från ett värde i datamaterialet, vanligtvis då man har en kvalitativ variabel och dess frekvenser (antalet av de olika arterna i diagrammen från tidigare kapitel), men diagramtypen kan också användas då man har en kvantitativ variabel uppdelad på en eller flera kvalitativa variabler (medellönen uppdelat på olika sektorer).

Associations- och sekvensanalys

Det finns flertalet källor som samlar in data för andra ändamål än analys såsom olika register, kundkort vid företag, osv. Dessa datamängder brukar ofta vara väldigt stora och innehålla mycket information som är omöjlig för en vanlig människa att gå igenom.

Visualisering av samband mellan variabler

Spridningsdiagram När ett datamaterial innehåller flera variabler kan det vara intressant att undersöka vilka (om några) variabler har ett samband med varandra. Detta kan göras på olika sätt, men visualisering i ett spridningsdiagram är ett sätt som möjliggör att se många olika typer av samband mellan två variabler.

Visualisering i 3+ dimensioner

Visualisering i 3+ dimensioner För att skapa diagram med fler än 2 dimensioner kräver det att vi använder mer avancerade paket och funktioner. Detta är inget som inkluderas i denna kurs men om ni är intresserade av vilka paket som rekommenderas att använda och funktionerna för att skapa sådana typer av diagram kommer ett kortare exempel i slutet av denna sida.

Annorlunda visualiseringar

Tree maps För att skapa en tree map behöver vi först ladda paketet portfolio samt hämta hem den förändrade treemap-funktionen via source(). require(portfolio) source("https://raw.githubusercontent.com/canadice/visualization_literature/master/treemapbrewer.r") Nu har vi skapat och laddat in en ny funktion i R som heter treemap_brewer() som har följande argument: