GAT2018 || Teema lehele || English

Ülesanne 3666, punkte 5, teema: Klasteranalüüs

Ava ülesanne nr
Manustatud failis on mõned mõnevõrra aegunud andmed Euroopa Liidu riikide kohta. Standardiseeri töölehel Majandus olevad tunnused Elanike arv ja GDP per Capita lahutades väärtustest keskmise ja jagades standardhälbega.
  1. Milliseid EU riikide rühmi näitab klasteranalüüs nende standardiseeritud tunnuste alusel? NB! Kõik riigid peavad kuuluma mõnda neljast rühmast.
  2. Anna igale rühmale seda rühma iseloomustav paarisõnaline nimi.
  3. Millist klasteranalüüsi varianti kasutasid ja miks eelistasid just seda?
  4. Miks soovitati tunnuseid standardiseerida?
  5. Protsentuaalselt kui suure osa riikide erinevustest nende tunnuste osas su valitud rühmad ära kirjeldavad?
  6. Lisa vastusele riikide sarnasust kujutav klastripuu.
Andmefail: EU.xlsx

Selgitus ja lahendamisjuhised

  • Esiteks oleks ehk lihtsam (kuid mitte tingimata vajalik) kopeerida riikide nimed ja vajalikud tunnused üksteise kõrvale.
  • Seejärel tuleks arvutada kummagi tunnuse keskmine ja standardhälve.
  • Seejärel saab tunnuste väärtused standardiseerida lahutades igast väärtusest selle tunnuse keskmise ja jagades sama tunnuse standardhälbega.
  • Excelis on selleks mugav kasutada $ märgiga fikseeritud aadresse.
  • Edasi tuleks kopeerida riikide nimed tunnuste väärtused RASA kalkulaatori klasteranalüüsi lehe sisendlahtrisse. Tunnused on muidugi need, mida kavatsed klasteranalüüsis kasutada. Seekord peaksid need olema eelpool standardiseeritud tunnused.
  • Tunnuste nimed võib seejuures ära jätta ja sel juhul välja lülitada ka valikunupu Tunnuste nimed on esimeses reas.
  • Proovida võiks mitut klassifitseerimismoodust ja valida lõpuks see, mis annab paremini tõlgendatavad rühmad.
  • Rühmade arvu võid ise otsustada pügades klastripuud sobival tasemel.
  • Eelistada võiks sellist klassifikatsiooni, mis on 0,05 tasemel statistiliselt oluline.
  • Klastripuu kasutamisel saab statistilist olulisust vaadata graafikult, mis kuvatakse klastripuu all.
  • Olulisuse arvutamiseks peaks iteratsioonide arv olema >0, õppeotstarbel sobib iteratsioonide arvuks 100 ... 200.
Vastamiseks ning teiste saadetud ja andmebaasis oleva vastuse vaatamiseks tuleb selle ainega seotud kasutajana sisse logida.