GAT2018 || Teema lehele || English

Ülesanne 3665, punkte 1, teema: Klasteranalüüs

Ava ülesanne nr
Millised kaks puuliiki hoiavad tabelis SAAREPUNKTID olevate andmete klasteranalüüsi (valikud: vahemaa mõõt Euclidean distance, rühmatamisviis Single linkage) järgi kõige enam omaette (eraldi nii kõigist ülejäänud puudest kui ka teineteisest)?
Andmefail: SAAREMAA.xls

Selgitus ja lahendamisjuhised

Ülesandes antud valik Euclidean distances tähistab erinevuse mõõtmise viisi, Single Linkage aga objektide rühmitamise reeglit.

Lahendus RASA kalkulaatori abil
  • Ava RASA kalkulaatori klasteranalüüsi leht, vali ülesandes antud rühmitamisviis ja vahemaa mõõt.
  • Vaata kalkulaatoris lähteandmete vormistamise õpetusest, mis kujul peavad andmed olema. Pane tähele, et esimeses veerus peab olema vaatluse kood.
  • Vaata, mis kujul on andmed Exceli failis. Seal on puude osakaal 10 punkti süsteemis veergudes D-Q.
  • Lisa veeru C järele uus tühi veerg ja kopeeri esimene (ID koodidega) veerg sinna.
  • Kopeeri veerud D-R (ID … muu_puuliik) kalkulaatori sisendaknasse.
  • Kopeerida võib veeru päistest, tabeli lõppu ei pea otsima, sest kalkulaator eemaldab lõpus olevad tühjad read automaatselt.
  • Pane tähele, et kui esimeses reas on tunnuste nimed, siis peab kalkulaatori vastavas valikulahtris olema linnuke.
  • Vali kalkulaatoris Rühmita tunnuseid, sest seekord küsitakse puude ja mitte vaatluskohtade rühmi.
  • Kalkulaatori sisend peaks välja nägema nagu kõrval oleval joonisel.
  • Vajuta nuppu Arvuta.
  • Vaata klastripuust, millised kaks haru on kõige enam teistest eraldi.
  • Vaikimisi kasvab puu üles.
  • Katseta puu kasvatamist ka teistes suundades.

Lahendus tarkvarapaketis Statistica
  • Impordi andmed Statistica programmi jälgides, et:
1) impordiksid Exceli töölehe, mitte tööraamatu,
2) tunnuste (variables) nimed läheksid veeru päisesse, mitte esimese vaatluse reale.
  • Kui andmetabel on Statistica programmis avatud, siis klasteranalüüsiks tuleb valida menüüst Statistics → Multivariate Exploratory Analysis → Cluster Analysis.
  • Seejärel tuleks elle ülesande puhul valida Tree clustering ja siis sisse lülitada paneel Advanced (joonis).
  • Analüüsitavateks tunnusteks tuleks valida kõik puud.
  • Omaette hoiavad need puud, mis on klastripuu harude hulgas kõige varem kõigist teistest eraldunud.
Vastamiseks ning teiste saadetud ja andmebaasis oleva vastuse vaatamiseks tuleb selle ainega seotud kasutajana sisse logida.