Nominaalsete sisendtunnuste vaheliste seoste kasutamine lähinaabrite meetodi korral
Date
2013-06-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Lähinaabrite meetod on mitteparameetrilise regressiooni tehnika, mis kasutab uuritava tunnuse hindamiseks mingil objektil vaid neid treeningandmestikku kuuluvad objekte, mis on lähedal uuritavale objektile. Meetod tugineb eeldusele, et uuritava tunnuse väärtus sarnaneb väärtustega, mis vastavad pigem objektile lähemal kui kaugemal paiknevatele objektidele.
Käesolev bakalaureusetöö keskendub lähinaabrite meetodi rakendamisele nominaalsetel tunnustel. Nominaaltunnuste korral traditsiooniliselt kasutatav kaugus on nn Hamming'i (0-1)-kaugus, mis on aga liiga kohmakas analüüsivahend. Samuti ei tundu olevat õige kasutada objektidevahelise kauguse mõõduna üksiktunnuste järgi võetud erinevuste summat, kuna see ei võta arvesse nominaaltunnuste vahelisi seoseid. Nominaaltunnuste vaheliste seoste arvesse võtmiseks pakume välja moodustada kõigist nominaaltunnustest liittunnus, mille väärtusteks on lähtetunnuste väärtuste kombinatsioonid. Liittunnuse probleemiks on aga väärtuskombinatsioonide paljusus ja erinevaid tunnuste kombinatsioone esindavate vaatluste vähesus. Selle probleemi lahendamiseks grupeerime tunnuste kombinatsioonid sarnasuse põhjal. Selleks defineerime uue kaugusfunktsiooni, mis erineb traditsioonilisest väärtustega 0 ja 1 kaugusfunktsioonist. Seega pakume antud bakalaureusetöös välja ühe võimaliku viisi nominaalsete tunnuste vaheliste seoste arvestamiseks lähinaabrite meetodi korral.
Bakalaureusetöö on jagatud viieks osaks. Esimeses peatükis anname lühikese ülevaate lähinaabrite meetodist ja defineerime uue kaugusfunktsiooni. Teises osas kirjeldame töös kasutatavat meetodit uuritava tunnuse väärtuste prognoosimiseks. Töö kolmandas osas kirjeldame k-keskmise meetodit ja Lloyd'i iteratiivset algoritmi. Neljandas osas keskendume optimaalse klasside arvu määramisele ning viiendas osas rakendame teises peatükis kirjeldatud meetodit reaalsetel andmetel.
Töös esitatud joonised ja andmed nende moodustamiseks on saadud programmi R abil. Töö on kirjutatud tekstitöötlusprogrammis MiKTeX.