Statistiliselt ekvivalentsete argumenttunnuste kogumite leidmine
Kuupäev
2024
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Argumenttunnuste valik on mudeli konstrueerimisel üks olulisemaid ülesandeid. Meetodid nagu samm- ja lassoregressioon tagastavad ühe komplekti tunnustest, millega saavutatakse kõige paremini prognoosiv mudel. Kui andmetes esineb palju tugevalt korreleeritud tunnuseid, võib mitu tunnuste komplekti anda sarnase prognoosimisvõimega mudeleid. Statistiliselt ekvivalentsete argumenttunnuste kogumite leidmise (inglise keeles statistically equivalent signatures ehk SES) algoritm rakendab tunnuste valikuks korduvalt tingliku sõltumatuse teste. Lõpuks tagastatakse omavahel ekvivalentsete tunnuste kogumid. Valides igast kogumist täpselt ühe tunnuse, jõutakse erinevate mudeliteni, mis võiksid anda sarnase täpsusega hinnanguid. Magistritöö eesmärk on testida algoritmi Eesti geenivaramu andmetel, kuhu kuuluvad geenidoonorite vere metaboliidi kontsentratsioonid ning metaboliitide kontsentratsioonide suhete väärtused. Lineaarse regressioonimudeli abil prognoositakse kehamassiindeksit ja logistilise regressioonimudeli abil suremust 5 aasta jooksul.
Kirjeldus
Märksõnad
masinõpe, statistiliselt ekvivalentsed mudelid, argumenttunnuste valik, machine learning, statistically equivalent signatures, feature selection