Eesti alaliste elanike määramine kasutades masinõppe meetodeid
Kuupäev
2023
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Riiklikul statistikal on oluline roll levitada ühiskonna kohta teadmisi ja fakte, mis
võimaldaksid teha informeeritud otsuseid. Üks olulisemaid riikliku statistika levitavaid
teadmisi on info rahvastiku kohta ning selle keskmes on info rahvaarvu kohta. Järjest
kiiremini muutuvas maailmas vananeb informatsioon kiiremini kui varem ning seega
oodatakse ka rahvastikustatistikat kiiremini ja tihemini. Euroopa Komisjon valmistab
juba ette määrust, millega tuleks alaliste elanike arvu riigis avaldada kaks korda aastas.
Praegu pannakse Eestis alalise elanikkonna kogum kokku kasutades 18 erinevat registrit,
mis muudab tihemini avaldamise keeruliseks.
Selle magistritöö eesmärk on uurida, millised andmed on residentsuse määramiseks
kõige olulisemad ja kuidas saavad elanikkonna määramisega vähendatud andmete
kontekstis hakkama masinõppe mudelid. Töö eesmärgi täitmiseks on kasutatud
Eesti Statistikaameti poolt kättesaadavaks tehtud andmeid. Andmetel rakendatakse
peakomponentide analüüsi ning testitakse viit erinevat masinõppe mudelit. Tulemused
näitavad, et vähendatud andmestik toimib üsna võrdväärselt algse andmestikuga ning
residentsuse tuvastamiseks võib piisata ka väiksemast hulgast registritest. Masinõppe
meetoditest toimivad kõige paremini otsustusmets ja XGBoost.
Kirjeldus
Märksõnad
Registrid, alaline elanik, masinõpe, rahvastik, statistika