Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel
dc.contributor.advisor | Sirts, Kairit, juhendaja | |
dc.contributor.author | Peekman, Kairit | |
dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
dc.date.accessioned | 2023-10-05T10:57:28Z | |
dc.date.available | 2023-10-05T10:57:28Z | |
dc.date.issued | 2020 | |
dc.description.abstract | Veebis leidub palju tekste, mis ei ole ortograafiliselt korrektsed (nt foorumite sissekanded, inimestevaheline suhtlus kommentaarides, jututubades jm). See on nn uue meedia keel ehk internetikeel. Bakalaureusetöös vastatakse küsimusele, kui hästi töötavad kolm tekstitöötlusvahendit (EstNLTK, UDPipe ja StanfordNLP) uue meedia keele teksti lausestamisel ja sõnestamisel. EstNTLK sõnestab reeglipõhiselt ja lausestab mudelipõhiselt reeglipõhise järelkontrolliga, UDPipe’il ja StanfordNLP-l on sõnestamiseks ja lausestamiseks eeltreenitud eesti keele mudelid. Kõigil kolmel on uue meedia keele tekstide lausestamisel veel arenguruumi, kuid EstNLTK ja StanfordNLP tulemused olid paremad kui UDPipe’il. Sõnestamise tulemused erinesid vähem ja olid üldiselt head, sest F-skoor oli üle 95%. | et |
dc.identifier.uri | https://hdl.handle.net/10062/93339 | |
dc.language.iso | est | et |
dc.publisher | Tartu Ülikool | et |
dc.rights | openAccess | et |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Lausestamine | et |
dc.subject | sõnestamine | et |
dc.subject | tehisnärvivõrk | et |
dc.subject | uue meedia keel | et |
dc.subject.other | bakalaureusetööd | et |
dc.subject.other | informaatika | et |
dc.subject.other | infotehnoloogia | et |
dc.subject.other | informatics | et |
dc.subject.other | infotechnology | et |
dc.title | Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel | et |
dc.type | Thesis | et |