Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel

Peekman, Kairit

Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel

dc.contributor.advisor	Sirts, Kairit, juhendaja
dc.contributor.author	Peekman, Kairit
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond	et
dc.contributor.other	Tartu Ülikool. Arvutiteaduse instituut	et
dc.date.accessioned	2023-10-05T10:57:28Z
dc.date.available	2023-10-05T10:57:28Z
dc.date.issued	2020
dc.description.abstract	Veebis leidub palju tekste, mis ei ole ortograafiliselt korrektsed (nt foorumite sissekanded, inimestevaheline suhtlus kommentaarides, jututubades jm). See on nn uue meedia keel ehk internetikeel. Bakalaureusetöös vastatakse küsimusele, kui hästi töötavad kolm tekstitöötlusvahendit (EstNLTK, UDPipe ja StanfordNLP) uue meedia keele teksti lausestamisel ja sõnestamisel. EstNTLK sõnestab reeglipõhiselt ja lausestab mudelipõhiselt reeglipõhise järelkontrolliga, UDPipe’il ja StanfordNLP-l on sõnestamiseks ja lausestamiseks eeltreenitud eesti keele mudelid. Kõigil kolmel on uue meedia keele tekstide lausestamisel veel arenguruumi, kuid EstNLTK ja StanfordNLP tulemused olid paremad kui UDPipe’il. Sõnestamise tulemused erinesid vähem ja olid üldiselt head, sest F-skoor oli üle 95%.	et
dc.identifier.uri	https://hdl.handle.net/10062/93339
dc.language.iso	est	et
dc.publisher	Tartu Ülikool	et
dc.rights	openAccess	et
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Lausestamine	et
dc.subject	sõnestamine	et
dc.subject	tehisnärvivõrk	et
dc.subject	uue meedia keel	et
dc.subject.other	bakalaureusetööd	et
dc.subject.other	informaatika	et
dc.subject.other	infotehnoloogia	et
dc.subject.other	informatics	et
dc.subject.other	infotechnology	et
dc.title	Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel	et
dc.type	Thesis	et

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Peekman_informaatika_2020.pdf
Size:: 635.77 KB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

MTAT bakalaureusetööd – Bachelor's theses