Euroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasil

dc.contributor.advisorSärg, Dage, juhendaja
dc.contributor.advisorHinno, Risto, juhendaja
dc.contributor.authorOrav-Hinno, Sirle
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2023-09-26T11:24:30Z
dc.date.available2023-09-26T11:24:30Z
dc.date.issued2021
dc.description.abstractMagistritöös analüüsitakse, kas CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing, mis annaks etteantud fraasile sarnaseid Euroopa Kohtu otsuste lõike. Hetkel olemasolevad InfoCuria ja EUR-Lex otsingusüsteemid ei võimalda Euroopa Liidu Kohtu otsust kuvada selliselt, et selle lugemist saaks alati alustada kohtu analüüsist. Samuti ei kuva need sisult sarnaste sõnadega tulemusi. Eeltoodust tulenevalt on Euroopa Kohtu otsustest fraasidele vastava informatsiooni leidmine aeganõudev. Magistritöö käigus loodi kolm Euroopa Kohtu otsuste andmetabelit (kohtu hinnangu ja resolutsiooni tekstid, ainult kohtu hinnangu tekstid ning ainult resolutsiooni tekstid), kus iga Euroopa Kohtu lahendi kohta on kohtu hinnangu ja resolutsiooni osad lõikudena eraldi ridadel. Pärast seda rakendati nende andmestike peal CountVectorizerit ja Word2Veci, et saada kätte lõikude vektorid, mida testimiseks kasutatava fraasidega võrrelda. Testimiseks kasutati kümmet maksuõiguse fraasi. Töö tulemusena leiti, et CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing (tulemustena kuvataks kasutajale kohtuotsuse lõigud, mitte terviktekstid), kuid see toimib kohtu hinnangu osast juristide ja kohtunike jaoks kasulike lõikude leid-miseks. Kasulike kohtuotsuste resolutsioonide leidmiseks toimivad jätkuvalt paremini In-foCuria ja EUR-Lex otsingusüsteemid.et
dc.identifier.urihttps://hdl.handle.net/10062/93147
dc.language.isoestet
dc.publisherTartu Ülikoolet
dc.rightsopenAccesset
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectLoomuliku keele töötluset
dc.subjectsarnaste tekstide leidmineet
dc.subjectEuroopa Kohtu otsusedet
dc.subjectCountVecto-rizeret
dc.subjectTfidfVectorizeret
dc.subjectWord2Vecet
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticset
dc.subject.otherinfotechnologyet
dc.titleEuroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasilet
dc.typeThesiset

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Orav_Hinno_Infotehnoloogia_mitteinformaatikutele_2021.pdf
Size:
1.42 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: