Euroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasil
dc.contributor.advisor | Särg, Dage, juhendaja | |
dc.contributor.advisor | Hinno, Risto, juhendaja | |
dc.contributor.author | Orav-Hinno, Sirle | |
dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
dc.date.accessioned | 2023-09-26T11:24:30Z | |
dc.date.available | 2023-09-26T11:24:30Z | |
dc.date.issued | 2021 | |
dc.description.abstract | Magistritöös analüüsitakse, kas CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing, mis annaks etteantud fraasile sarnaseid Euroopa Kohtu otsuste lõike. Hetkel olemasolevad InfoCuria ja EUR-Lex otsingusüsteemid ei võimalda Euroopa Liidu Kohtu otsust kuvada selliselt, et selle lugemist saaks alati alustada kohtu analüüsist. Samuti ei kuva need sisult sarnaste sõnadega tulemusi. Eeltoodust tulenevalt on Euroopa Kohtu otsustest fraasidele vastava informatsiooni leidmine aeganõudev. Magistritöö käigus loodi kolm Euroopa Kohtu otsuste andmetabelit (kohtu hinnangu ja resolutsiooni tekstid, ainult kohtu hinnangu tekstid ning ainult resolutsiooni tekstid), kus iga Euroopa Kohtu lahendi kohta on kohtu hinnangu ja resolutsiooni osad lõikudena eraldi ridadel. Pärast seda rakendati nende andmestike peal CountVectorizerit ja Word2Veci, et saada kätte lõikude vektorid, mida testimiseks kasutatava fraasidega võrrelda. Testimiseks kasutati kümmet maksuõiguse fraasi. Töö tulemusena leiti, et CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing (tulemustena kuvataks kasutajale kohtuotsuse lõigud, mitte terviktekstid), kuid see toimib kohtu hinnangu osast juristide ja kohtunike jaoks kasulike lõikude leid-miseks. Kasulike kohtuotsuste resolutsioonide leidmiseks toimivad jätkuvalt paremini In-foCuria ja EUR-Lex otsingusüsteemid. | et |
dc.identifier.uri | https://hdl.handle.net/10062/93147 | |
dc.language.iso | est | et |
dc.publisher | Tartu Ülikool | et |
dc.rights | openAccess | et |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Loomuliku keele töötlus | et |
dc.subject | sarnaste tekstide leidmine | et |
dc.subject | Euroopa Kohtu otsused | et |
dc.subject | CountVecto-rizer | et |
dc.subject | TfidfVectorizer | et |
dc.subject | Word2Vec | et |
dc.subject.other | magistritööd | et |
dc.subject.other | informaatika | et |
dc.subject.other | infotehnoloogia | et |
dc.subject.other | informatics | et |
dc.subject.other | infotechnology | et |
dc.title | Euroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasil | et |
dc.type | Thesis | et |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Orav_Hinno_Infotehnoloogia_mitteinformaatikutele_2021.pdf
- Size:
- 1.42 MB
- Format:
- Adobe Portable Document Format
- Description:
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: