Euroopa Liidu Kohtu otsustest fraasidele sarnaste lõikude otsingu analüüs CountVectorizer ja Word2Vec baasil

Date

2021

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Magistritöös analüüsitakse, kas CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing, mis annaks etteantud fraasile sarnaseid Euroopa Kohtu otsuste lõike. Hetkel olemasolevad InfoCuria ja EUR-Lex otsingusüsteemid ei võimalda Euroopa Liidu Kohtu otsust kuvada selliselt, et selle lugemist saaks alati alustada kohtu analüüsist. Samuti ei kuva need sisult sarnaste sõnadega tulemusi. Eeltoodust tulenevalt on Euroopa Kohtu otsustest fraasidele vastava informatsiooni leidmine aeganõudev. Magistritöö käigus loodi kolm Euroopa Kohtu otsuste andmetabelit (kohtu hinnangu ja resolutsiooni tekstid, ainult kohtu hinnangu tekstid ning ainult resolutsiooni tekstid), kus iga Euroopa Kohtu lahendi kohta on kohtu hinnangu ja resolutsiooni osad lõikudena eraldi ridadel. Pärast seda rakendati nende andmestike peal CountVectorizerit ja Word2Veci, et saada kätte lõikude vektorid, mida testimiseks kasutatava fraasidega võrrelda. Testimiseks kasutati kümmet maksuõiguse fraasi. Töö tulemusena leiti, et CountVectorizer või Word2Vec abil on võimalik luua nutikam märksõna otsing (tulemustena kuvataks kasutajale kohtuotsuse lõigud, mitte terviktekstid), kuid see toimib kohtu hinnangu osast juristide ja kohtunike jaoks kasulike lõikude leid-miseks. Kasulike kohtuotsuste resolutsioonide leidmiseks toimivad jätkuvalt paremini In-foCuria ja EUR-Lex otsingusüsteemid.

Description

Keywords

Loomuliku keele töötlus, sarnaste tekstide leidmine, Euroopa Kohtu otsused, CountVecto-rizer, TfidfVectorizer, Word2Vec

Citation