Word Mover's Distance algoritmil põhinevad fraasisarnasusmõõdud

Kuulmets, Hele-Andra

Word Mover's Distance algoritmil põhinevad fraasisarnasusmõõdud

dc.contributor.advisor	Sven Laur
dc.contributor.author	Kuulmets, Hele-Andra
dc.date.accessioned	2019-10-15T09:39:47Z
dc.date.available	2019-10-15T09:39:47Z
dc.date.issued	2019
dc.description.abstract	Loomuliku keele tekstide vahelise semantilise sarnasuse mõõtmisel on oluline osa tekstide klassifitseerimisülesannete lahendamisel. Samas probleemid, mida saaks potentsiaalselt lahendada kasutades semantilise sarnasuse mõõtmist, ei põhine alati pikkadel, mitmetest lausetest koosnevatel tekstidel. Mõnikord tuleb märgendamisotsus teha ainult ühe lause või fraasi põhjal.Käesolevas töös kasutatakse tekstide sarnasuse mõõtmise meetodit Word Mover's Distance (WMD) kolme erineva probleemi lahendamisel, kus otsus tuleb teha lühikeste fraaside põhjal. Esimene probleem, milleks on puuduva sõna konteksti põhjal ennustamine, on välja mõeldud probleem, mille eesmärk on hinnata meetodi headust ja sobivust lühikestele fraasidele. Saadud tulemused on head ja näitavad, et WMD võiks sobida fraaside eraldamiseks semantilise sarnasuse põhjal. Ülejäänud kaks probleemi ilmestavad meetodi praktilisi kasutusvõimalusi. Esimesel juhul kasutatakse seda patsientide epikriisidest ravimi kõrvalmõjude tuvastamiseks. Teisel juhul rakendatakse meetodit süntaksiparseri vigade analüüsiks. Viimasel juhul on eesmärgiks ennustada fraase, mida parser ei oska õigesti märgendada. Erinevatel põhjustel, mida samuti on käesolevas töös analüüsitud, ei olnud saadud tulemused kummalgi juhul head.
dc.description.abstract	Measuring semantic similarity between texts is necessary for successfully solving natural language document classification tasks. However, not always base the problems that can potentially be solved using semantic similarity on texts with the length of multiple sentences. Sometimes the decision has to be made only seeing a single sentence or a phrase from that sentence. In this thesis, Word Mover's Distance (WMD), which essentially is a document similarity measure, is applied to three different problems where only short phrases are given. The first problem, predicting omitted word by the given context, is a made up problem and the goal is to assess the goodness of the measure and its suitability for such tasks. The results are good and show that it is possible to do some semantic separation of phrases using WMD.Other two problems are examples of practical cases. Firstly, the method is used to detect adverse drug reactions from the patients' epicrises. Secondly, the method is applied to the analysis of syntax parser errors. The goal is to predict phrases that parser fails to tag correctly. For different reasons, which are also analyzed on this thesis, the results were not good for neither of the problem.
dc.identifier.uri	http://hdl.handle.net/10062/66405
dc.language.iso	en
dc.title	Word Mover's Distance algoritmil põhinevad fraasisarnasusmõõdud
dc.title.alternative	Phrase Similarity Measures Based on Word Mover's Distance
dc.type	Thesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: thesis.pdf
Suurus:: 566.06 KB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

MTAT magistritööd – Master's theses