Autorsuse tuvastamine sõnavaralise ja märgipõhise tekstianalüüsi meetoditega

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Inteneti lai levik tänapäeval on olulise probleemina tõstatanud tekstide autorsuse küsimuse. Mõningatel juhtudel on tingimata vaja kirjutaja isik kindlaks teha. Autorsuse tuvastamise meetodid annavad võimaluse võrdlemisi täpselt määrata kahtluse all oleva teksti autori. Käesolevas bakalaureusetöös uuriti autorsuse tuvastamist sõnavaraliste ja märgip õhiste tekstianalüüsi meetoditega. Tehtud uurimuse ning eksperimendi tulemuste põhjal võib järeldada, et sõnavarap õhise ja märgipõhise tekstianalüüsi meetoditega on edukalt võimalik tundmatu teksti autorit tuvastada. Seda näitas väga hästi tabelis 9 välja toodud Vootele Päi kahe arvamusartikli võrdlus ning vastava tabeli analüüs peatükis 5.1, mille tulemuseks oli kahe teksti aritmeetilise keskmise erinevus ligikaudu 3% ning hii-ruut-statistiku väärtus oli üle viie korra väiksem 95% tõenäosuse juures ja 6 vabadusastmete arvuga, mis näitab kui sarnased need kaks artiklit omavahel olid. Samamoodi näitasid eksperimendi tulemused ka vastupidist ehk kahe teksti erinevust. Tabelis 13 ning peatükis 5.5 esitatud tabelite analüüsi põhjal on näha nii aritmeetiliselt kui ka kumulatiivselt kahe teksti erinevust ning ka hii-ruut-statistik kinnitab seda. Hii-ruut-statistiku väärtus oli mõlema võrdluse puhul lävendist kõrgem. Selline erinevus viitab järjekordselt sellele, et kasutusel olev mudel suudab kahte autorit omavahel eristada. Tekstide erinevuse hindamiseks oli kasutusel kolm erinevat hindamisevalemit. Kõige paremini sobis hii-ruut statistik, sest see näitas kõige täpsemalt kahe teksti statistilist erinevust seitsme parameetri põhjal. Veel oli kasutusel aritmeetiline keskmine ja kumulatiivne hindamine, millele vastavalt leiti kas seitsme parameetri aritmeetiline keskmise või summa. Sõnavaralised ja märgipõhised tekstianalüüsi meetodid on vägagi efektiivsed. Need meetodid näitavad, et tõesti on igal autoril oma nii-öelda käekiri, mis on talle tahes-tahtmata omane. Esmane uurimus autorite tuvastamisel, kasutades kindlaid mudeleid, oli äärmiselt edukas, kuid siiski on vajalikud edaspidised laialdasemad uuringud. Järgmise etapina olekski plaanis teha ulatuslik uuring, mis tooks välja selle programmi võimalikud piirangud, ning vajadusel kohandada mudelit ka tulevikus kasutatavate suuremate andmestike jaoks.

Description

Keywords

Autorsuse tuvastamine, sõnavaraline analüüs, märgipõhine analüüs, n-grammid, teksti analüüs

Citation