Autorsuse tuvastamine sõnavaralise ja märgipõhise tekstianalüüsi meetoditega
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Inteneti lai levik tänapäeval on olulise probleemina tõstatanud tekstide autorsuse
küsimuse. Mõningatel juhtudel on tingimata vaja kirjutaja isik kindlaks teha.
Autorsuse tuvastamise meetodid annavad võimaluse võrdlemisi täpselt määrata kahtluse all oleva teksti autori.
Käesolevas bakalaureusetöös uuriti autorsuse tuvastamist sõnavaraliste ja märgip
õhiste tekstianalüüsi meetoditega.
Tehtud uurimuse ning eksperimendi tulemuste põhjal võib järeldada, et sõnavarap
õhise ja märgipõhise tekstianalüüsi meetoditega on edukalt võimalik tundmatu teksti
autorit tuvastada. Seda näitas väga hästi tabelis 9 välja toodud Vootele Päi kahe arvamusartikli võrdlus ning vastava tabeli analüüs peatükis 5.1, mille tulemuseks oli kahe teksti aritmeetilise keskmise erinevus ligikaudu 3% ning hii-ruut-statistiku väärtus oli üle viie korra väiksem 95% tõenäosuse juures ja 6 vabadusastmete arvuga, mis näitab kui sarnased need kaks artiklit omavahel olid.
Samamoodi näitasid eksperimendi tulemused ka vastupidist ehk kahe teksti
erinevust. Tabelis 13 ning peatükis 5.5 esitatud tabelite analüüsi põhjal on näha nii aritmeetiliselt kui ka kumulatiivselt kahe teksti erinevust ning ka hii-ruut-statistik kinnitab
seda. Hii-ruut-statistiku väärtus oli mõlema võrdluse puhul lävendist kõrgem. Selline erinevus viitab järjekordselt sellele, et kasutusel olev mudel suudab kahte autorit omavahel eristada.
Tekstide erinevuse hindamiseks oli kasutusel kolm erinevat hindamisevalemit. Kõige paremini sobis hii-ruut statistik, sest see näitas kõige täpsemalt kahe teksti statistilist
erinevust seitsme parameetri põhjal. Veel oli kasutusel aritmeetiline keskmine ja kumulatiivne hindamine, millele vastavalt leiti kas seitsme parameetri aritmeetiline
keskmise või summa.
Sõnavaralised ja märgipõhised tekstianalüüsi meetodid on vägagi efektiivsed. Need meetodid näitavad, et tõesti on igal autoril oma nii-öelda käekiri, mis on talle
tahes-tahtmata omane. Esmane uurimus autorite tuvastamisel, kasutades kindlaid mudeleid, oli äärmiselt edukas, kuid siiski on vajalikud edaspidised laialdasemad uuringud. Järgmise etapina olekski plaanis teha ulatuslik uuring, mis tooks välja selle programmi võimalikud piirangud, ning vajadusel kohandada mudelit ka tulevikus kasutatavate suuremate andmestike jaoks.
Description
Keywords
Autorsuse tuvastamine, sõnavaraline analüüs, märgipõhine analüüs, n-grammid, teksti analüüs