Estonian Synthetic Error Generation by Prompting for Grammatical Error Correction

dc.contributor.advisorLuhtaru, Agnes, juhendaja
dc.contributor.advisorFišel, Mark, juhendaja
dc.contributor.authorVainikko, Martin
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2024-10-04T12:48:43Z
dc.date.available2024-10-04T12:48:43Z
dc.date.issued2024
dc.description.abstractEesti keele grammatiliste vigade parandamise jaoks ei ole piisavalt andmeid, et tõhusalt treenida autokorrektorit. Hiljutised edusammud suurte keelemudelite vallas on aga avanud uusi võimalusi sünteetiliste andmete genereerimiseks. Genereerime OpenAI GPT mudelitega (GPT-3.5-Turbo, GPT-4-Turbo ja GPT-4) lausetesse grammatilisi vigu. Hindame genereeritud andmehulki manuaalselt hulki märgendades ning treenides hulkade peal transformeripõhiseid autokorrektoreid. Me järeldasime, et laused, mis pärinevad grammatiliste vigade korpusest ning kuhu GPT on vigu genereerinud, saavutavad automaathindmisel võrdväärseid tulemusi inimandmetega. Märgendamise tulemusena märkasime, et GPT genereerib probleemseid muutusi lausetesse. Töö avab palju uusi suundi edasisteks uurimusteks.
dc.identifier.urihttps://hdl.handle.net/10062/105170
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Estoniaen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/
dc.subjectgrammatical error correction
dc.subjectGEC
dc.subjectlow-resource
dc.subjectsynthetic data
dc.subjectGPT-4
dc.subjectGPT-3.5
dc.subjectNLLB
dc.subjectlarge language model
dc.subjectLLM
dc.subjectgrammatiliste vigade parandamine
dc.subjectvähesed ressursid
dc.subjectsünteetilised andmed
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleEstonian Synthetic Error Generation by Prompting for Grammatical Error Correction
dc.typeThesisen

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Vainikko_computer_science_2024.pdf
Size:
378.42 KB
Format:
Adobe Portable Document Format