Estonian Synthetic Error Generation by Prompting for Grammatical Error Correction
dc.contributor.advisor | Luhtaru, Agnes, juhendaja | |
dc.contributor.advisor | Fišel, Mark, juhendaja | |
dc.contributor.author | Vainikko, Martin | |
dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
dc.date.accessioned | 2024-10-04T12:48:43Z | |
dc.date.available | 2024-10-04T12:48:43Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Eesti keele grammatiliste vigade parandamise jaoks ei ole piisavalt andmeid, et tõhusalt treenida autokorrektorit. Hiljutised edusammud suurte keelemudelite vallas on aga avanud uusi võimalusi sünteetiliste andmete genereerimiseks. Genereerime OpenAI GPT mudelitega (GPT-3.5-Turbo, GPT-4-Turbo ja GPT-4) lausetesse grammatilisi vigu. Hindame genereeritud andmehulki manuaalselt hulki märgendades ning treenides hulkade peal transformeripõhiseid autokorrektoreid. Me järeldasime, et laused, mis pärinevad grammatiliste vigade korpusest ning kuhu GPT on vigu genereerinud, saavutavad automaathindmisel võrdväärseid tulemusi inimandmetega. Märgendamise tulemusena märkasime, et GPT genereerib probleemseid muutusi lausetesse. Töö avab palju uusi suundi edasisteks uurimusteks. | |
dc.identifier.uri | https://hdl.handle.net/10062/105170 | |
dc.language.iso | en | |
dc.publisher | Tartu Ülikool | et |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
dc.subject | grammatical error correction | |
dc.subject | GEC | |
dc.subject | low-resource | |
dc.subject | synthetic data | |
dc.subject | GPT-4 | |
dc.subject | GPT-3.5 | |
dc.subject | NLLB | |
dc.subject | large language model | |
dc.subject | LLM | |
dc.subject | grammatiliste vigade parandamine | |
dc.subject | vähesed ressursid | |
dc.subject | sünteetilised andmed | |
dc.subject.other | magistritööd | et |
dc.subject.other | informaatika | et |
dc.subject.other | infotehnoloogia | et |
dc.subject.other | informatics | en |
dc.subject.other | infotechnology | en |
dc.title | Estonian Synthetic Error Generation by Prompting for Grammatical Error Correction | |
dc.type | Thesis | en |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Vainikko_computer_science_2024.pdf
- Size:
- 378.42 KB
- Format:
- Adobe Portable Document Format