Machine Learning Framework for Classification of Potential Hereditary Cancers
dc.contributor.advisor | Pata, Villem | |
dc.contributor.author | Marandi, Markus | |
dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
dc.contributor.other | Tartu Ülikool. Tehnoloogiainstituut | et |
dc.date.accessioned | 2025-03-11T15:44:26Z | |
dc.date.available | 2025-03-11T15:44:26Z | |
dc.date.issued | 2024 | |
dc.description | Masinõppemudel klassifitseerib võimalikke patoloogilisi geenivariante sihtmärgistatult sekveneeritud pärilikkusandmetest. Kliinilises geneetikas tekkivate suurte andmemahtude tõttu on diagnostikaks vajalik suurte andmemahtude kiire ja täpne sõelumine, mida võib lahendada masinõppega. Uurimusobjektiks on Tartu Ülikooli Kliinikumi geenivariantide andmebaas, mis sisaldab 7,498 isiku, sh 2,449 rinnavähi tõttu uuritud isikute geenivariante. Kõik geenivariandid on ajakohastatud alleelide esinemissageduse, patogeensusskooridega, kasutades Variant Effect Predictor-it versioon 111 andmebaasi. XGBoostil põhineva masinõppemudeli treenimiseks valiti väljad ’IMPACT’ (geenivariandi eeldatav mõju), ’QUAL’ (variandi kvaliteediskoor), ’DP’ (lugemissügavus positsioonil), ’QD’ (kvaliteediskoor normaliseeritud sügavuse järgi) ja ’MAX AF’ (maksimaalne alleeli sagedus populatsioonis) vastavalt olulistele väljadele kliinilises hindamispraktikas. Uurimus tõi esile haruldaste haiguste uurimises olulise kitsaskoha, milleks on haruldaste patogeensete geenivariantide (signaal) vähesus võrreldes tavaliste geenivariantidega (müra). Kuigi mudel saavutas keskmise üldtäpsuse 0.999 ning kõrge spetsiifilisuse 0.834, oli sensitiivsus kõigest 0.401, mis tulenes madalast signaali-müra suhtest. Võimalik praktiline väljund mudelile on selle kasutatavus negatiivsete juhtude automaatseks filtreerimiseks ning võimalike positiivsete variantide esiletõstmiseks edasiseks analüüsiks. Ennustamise-tundlikkuse graafik (PR curve) annab mudeli jõudlusest objektiivsema pildi kui Receiver Operating Characteristic-kõver madala signaali tõttu. Ehkki loodud mudel vähendas oluliselt kliiniliseks konsultatsiooniks allesjäänud ridade arvu 99.96%, oli see tegelike positiivsete juhtude tuvastamiseks piiratud võimekusega. Uurimustöö käigus loodud anonüümsete geenivariantide andmemassiiv on iseseisev uurimusobjekt, mis võimaldab parendada masinõppemudelitega diagnostikat. Käesoleva mudeli täpsust võib tulevikus tõsta kliiniliste andmete kaasamine, rohkemate patogeensusskooride või teiste andmebaasidega sidumine. | |
dc.description.abstract | This thesis investigates a machine learning model that classifies potential pathological genetic variants from targeted hereditary data. Due to the vast amounts of data generated in clinical genetics, rapid and precise screening is essential for diagnostics, which can be facilitated by machine learning. The study utilises a dataset from Tartu University Hospital containing genetic variants of 7,498 individuals, including 2,449 investigated due to breast cancer. All genetic variants were reannotated using the Variant Effect Predictor (VEP) database version 111 with allele frequency and pathogenicity scores. For training the XGBoost-based model, fields such as ’IMPACT’ (predicted impact of a genetic variant), ’QUAL’ (quality score of the variant call), ’DP’ (read depth at the position), ’QD’ (quality score normalised by depth), and ’MAX AF’ (maximum allele frequency in populations) were chosen, focusing on those critical for clinical evaluation practice. The study highlights a significant bottleneck in researching rare diseases, characterised by a scarcity of pathogenic genetic variants (signal) compared to common genetic variants (noise). Although the model achieved a moderate overall accuracy of 0.999, it exhibited a high precision of 0.834 but a low sensitivity of 0.401 due to the low signal-to-noise ratio. The practical output of the model is its utility in automatically filtering out negative cases and highlighting potential positive variants for further analysis. The precision-recall curve provides a more objective depiction of the model’s performance than the ROC due to the low signal. While the model significantly reduced the number of rows required for clinical consultation by 99.96%, its ability to detect true positive cases was limited. The anonymous genetic variant dataset created during this research is an independent study object, enabling the improvement of diagnostics with machine learning models. Future enhancements to this model may include integrating clinical data, additional pathogenicity scores, or linking with other databases. | |
dc.identifier.uri | https://hdl.handle.net/10062/107708 | |
dc.language.iso | en | |
dc.publisher | Tartu Ülikool | et |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Estonia | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/ee/ | |
dc.subject | machine learning | |
dc.subject | variant annotation | |
dc.subject | predictive modeling | |
dc.subject | imbalanced dataset | |
dc.subject | data reannotation | |
dc.subject | genomic diagnostics | |
dc.subject.other | bakalaureusetööd | et |
dc.title | Machine Learning Framework for Classification of Potential Hereditary Cancers | |
dc.title.alternative | Potentsiaalsete p¨arilike kasvajate klassifitseerimine masin˜oppe mudeliga | |
dc.type | Thesis | en |
Failid
Originaal pakett
1 - 1 1