Machine Learning Framework for Classification of Potential Hereditary Cancers
Kuupäev
2024
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
This thesis investigates a machine learning model that classifies potential pathological genetic
variants from targeted hereditary data. Due to the vast amounts of data generated in clinical
genetics, rapid and precise screening is essential for diagnostics, which can be facilitated by
machine learning. The study utilises a dataset from Tartu University Hospital containing genetic
variants of 7,498 individuals, including 2,449 investigated due to breast cancer. All genetic
variants were reannotated using the Variant Effect Predictor (VEP) database version 111 with
allele frequency and pathogenicity scores.
For training the XGBoost-based model, fields such as ’IMPACT’ (predicted impact of a
genetic variant), ’QUAL’ (quality score of the variant call), ’DP’ (read depth at the position),
’QD’ (quality score normalised by depth), and ’MAX AF’ (maximum allele frequency in
populations) were chosen, focusing on those critical for clinical evaluation practice. The study
highlights a significant bottleneck in researching rare diseases, characterised by a scarcity of
pathogenic genetic variants (signal) compared to common genetic variants (noise). Although
the model achieved a moderate overall accuracy of 0.999, it exhibited a high precision of 0.834
but a low sensitivity of 0.401 due to the low signal-to-noise ratio.
The practical output of the model is its utility in automatically filtering out negative cases and
highlighting potential positive variants for further analysis. The precision-recall curve provides
a more objective depiction of the model’s performance than the ROC due to the low signal.
While the model significantly reduced the number of rows required for clinical consultation by
99.96%, its ability to detect true positive cases was limited.
The anonymous genetic variant dataset created during this research is an independent study
object, enabling the improvement of diagnostics with machine learning models. Future
enhancements to this model may include integrating clinical data, additional pathogenicity
scores, or linking with other databases.
Kirjeldus
Masinõppemudel klassifitseerib võimalikke patoloogilisi geenivariante sihtmärgistatult
sekveneeritud pärilikkusandmetest. Kliinilises geneetikas tekkivate suurte andmemahtude tõttu
on diagnostikaks vajalik suurte andmemahtude kiire ja täpne sõelumine, mida võib lahendada
masinõppega. Uurimusobjektiks on Tartu Ülikooli Kliinikumi geenivariantide andmebaas, mis
sisaldab 7,498 isiku, sh 2,449 rinnavähi tõttu uuritud isikute geenivariante. Kõik geenivariandid
on ajakohastatud alleelide esinemissageduse, patogeensusskooridega, kasutades Variant Effect
Predictor-it versioon 111 andmebaasi. XGBoostil põhineva masinõppemudeli treenimiseks
valiti väljad ’IMPACT’ (geenivariandi eeldatav mõju), ’QUAL’ (variandi kvaliteediskoor),
’DP’ (lugemissügavus positsioonil), ’QD’ (kvaliteediskoor normaliseeritud sügavuse järgi)
ja ’MAX AF’ (maksimaalne alleeli sagedus populatsioonis) vastavalt olulistele väljadele
kliinilises hindamispraktikas.
Uurimus tõi esile haruldaste haiguste uurimises olulise kitsaskoha, milleks on haruldaste
patogeensete geenivariantide (signaal) vähesus võrreldes tavaliste geenivariantidega
(müra). Kuigi mudel saavutas keskmise üldtäpsuse 0.999 ning kõrge spetsiifilisuse 0.834,
oli sensitiivsus kõigest 0.401, mis tulenes madalast signaali-müra suhtest. Võimalik
praktiline väljund mudelile on selle kasutatavus negatiivsete juhtude automaatseks
filtreerimiseks ning võimalike positiivsete variantide esiletõstmiseks edasiseks analüüsiks.
Ennustamise-tundlikkuse graafik (PR curve) annab mudeli jõudlusest objektiivsema pildi
kui Receiver Operating Characteristic-kõver madala signaali tõttu. Ehkki loodud mudel
vähendas oluliselt kliiniliseks konsultatsiooniks allesjäänud ridade arvu 99.96%, oli see
tegelike positiivsete juhtude tuvastamiseks piiratud võimekusega.
Uurimustöö käigus loodud anonüümsete geenivariantide andmemassiiv on iseseisev
uurimusobjekt, mis võimaldab parendada masinõppemudelitega diagnostikat. Käesoleva
mudeli täpsust võib tulevikus tõsta kliiniliste andmete kaasamine, rohkemate patogeensusskooride
või teiste andmebaasidega sidumine.
Märksõnad
machine learning, variant annotation, predictive modeling, imbalanced dataset, data reannotation, genomic diagnostics