Measuring Human Preferences in Counterfactual Explanations
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Masinõppemudelid muutuvad kiire arengu ja uute struktuuride lisamise tõttu üha keerukamaks, mistõttu on nende tehtud otsuste taga olevad protsessid kasutajale vähem läbipaistvad. Üks võimalik viis mõista mudeli tehtud otsuseid on luua nende kohta kontrafaktuaalseid selgitusi(counterfactual explanations) kontrafaktuaalsete selgituste genereerimisalgoritmiga. See meetod aga tõstatab omaette probleemi: kuidas moodustada kontrafaktuaalseid selgitusi, mis on inimestele kõige kasulikumad. Üks variant on kontrafaktuaalsete selgituste genereerimisalgoritmidesse inimlikud eelistused sisse kirjutada. Uurimaks mida inimesed selgituste puhul hindavad, viiakse selle töö raames läbi küsimustik, kus osalejad hindavad kontrafaktuaalsete selgituste üldist kvaliteeti ning
vastavust teatud seletatavuse väärtustele (explanatory virtues). Küsimustiku vastustel rakendatud andmeanalüüs osutas võimalusele, et mõõdetud seletatavuse väärtused on omavahel tihedalt seotud ning potentsiaalselt saab mõõdetud väärtused koondada väiksemale arvule faktoritele. Üldiselt väärtustasid inimesed enim selgituste teostatavust (Feasibility). Küsimustiku raames loodud andmestikku ning andmeanalüüsi avastusi saab kasutada tulevaste kontrafaktuaalsete selgituste genereerimisalgoritmide inimsõbralikumaks muutmisel.
Description
Keywords
Explainable AI, Counterfactual Explanations, Selgitatav tehisintellekt, kontrafatuaalsed selgitused