Browsing by Author "Rajesh Sharma"

Now showing 1 - 13 of 13

Automatiseeritud makse klassifikaator jaepanganduses
(2018) Mateush, Artem; Rajesh Sharma
Selleks, et saavutada oma ärilisi eesmärke ja parendada teenusepakkumist, kasutavad jaepangad spetsiaalseid tehnikaid oma klientide andmete analüüsimisel. \t\tKaasaaegseid masinõppe tehnikaid saab selles valdkonnas kasutada täiendusena klassikalistele andmeanalüüsi meetoditele. Oskus oma klientide makseid klassifitseerida võimaldab jaepankadel oma klientide kulutuste mustritest paremini aru saada ja oma pakkumisi spetsiaalselt kohandada. \t\tMaksete klassifitseerimine on raske probleem, kuna äriklientide hulk on suur ja muutuv ja kuna iga äriklient võib pakkuda mitut tüüpi tooteid, näiteks võib müüa nii toitu kui elektroonikat. Kaks maksete klassifitseerimise põhilist lähenemist on reeglitepõhine ja masinõppe põhine klassifitseerimine. \t\tMasinõppepõhine klassifitseerimismeetod on supervised õppe vorm, ja sellisena vajab ta märgendatud andmeühikute kogumit - meie puhul klientide endi poolt klassifitseeritud transaktsioone (mis on oma olemuselt crowdsourcing). \t\tReeglitepõhine lähenemine ei ole skaleeruv, sest see vajab iga äri ja transaktsioonitüübi jaoks hallatavat reeglite kogumit. Crowdsourcing põhine lähenemine toob endaga kaasa vasturääkivused ja seda on alguses raske käivitada, kuna vajatakse suure hulga klientide poolt, pika ajaperioodi jooksul, manuaalselt märgendatud transaktsioonide kogumit. \t\tSiinkohal toome ära finantsasutuse kaasusuuringu, mille raames on kasutatud hübriidlähenemist. Kasutusel on finantsplaneerimise tööriist, mille käivitamiseks on loodud esmane reeglite kogum, ja klientidele on selle raames loodud võimalus vaadelda oma transaktsioone klassifitseerituna 66 kategooriasse ning lisada märgendeid klassifitseerimata transaktsioonidele või uuesti märgendada juba märgendatud transaktsioone. Crowdsource märgendeid ja algset reeglite kogumit kasutatakse seejärel masinõppe mudeli treenimisel.\t\tMe hindame oma mudeli tõhusust elust võetud anonümiseeritud andmestikku kasutades, mille oleme saanud pangalt. See koosneb kontomaksetest ja kaardimaksetest. Täpsustades võib öelda, et kontomaksete andmestikul parandas hübriidlähenemine reeglitepõhise süsteemiga võrreldes katvust 76.4\\%-lt 87.4\\%-le, mille juures crowdsource abiga leitud märgendeid replitseeriti 0.92 keskmise AUC juures, ja seda olenemata crowdsource märgendites leiduvatest vasturääkivustest. \t\tSelline süsteemi edasiarendus viitab väljapakutud hübriidmudeli põhjendatusele, ning positiivne hinnang tulemustele võimaldab meid seadistada ja integreerida hübriidmudelit panga süsteemidega.
Eesti firmade palgalise ebavõrdsuse uurimine
(2019) Kanarbik, Kevin; Rajesh Sharma; Jaan Masso
Palgaline ebavõrdsust on põhjalikult uuritud üle maailma, kuid Eesti üldist palgalist ebavõrdsust on vähem uuritud. Antud riik on huvitav, kuna riigi sisemine palgaline ebavõrdsus on kõrge ja sooline palgalõhe on kõige suurem Euroopas. Käesoleva töö eesmärk on empiiriliselt uurida Eesti tööandjate ja töötajate ühendatud andmeid aastatest 2006 kuni 2014, et leida korrelatsioonfirmasisene palgaline ebavõrdsuse ja teiste firma omaduste vahel. Andmed samuti uuriti lineaarse regressiooniga ja teiste prognoosivate mudelitega. Teisejärguline eesmärk on leida korrelatsioon palgalise ebavõrdsuse ja firma kasvu vahel. Me avastasime, et palgaline ebavõrdsus sõltub tihti firma majandusharust ja regioonist ning palgaline ebavõrdsus on pidevaltlangenud aastast 2006 kuni 2014. Lisaks leiti, et palgaline ebavõrdsus on mõõdukalt seotud firma kasvuga, suurusega ja keskmise palgaga.
Ettevõtete maine mõõtmine läbi sotsiaalmeedia: Volkswageni skandaali juhtumiuuring
(2019) Molayemvand, Paria; Rajesh Sharma; Peter Ormosi
Selle uurimistöö eesmärk on leida seos sotsiaalmeedias leviva avaliku arvamuse ning ettevõtete maine vahel. Püstitatud hüpoteesiks on see, et avalikud kommentaarid sotsiaalmeedias mõjutavad ettevõtete mainet. Uuringud on näidanud et sotsiaalmeedia kanalitel on mõju ettevõtete mainele. Mainet tunnustatakse üha enam ettevõtte väärtust mõjutava tegurina. See uurimistöö eeldab et ettevõtte majandustulemus on otsene maine indikaator. Sellest tulenevalt uurib see töö inimeste sotsiaalmeedias avaldatud kommentaaride mõju ettevõtte börsihinnale.See uurimistöö on Volkswageni skandaali juhtumiuuring ning keskendub Twitteri postitustele 2015 ja 2016 aastal. Eesmärgiks on leida kuidas avaliku arvamuse sentiment mõjutab ettevõtete mainet ning majanduslikke tulemusi kriisiolukorras. Protsessiks on valitud järgnev. Twitteri kasutajate arvamus Volkswageni kohta eraldatakse postitustest sentimendi numbri kujul. Seejärel leitakse korrelatsioon börsihinna, tehingute arvu ning leitud sentimendi vahel.Andmete valimiseks kasutati poolautomaatset lähenemist, mille abil eemaldati kaubanduslikud, poliitilised ning teised mitteseotud säutsud (tweet). Selle meetodi keskmiseks täpsuseks tuli kõrge 0.92. Edasisäutse (retweet) käsitletakse kui uusi säutse ning neid ei eemaldatud andmestikust et leida nende mõju korrelatsioonile. Sentimendi väärtuse leidmiseks kasutati 3 erinevat analüüsiviisi: "Microsoft Azure text analysis API", R-i pakett "Sentimentr" ning R-i pakett "SentimentAnalysis". Nende meetodite võrdlemisel leiti et Sentimentr-il on kõige parem korrelatsioon börsihinnaga.Korrelatsiooni tulemustest leiti, et säutsude sentimendi ja ettevõtete aktsiaturu andmete vahel on korrelatsioon. Päeva keskmisel sentimendil on kõige suurem negatiivne korrelatsioon (-0.84) aktsiaturu tehingute arvuga esimese kuu jooksul peale skandaali. Kuude möödudes korrelatsioon langeb järsult. Neljandal kuul peale kriisi on korrelatsioon langenud väärtuseni -0.27. See tähendab seda, et esimese kuu jooksul peale kriisi mida negatiivsemaks läheb sentiment, seda rohkem aktsiaid vahetatakse. Siiski see ei tähenda et negatiivne arvamus Twitteris mõjutab börsitehinguid. Korrelatsiooni tulemused näitavad et börsihind päeval D korreleerub paremini sentimendi väärtusega päeval D+4. See võib näidata, et tegelikult mõjutavad börsihinna kõikumised säutsude sentimenti. See läheb vastu esialgesele püstitatud hüpoteesile, kus väideti et sotsiaalmeedias leviv arvamus mõjutab ettevõtete mainet.
Hübriidsed soovitused finantsasutuse jaoks
(2018) Slobozhan, Ivan; Rajesh Sharma
Ettevõtted kasutavad sageli soovituste süsteeme, et suunata kliente individuaalsetele pakkumistele. See omakorda aitab suurendada turunduskampaaniate tulusid ja parendada klientide kogemust. Soovituste süsteeme kasutatakse tavaliselt e-kaubanduse saitidel (Amazon, E-Bay) ja meelelahutusplatvormidel (Spotify, Youtube). Siiski ei ole nende kasutamist finantssektoris veel põhjalikult uuritud. Selles väitekirjas pakume ja hindame hübriidsete soovituslike süsteemide algoritmi, et genereerida isikupärastatud pakkumisi panga klientidele. Soovituste süsteemi algoritm kasutab kaudset teavet klientide tehingute kohta erinevate ettevõtetega, et soovitada teisi ettevõtteid, mida kliendid viimasel ajal pole külastanud, kuid võiksid lähimas tulevikus seda teha. Algoritm näib olevat piisavalt tugev, et külmkäivitusprobleemi ületada, mis meie puhul on klientide vähene tehinguajalugu. Algoritmi hinnati tegelike andmekogumite (kliendi tehingud) abil, mida pakub Põhja Euroopa pank. Võrreldes juhusliku soovitusmudeliga, mida pank praegu oma turunduskampaaniate jaoks kasutab, on meie soovitusalgoritmil maksimaalne tõusupiirang juhusliku suunamise korral 416 ja minimaalse korral 55, mis näitab meie lähenemise efektiivsust.
Kollektiivse tarkuse võrdlemine filmikriitikute arvustustega: uurimustöö filmide kassatulu ennustamise kohta
(2018) Ruus, Risko; Rajesh Sharma
Teadlased on aastakümneid tegelenud filmide kassatulu ennustamisega, sest iga aasta linastub suur hulk teoseid, mille tulemused üllatavad nende rahastajaid kas heal või halval viisil, sõltuvalt esialgsetest prognoosidest. Eelnevad uurimustööd on avaldanud vastakaid tulemusi filmikriitikute arvustuste kasutamise kohta filmide kassatulu ennustamiseks. Niisamuti on kaasatud sotsiaalmeedia ühe võimaliku andmeallikana filmide müügiedu prognoosimiseks. Käesolevas töös uuritakse, milline neist kahest erinäolisest allikast on kasulikum ennustamaks parema täpsusega filmide kasumlikkust. Uuritavateks andmeteks oleme kogunud viimase kolme aasta jooksul linastunud Hollywoodi ja Bollywoodi filmid, mis on erineva geograafilise asukoha ning kultuurilise taustaga. Kollektiivse tarkuse näitena uurime sotsiaalvõrgustiku Twitteri andmeid ning võrdleme neid filmikriitikute arvustustega Hollywoodi ning Bollywoodi filmiportaalidest Metacritic ja SahiNahi. Kaasame mitmeid erinevaid tunnuseid ning rakendame erinevaid masinõppe algoritme ennustusmudelite ehitamiseks. Meie vaatluste tulemused näitavad, et võrreldes filmikriitikute eksperthinnangutega pole kollektiivsete teadmiste abil võimalik filmide kassatulu paremini ennustada ega vastupidi.
Korruptsiooni tuvastamine riigihangetes läbi andmeanalüüsi
(2019) Põlluste, Mart Kevin; Rajesh Sharma
Magistritöö eesmärgiks oli uurida, kas ainult andmeanalüüsile tuginedes on võimalik ennustada korruptsiooni võimalikkust Eesti riigihangetes ning tulenevalt eelnevast teha riigile soovitusi, kuidas parandada korruptsiooni tuvastamise võimalusi. Seatud eesmärgi saavutamiseks andis autor muuhulgas ülevaate korruptsioonist ja korruptsioonist riigihangetest ning nende vastu võitlemise strateegiast ja olulisematest viimastel aastatel toimunud arengutest maailmas. Kõrgele korruptsiooniriskile on viidanud nii üleeuroopalised uuringud kui ka meedia. Olemasolevatele andmetele tuginedes tegi autor masinõppe algoritmi, mis hindab korruptsiooni võimalikust riigihangetes Eestis.Rakenduse automatiseeritud lähenemise ja andmete analüüsi tulemusena jõudis autor tulemusteni, mis näitavad, et antud andmetele tuginedes on võimalik hinnata korruptsiooni tõenäosust Eesti riigihangetes. Eelneva põhjal saab seega öelda, et andmeanalüüsi kasutades on võimalik muuta korruptsiooni tuvastamine konkreetsemaks, lihtsamaks ja efektiivsemaks. Lähtudes teooriast ja tehtud praktilisest tööst, esitas autor enda poolsed soovitused riigile, milliste andmete kasutamisel ja analüüsil oleks võimalik korruptsiooniriski täpsemini ennustada ja seeläbi korruptsiooniriski maandada.
Masinõppe abil kulda ja hõbedat kaevandades: tühistatud tellimuste ennustamine Tavexi e-poes Norras
(2019) Kallas, Liisa; Rajesh Sharma
Laialdase internetikasutuse tõttu on tekkinud palju erinevaid veebikeskkondi. Nende hulka kuuluvad ka e-poed. Paljud traditsioonilised ärid, nagu väärismetalle müüvad ettevõtted, on lisaks olemasolevatele esindustele loonud enda toodete müümiseks ka veebipoed. Ühest küljest võimaldavad need klientidel mugavamalt ostelda, teisalt pakuvad ka ärile võimaluse jõuda suurema hulga potentsiaalsete ostjateni. Ometi on see toonud firmadele ka uusi väljakutseid, näites kuidas panna üha rohkem veebilehe külastajaid ostu tegema. Paljude varasemate uurimuste eesmärk ongi olnud ennustada, kes veebilehe kasutajatest enda külastuse käigus tellimuse teevad ja mis faktorid seda otsust mõjutavad. Varasemates uurimustes on aga vähe käsitletud probleemi, mis tekib juba esitatud veebitellimuste tühistamisest. Tühistatud tellimused, ms tulenevad nende maksmata jätmisest, on probleem muuhulgas väärismetalle müüva ettevõtte Tavexi e-poes Norras. Käesolevas töös kasutatakse kolme masinõppe algoritmi – logistilist regressiooni, juhumetsa ja tugivektormasinat –, et ennustada millised Tavexi veebipoes tehtud tellimused makstakse ja millised tühistatakse. Parim saavutatud mudel suutis tuvastada 68% kõikidest maksmata jäetud tellimustest. Töötulemused näitavad, et masinõppel on selles valdkonnas ja seda tüüpi tellimuste tuvastamiseks suur potentsiaal.
Mitmemõõtmeline analüüs mõistmaks avalikkuse arusaama tervise algatuse suhtes ühe projekti näitel
(2019) Adler, Joosua; Rajesh Sharma; Ruth Hunter
Tõsiste vigastustega või surmaga lõppevate liiklusõnnetuste üks suurimatest põhjustajatest linnades on kiiruse ületamine. Sellega seoses käivitas Ühendkuningriigi valitsus tervisele orienteeritud transpordialgatuse mitmetes kohtades, tehes ettepaneku vähendada kiirusepiiranguid 20 miilini tunnis, et vähendada ohvrite arvu ja liiklusmahtu. Koos sellega paraneks ohutustunne ja suureneks inimeste füüsiline aktiivsus. On läbi viidud mitmeid uuringuid, et mõista kiiruse mõju õnnetustes ja liiklusohutuses. Tulemused on näidanud, et madalam kiiruspiirang linnades muudab liikluse ohutumaks. Bakalaurusetöös analüüsitakse sotsiaalmeedia andmeid, võttes aluseks Twitteri postitused, et mõista üldsuse taju kiirusepiirangu 20 miili tunnis suhtes. Andmed koosnevad Twitteri postitustest, mis on tehtud 2015.a veebruarist 2017.a märtsini. Analüüs viidi läbi hoiakute kaeve ja sotsiaalvõrgustiku analüüsi teel. Analüüsi tulemused näitasid, et inimesed reageerisid muudatusele positiivselt ja aktsepteerisid ohutuse ja tervise nimel uue kiirusepiirangu.
Predicting stock returns: ARMAX vs. machine learning
(2022) Lapitskaya, Darya; Eratalay, Hakan; Rajesh Sharma
In the modern world, online social and news media significantly impact society, economy, and financial markets. In this chapter, we compared the predictive performance of financial econometrics and machine learning and deep learning methods for the returns of the stocks of the SP100 index. The analysis is enriched by using COVID-19 related news sentiments data collected for a period of 10 months. We analyzed the performance of each model and found the best algorithm for such types of predictions. For the sample we analyzed, our results indicate that the autoregressive moving average model with exogenous variables (ARMAX) has a comparable predictive performance to the machine and deep learning models, only outperformed by the extreme gradient boosted trees (XGBoost) approach. This result holds both in the training and testing datasets.
Semantselt kahekordsete küsimuste kindlakstegemine: Quora juhtumi uurimine
(2019) Ansari, Navedanjum Mohammed Hanif; Rajesh Sharma
Kaks küsimust on semantselt dubleeritud, arvestades, et täpselt sama vastus võib rahuldada mõlemaid küsimusi. Semantselt identsete küsimuste väljaselgitamine selliste sotsiaalmeedia platvormide kohta nagu Quora on erakordselt oluline, et tagada kasutajatele esitatud sisu kvaliteet ja kogus, lähtudes küsimuse kavatsusest ja nii rikastades üldist kasutajakogemust. Dubleerivate küsimuste avastamine on väljakutseks, sest looduskeel on väga väljendusrikas ning ainulaadset kavatsust saab edastada erinevate sõnade, fraaside ja lausekujunduse abil. Masinõppe ja sügava õppimise meetodid on teadaolevalt saavutanud paremaid tulemusi võrreldes traditsiooniliste loodusliku keeletöötlemise tehnikatega sarnaste tekstide väljaselgitamisel.Selles teoses, võttes Quora oma juhtumiuuringuks, uurisime ja kohaldasime erinevaid masinõppe- ja sügavõppetehnikaid ülesandel tuvastada Quora küsimuse paari andmestikul kahekordsed küsimused. Kasutades omaduste inseneritehnikat, eristavaid tähtsaid tehnikaid ning katsetades seitsme valitud masinõppe klassifikaatoriga, näitasime, et meie mudelid edestasid paari varasemat selle ülesandega seotud uuringut. Xgboost mudelil, mida söödetakse tähetaseme termilise sagedusega ja pöördsagedusega, saavutati teiste masinõppemudelite suhtes paremad tulemused ning edestati ka paari Deep learningi algmudelit.Meie kasutasime sügava õppimise tehnikat, et modelleerida neli erinevat sügavat neuralivõrgustikku, mis koosnevad Glove Embedding, Long Short Term Memory, Convolution, Max Pooling, Dense, Batch normaliseerimisest, aktuaalsetest funktsioonidest ja mudeli ühendamisest. Meie süvaõppemudelid saavutasid parema täpsuse kui masinõppemudelid. Kolm neljast väljapakutud arhitektuurist edestasid täpsust varasemast masinõppe- ja süvaõppetööst, kaks neljast mudelist edestasid täpsust varasemast sügava õppimise uuringust Quora küsitluspaari andmestik ning meie parim mudel saavutas täpsuse 85.82% mis on kunstilise seisundi Quora lähedane täpsus.
Sotsiaalmeedias informatsiooni hajumise ennustamine
(2018) Lytvyniuk, Kateryna; Rajesh Sharma; Anna Jurek
Sotsiaalmeedia on saanud moodsa elu osaks. Pidevalt tekib juurde informatsiooni, mida maailmaga jagatakse. Informatsiooni hajumist on varasemalt uuritud paljude teadlaste poolt, kuna sel on rakendusi erinevates valdkondades, nagu näiteks sotsiaalmeediaturundamine ja uudiste levimise uurimine. Informatsiooni leviku kiirust mõjutab selle olulisus inimestele. Käesolevas töös uuritakse info hajumist sotsiaalvõrgustikus ja ennustatakse sisu populaarsust kasutades juhendatud masinõppe algoritme. Kolme Twitterist pärit andmestikku analüüsitakse ja kasutatakse erinevate masinõppe mudelite konstrueerimiseks.Defineerisime säutsu populaarsuse kui taaspostituste arvu, mida iga originaalsäuts sai, ning püstitasime uurimisprobleemid binaarsete ja mitmeklassiliste ennustusülesannetena. Uurisime, kuidas esialgne säutsude taaspostitamise käitumine mõjutab mudelite ennustusvõimekust. Lisaks analüüsisime, kas viimase tunni taaspostituskäitumine aitab ennustada taas-postituskäitumist järgneva tunni jooksul. Täiendav tähelepanu oli suunatud ka ennustuseks tähtsate tunnuste leidmiseks.Binaarse ennustuse puhul näitasid mudelid tulemusi AUC (area under curve) kuni 95% ning F1-skoori kuni 87%. Mitmeklassiliste ennustuste puhul suutsid mudelid saavutada kuni 60% üldise täpsuse ning F1-skoori kuni 67%. Paremad ennustustäpsused saavutati siis, kui postitustel olid väga madalad või väga kõrged taaspostituste arvud. Me genereerisime mudelid kasutades üht andmestikku ning testisime neid ülejäänud kahe peal. See näitas, et mudelid on piisavalt robustsed, et tegeleda erinevate teemadega.
Väliste tegurite mõju Eesti mobiilkõnede aktiivsusele
(2019) Hiir, Hendrik; Rajesh Sharma; Anto Aasa
Käesoleva töö eesmärk on näidata, kuidas erinevad välised tegurid mõjutavad mobiilkõnede aktiivsust. Kasutati 628 716 rida kõneandmete kirjeid, et koostada Eestis tehtud kõnede põhjal sotsiaalvõrgustik ja selle põhjal analüüs. Vaadeldi, kuidas erinevad kõneühendused maakondade kaupa, uurides ka maakondade rahvaarvu ja populaarsuse vahesid. Näidati, millistes maakondades on kõige rohkem ja millistes kõige vähem maakonnasiseseid kõnesid. Lisaks uuriti, kuidas erinevad looduslikud ja mittelooduslikud sündmused kõneaktiivsust mõjutavad. Looduslikest sündmustest uuriti ilma, täiskuud ja päikesevarjutust. Mittelooduslikest sündmustest uuriti parlamendivalimisi, vaatlusperioodi suurimat jalgpallimatši ja 13. kuupäeva mõju reedele. Töö tulemuste põhjal on inimeste kõneaktiivsus märgatavalt mõjutatud ajast ning ümbritsevatest sündmustest.
Võrguteadusel ja dokumentide sarnasusel põhinev töökohtade soovitussüsteem
(2018) Sukhorukov, Maksym; Rajesh Sharma
Tööde soovitussüsteemid kasutavad erinevaid andmeallikaid lõppkasutajale parema sisu tagamiseks. Hästi toimiva soovitussüsteemi arendamine nõuab keerulisi hübriidseid lähenemisi sarnasuse kujutamisele põhinedes töökuulutuste ja resümeede sisudele ja nendevahelistele interaktsioonidele. Antud töö tulemina arendati efektiivne võrgul baseeruv töökohtade soovitussüsteem, mis kasutab Personalized PageRank algoritmi töökohtade järjestamiseks põhinedes tööotsija resümee ja töökuulutuse kui tekstiliste dokumentide sarnasustele ning eelnevatele kasutaja ja töökuulutuste vahelistele interaktsioonidele.Meie lähenemine saavutas 50%-lise saagise ja tekitas online A/B testi jooksul rohkem kandideerimisi kui eelmised algoritmid.