Häkatonide tulemuste ennustamine masinõppe abil (Andmeanalüüs)

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Häkatonide tähtsus ja toimumise sagedus on viimase kahe aastakümne jooksul jätkuvalt kasvanud. Häkatonide võitmine võib suurendada võitnud meeskondade tuntust ja tulla osavõtjatele kasuks töökohtade leidmisel, isikliku arengu jaoks ja projektidele investorite leidmisel. Antud uurimus tugineb olemasoleval andmestikul, mis koguti 5 aasta jooksul Devposti häkatoni platvormilt ja mis sisaldab umbes 5000 häkatoni ja enam kui 60000 projekti andmeid. Uurimuses kasutati andmeanalüüsi ja masinõppe tehnikaid tuvastamaks häkatoni meeskondade neid aspekte, mis parandavad meeskondade võiduvõimalusi. Antud töö on katse tegeleda lüngaga häkatonide tulemuste ennustamisel ja demonstreerida erinevate projekti tunnuste tähtsust suure ulatusega andmestiku uurimise tulemuste põhjal. Rakendatud tehnikad visandavad raamistiku masinõppe protsessile lähenemiseks täiesti uue klassifikatsiooni probleemi jaoks. Raamistik adresseerib antud probleemile iseäraseid raskusi ja soovitud tulemuse vajadusi. Valitud meetoditeks olid naiivne Bayes, logistiline regressioon ja juhuslik mets, kuna neid meetodeid kasutatakse laialdaselt sarnaste klassifitseerimisülesannete jaoks. Lisaks valiti XGBoost, kuna viimastel aastatel on see meetod andnud tipptasemel tulemusi erinevate andmeteaduse probleemide lahendamisel. Samuti oli fookuses projektide tunnuste leidmine ja tunnuste valik klassifikatsioonimudelite suutlikkuse parandamiseks. Töös näidatakse, et arendatud algoritmid töötavad paremini kui tavamõistusel tuginev reeglipõhine lähtetase.
Over the past two decades, hackathons continue to increase in importance and frequency. Winning hackathon competitions can increase the visibility for winning teams and benefit participants in terms of future job opportunities, personal development and finding potential investors for a project. Based on an existing dataset that covers around 2000 hackathons and more than 60000 projects over the period of 5 years gathered from Devpost hackathon platform, in this study Data Analysis and Machine Learning techniques were used to identify aspects of hackathon teams that improve their chances of winning. This thesis is an attempt to address the gap in hackathon outcome prediction and to demonstrate the importance of different project features by presenting findings from large scope dataset. Applied techniques outline a framework for approaching the Machine Learning process on a brand-new classification problem addressing the particular difficulties and needs of the desired outcome. Naive Bayes, Logistic Regression and Random Forest were selected because they are widely in use in similar classification tasks, while XGBoost was chosen since in recent years it has given a state-of-the-art performance for different Data Science problems. Besides that, the main focus was made on project feature extraction and feature selection for a better prediction. The developed classifiers are shown to outperform the common-sense rule-based baseline.

Description

Keywords

Citation