Andmete reaalajas kogumise võrdlemine kasutades Apache NiFit ja Pythonit
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Viimastel aastatel populaarsust kogunud DevOps i kultuur on jõudnud andmeteaduse
valdkonda, mida kutsutakse DataOps iks. Selle tõttu on hakatud ehitama andmetorusi, et
kontrollida andmete kogu elutsükklit. Kui andmete maht on kasvanud väga suureks, siis
DataOps i eesmärk on parandada suhtlust, koostööd, automatiseerimist ja integratsiooni
erinevate tiimide vahel, näiteks andmeteadlaste ja andmeanalüütikute. Selle tõttu on hakatud
ehitama andmetorusi, et kontrollida andmete kogu elutsükklit. Käesoleva bakalaureusetöö
eesmärk on ehitada andmetoru kasutades tarkvara Apache NiFi ning võrrelda seda tavapärase
skriptilise lähenemisega kasutades programmeerimiskeelt Python. Andmetoru on loodud
temperatuuri mõõtvate seadmete, mis töötavad Raspberry Pi 3 arvutitel ning Tartu Ülikooli
pilves olevate masinate vahele.
In english: In the last years DevOps culture has gained popularity and has applied on the field of data
science, which is called DataOps. It is because of that the creation of data pipelines has begun
to have control over data lifecycle. When the volume of data has become huge, DataOps aims
to improve communication, cooperation, automation and integration between different teams
for example data scientists and data analysts. The purpose of the thesis is to build a data
pipeline with a software intended for that purpose, Apache NiFi and to compare it to scripting
approach using programming language Python. The data pipeline is created between
temperature measuring devices which are working on Raspberry Pi 3 computers and
University of Tartu’s cloud environment instances.
Description
Keywords
automatiseerimine, andmed, DevOps, DataOps, andmetoru, automation, data, data pipeline