Methods for re-using public gene expression data

Kolde, Raivo

Methods for re-using public gene expression data

dc.contributor.author	Kolde, Raivo
dc.date.accessioned	2014-05-15T13:00:40Z
dc.date.available	2014-05-15T13:00:40Z
dc.date.issued	2014-05-15
dc.description	Väitekirja elektrooniline versioon ei sisalda publikatsioone.	et
dc.description.abstract	Avalikud geeniekspressiooni andmebaasid sisaldavad andmeid rohkem kui miljoni bioloogilise proovi kohta, mis on pärit sadadest erinevatest kudedest ja haigustest. Sealjuures iga proovi kohta on teda sisuliselt kõigi geenide avaldumismuster. Nii on tekkinud olukord, kus on võimalik sooritada bioloogilisi uuringuid ilma katseid tegemata, kasutades vaid olemasolevaid andmeid. Andmestike suurus aga esitab mitmeid väljakutseid: korrektne analüüs nõuab spetsiifilisi statistilisi teadmisi, vajalik info on peidetud suure hulga ebavajaliku taha ning analüüs ise on töömahukas. Kõik need põhjused takistavad avalike andmete laiemat kasutuselevõttu. Antud töö eesmärk on muuta geeniekspressiooni andmete taaskasutamist, läbi meetodite ja tööriistade arendamise, efektiivsemaks ja kättesaadavamaks. Üks suuremaid probleeme andmete taaskasutamisel on nende ligipääsetavus. Seetõttu oleme loonud kaks veebikeskkonda, mis võimaldavad sooritada keerukaid analüüse avalikel andmetel kasutajasõbralikul moel. Neist esimene visualiseerib embrüonaalsete tüvirakkide kohta käivaid andmeid, mis pärinevad FunGenES konsortsiumist. Teine aga võimaldab otsida sarnase käitumisega geene üle sadade avalike andmestike. Teostades analüüse üle paljude andmestike tekib paratamatult vajadus saadud tulemusi omavahel ühendada. Selleks lõime algoritmi astakute agregeerimiseks, mis on kohandatud just geeni nimekirjade jaoks. Uurides mitmeid andmestikke korraga, on oluline neist kõigist omada sisulist ülevaadet. Selle hõlbustamiseks oleme välja töötanud visualiseerimismeetodi, mis suudab vähese vaevaga tekitada kompaktseid, kuid informatiivseid ülevaateid geeniekspressiooni andmetest. Tutvustatud meetodid ja tööriistad on loodud praktilisi vajadusi silmas pidades ning kõik nad on leidnud juba ka rakendust erinevates uuringutes.	et
dc.description.abstract	Public gene expression databases contain data about more than million biological samples, from hundreds of tissues and diseases. In principle, we know the expression pattern for all genes in these samples. Thus, we have a situation, where it is possible to carry out biological studies without performing new experiments. The size of the datasets, however, poses several challenges: appropriate analysis requires specific statistical skills, useful information is well hidden in the datasets and the analysis itself is time consuming. All these reasons prevent the wider usage of public gene expression data. The goal of this thesis is to facilitate re-use of expression data by developing analysis methods and tools. One of the biggest obstacles for re-using expression data is its accessibility. For that reason, we have created two web environments that allow to run complex analysis pipelines on public gene expression data. First of those visualises embryonic stem cell data from FunGenES consortium. The other allows to search for genes with similar behaviour across hundreds of public datasets. By performing analyses over multiple datasets there will be eventually need for integration of the results. For this task we created a rank aggregation algorithm that is specifically designed for lists of genes. When studying multiple datasets it is important to have good overview of their contents. To allow rapid functional characterization of datasets, we have created a visualisation method that can create compact but informative visual summaries of the data. Methods and tools described here, have been created with practical considerations in mind and have already been used in various studies.	en
dc.identifier.isbn	978-9949-32-550-4 (print)
dc.identifier.isbn	978-9949-32-551-1 (pdf)
dc.identifier.issn	1024-4212
dc.identifier.uri	http://hdl.handle.net/10062/40689
dc.language.iso	en	et
dc.relation.ispartofseries	Dissertationes mathematicae Universitatis Tartuensis;90
dc.subject	teadusandmed	et
dc.subject	avaandmed	et
dc.subject	geeniekspressioon	et
dc.subject	research data	en
dc.subject	Open Data	en
dc.subject	gene expression	en
dc.subject.other	dissertatsioonid	et
dc.subject.other	ETD	en
dc.subject.other	dissertations	en
dc.subject.other	väitekirjad	et
dc.title	Methods for re-using public gene expression data	en
dc.title.alternative	Meetodid avalike geeniekspressiooni andmete taaskasutamiseks	et
dc.type	Thesis	en

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: kolde_raivo(1).pdf
Suurus:: 1.87 MB
Formaat:: Adobe Portable Document Format
Kirjeldus:

Lae alla

Litsentsi pakett

Nüüd näidatakse 1 - 1 1

Nimi:: license.txt
Suurus:: 506 B
Formaat:: Item-specific license agreed upon to submission
Kirjeldus:

Lae alla

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.