Geavanceerde statistische methoden

Deze opleiding wil een praktisch inzicht geven in een aantal geavanceerde en veelgebruikte statistische methoden voor de analyse van uitgebreide datasets. Een keuze maken uit dit ruime aanbod van methoden berust op een grondige kennis van de voorwaarden waaronder de analysemethode ontwikkeld is. Eens deze selectie werd gemaakt, kan de uitvoering van de analyse worden aangevat met behulp van publiektoegankelijke software pakketten zoals R.

De opleiding start met een aantal lessen rond het pakket R, dat tevens het software pakket is dat in de ganse lessenreeks wordt gebruikt. Daarna komen de niet-parametrische en de meest gebruikte multivariate statistische methoden aan bod. Tijdens iedere les komen er tal van oefeningen aan bod (50% theorie en 50% oefeningen). In de laatste les van de modules 1 en 2 worden er enkel oefeningen gegeven.

Iedere module kan apart gevolgd worden.


De cursus richt zich tot personen in de bedrijfswereld, de dienstensector, de overheid, de sector gezondheidszorg en de farmaceutische wereld maar ook tot mensen uit het onderwijs en alle ondersteunende disciplines die gebruik maken van statistische methoden en modellen.

De cursus is toegankelijk voor iedereen die door zijn basisvorming of door zijn ervaring voldoende met het onderwerp vertrouwd is om met interesse en motivatie de opleiding te volgen.

Door het modulaire karakter van de opleiding kan de cursist de modulekeuze aanpassen aan zijn interesseprofiel en specifieke voorkennis.

Programma

Module 1: Cursus R voor gevorderden - 30 januari, 6, 20 en 27 februari, 6 en 13 maart 2018 

R is een krachtige en vrij beschikbare programmeertaal gericht op dataverwerking en analyse. De grote kracht van R ligt in de uitgebreide mogelijkheden voor automatisering van het analyseproces en de talloze uitbreidingen in de vorm van R packages. Om de kracht van R goed te kunnen toepassen, moet men echter een goed begrip hebben van hoe R functioneert als programmeertaal. In deze cursus gaan we daar dieper op in. In een eerste les overlopen we RStudio en de mogelijkheden die het biedt om je werk te organiseren. We kijken naar het gebruik van projecten, de verschillende opties en introduceren RMarkdown documenten. In een tweede les bekijken we object types, hun eigenschappen en toepassingen. De focus ligt op een optimaal begrip van principes zoals vectorizatie en recycling. In een derde les bekijken we functies. We gaan dieper in op de verwerking van argumenten en het toevoegen van foutmeldingen en waarschuwingen. Dit vormt de basis om in een vierde les dieper in te gaan op geavanceerde manipulatie van datasets. Hier komen zowel transformaties van variabelen als van volledige datasets aan bod. De vijfde les bespreken we de mogelijkheden voor grafische weergave van de data aan de hand van R en het pakket geplot. Al deze onderwerpen worden gecombineerd in de oefeningenles op het einde van de cursus. Hierin werken we een voorbeeldanalyse uit inclusief automatische rapportering met RMarkdown. Deze cursus bouwt voort op de introductie tot R in het basispakket statistiek. Een goede voorkennis van R is vereist. Basisfuncties voor inlezen van data, dataverwerking en grafische weergave worden verondersteld gekend en enige vertrouwdheid met de RStudio omgeving is wenselijk.

Module 2: Niet-parametrische methoden - 17 en 24 april, 8, 15, 22 en 29 mei 2018

Niet-parametrische methoden worden gekenmerkt door hun algemene geldigheid, zonder dat distributionele veronderstellingen (zoals normaliteit) over de data moeten gemaakt worden. In de eerste les worden enkele klassieke niet-parametrische testen besproken. De Wilcoxon en de Mann-Whitney rank testen zijn de niet-parametrische alternatieven voor de t-testen, terwijl de Kruskal-Wallis test de niet-parametrische tegenhanger is van de F-test in een ANOVA. Deze testen maken gebruik van de asymptotische approximatie of van de exacte permutatiedistributie. In de tweede les bespreken we hoe we volledige distributies met elkaar kunnen vergelijken. Op die manier kunnen varianties en scheefheden vergeleken worden. In een niet-parametrische statistische analyse is deze stap van gemiddelden naar volledige distributies eenvoudig te zetten. In de derde les worden een aantal niet-parametrische testen besproken voor meer complexe studies (factoriële proeven met meerdere factoren en blokkenproeven), terwijl in de vierde les, de niet-parametrische tegenhangers van de lineaire regressieanalyse worden toegelicht, zoals smoothers (bv. LOESS en splines) en GAMs (generalized additive models). Vermits deze minder restrictief zijn, zijn ze breder toepasbaar. In de vijfde les komt een algemene niet-parametrische methode aan bod voor het bekomen van approximatieve varianties en betrouwbaarheidsintervallen: de bootstrap. Deze methode wordt geïllustreerd aan de hand van enkele voorbeelden zoals regressie en correlatiecoëfficiënt. Aangezien de oefeningen met het pakket R worden gemaakt is een grondige kennis van het gebruik van dit pakket vereist. Verder is er ook een grondige kennis van basisstatistiek vereist (t-toetsen, ANOVA en regressie).

Module 3: Multivariate methoden - 18 en 25 september, 2, 9, 16 en 23 oktober 2018 

Deze module handelt over enkele van de meest gebruikte multivariate statistische analysetechnieken, die dicht aanleunen bij datamining (clustering, classificatie, ...). Veelal is men niet in staat om een studie statistisch optimaal op te zetten en wordt men geconfronteerd met observationele studies. Men dient hierin een structuur te herkennen om tot een interpretatie en een besluit te komen. Een eerste techniek waarmee de dimensionaliteit van een dataset gereduceerd kan worden is de principale componentenanalyse. Er wordt gezocht naar de belangrijkste (combinatie van) variabelen. Een stap verder is de factoranalyse. Dit soort analyses komt zowel voor in industrie als in marktgerichte diensten. De canonische correlatieanalyse, die op dezelfde principes gebaseerd is, is een multivariate methode die gebruikt kan worden om verbanden op te sporen tussen twee multivariate subsets. Vervolgens wordt de clusteranalyse besproken. Deze heeft o.a. tot doel groepen te onderscheiden in een multivariate gegevensset. Indien er reeds meer a-priori kennis is omtrent de groepen, kan een discriminantanalyse of een classificatieboom toegepast worden om een criterium te bepalen dat gebruikt kan worden om nieuwe observaties in één van de groepen onder te verdelen. Aangezien de oefeningen met het pakket R worden gemaakt is een grondige kennis van het gebruik van dit pakket vereist.

 

Kostprijs

900 euro per module. Bij het volgen van 2 modules ontvangt u een korting van 5% op de modulaire prijzen, bij het volgen van alle modules ontvangt u een korting van 10% op de modulaire prijzen. 

Locatie

UGain, Technologiepark 904, 9052 Zwijnaarde 

Organisator

 

Extra informatie

www.ugain.ugent.be/stat 

Contactgegevens

UGain - UGent Academie voor Ingenieurs - Universiteit Gent
Technologiepark 904
9052 Zwijnaarde

Datum

30/01/2018
06/02/2018
20/02/2018
27/02/2018
06/03/2018
13/03/2018
17/04/2018
24/04/2018
08/05/2018
15/05/2018
22/05/2018
29/05/2018
18/09/2018
25/09/2018
02/10/2018
09/10/2018
16/10/2018
23/10/2018