Formation Logiciel R - L'indispensable de la Data Science avec R

Durée 4 jours
Niveau Intermédiaire
Classe à distance
Possible

Vous pouvez suivre cette formation en direct depuis votre domicile ou votre lieu de travail. Plus d'informations sur notre solution de classe à distance...

Référence ARDS
Éligible CPF Non

La Data Science avec R repose sur la maîtrise de techniques d'exploration de données fondamentales : statistiques descriptives, prédictives ou exploratoires.

Cette formation Logiciel R vous présentera les méthodes indispensables en Data Science sous RStudio.

Objectif opérationnel : 

Savoir maîtriser les méthodes indispensables en Data Science sous RStudio.

Objectifs pédagogiques : 

Concrètement, à l'issue de cette formation Logiciel R vous aurez acquis les connaissances et les compétences nécessairesp pour :

  • Savoir utiliser des méthodes d’exploration de données
  • Comprendre le principe de la modélisation statistique
  • Choisir entre la régression et la classification
  • Mettre en œuvre une évaluation des performances prédictives d'un modèle

Public :

Cette formation Data Science avec R s'adresse aux responsables infocentres (Datamining, Marketing, Qualité...), aux utilisateurs et gestionnaires métiers de bases de données, ainsi qu'aux futurs Data Scientists.

Prérequis :

Pour suivre cette formation à la Data Science avec R, il est nécessaire d'avoir des connaissances de base du logiciel R ainsi qu'en statistiques. La formation Logiciel R - Prise en main (réf. ARPM) et la formation Comprendre les statistiques pour le Big Data ou la Business Intelligence (réf. ACST) peuvent vous apporter ces connaissances.

Rappels du langage R

Les types de données dans R
Importation et exportation de données
Techniques pour tracer des courbes et des graphiques

Analyse en composantes

Analyse en composantes principales
Analyse factorielle des correspondances
Analyse des correspondances multiples

Exercices

La modélisation

Les algorithmes supervisés et non supervisés
Le choix entre la régression et la classification
Les étapes de construction d'un modèle

Les algorithmes non supervisés

Le clustering hiérarchique
Le clustering non hiérarchique
Les approches mixtes

Exercices

Les algorithmes supervisés

Le principe de régression linéaire univariée
La régression multivariée
La régression polynomiale
La régression logistique
Le Naive Bayes
L’arbre de décision
Les K plus proches voisins

Exercices

Procédures d'évaluation de modèles

Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Exercices

Analyse de donnees textuelles

Quelques packages utiles
Cas de la régression linéaire multiple
Cas de l'analyse en composantes principales ACP
Cas de la classification CAH

Exercices

Date de mise à jour du programme : 14/09/2021

Dates et lieux

Du 25 au 28 juin 2024
En bonne voie de maintien
Lieu
Distanciel
Durée
4 jrs
2390 € HT
Du 25 au 28 juin 2024
En bonne voie de maintien
Lieu
Paris
Durée
4 jrs
2390 € HT
Du 28 au 31 octobre 2024
Lieu
Distanciel
Durée
4 jrs
2390 € HT
Du 28 au 31 octobre 2024
Lieu
Paris
Durée
4 jrs
2390 € HT
Du 17 au 20 décembre 2024
Lieu
Distanciel
Durée
4 jrs
2390 € HT
Du 17 au 20 décembre 2024
Lieu
Paris
Durée
4 jrs
2390 € HT


Formations Informatique
et Management
en ligne à ce jour

+
Stagiaires dans nos salles
de cours sur
l'année

%
De participants satisfaits
ou très satisfaits de nos
formations


Formateurs experts
validés par
PLB