bg-header

Ingénierie de la fouille et de la visualisation de données massives

6 ECTS RCP216

Nombre de crédits
6 ECTS

Durée de la formation
60 heures

Modalité
-

objectifs de la formation

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

compétences et débouchés

Capacité à mettre en oeuvre des techniques de fouille de données, de modélisation décisionnelle et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents rencontrés dans la fouille de données massives.

prérequis

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.

programme de la formation

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/

Méthodes pédagogiques

Modalité Présentiel

Les cours en présentiel : ils ont lieu en présence des élèves et de l’enseignant dans un centre Cnam :

  • hors temps de travail (HTT)c'est à dire le soir (souvent à partir de 18h30) ou le samedi,
  • en journée (au rythme d'un cours par semaine ou bien de quelques journées bloquées dans le semestre).

Aucun cours n’est enregistré ni diffusé via Internet. La présence physique des élèves est nécessaire.

Les examens se déroulent exclusivement dans le centre Cnam où se déroulent les cours.

Modalité Hybride

La modalité hybride est une combinaison entre :

  • des regroupements en salle à présence physique indispensable (non diffusés via Internet et non enregistrés),
  • des webconférences régulières à présence fortement conseillée,
  • des activités distantes via la plateforme d’enseignement à distance pouvant prendre la forme de :
    • la mise à disposition de ressources pédagogiques formalisées (cours magistraux : notions et concepts),
    • des travaux à réaliser tutorés (activités pédagogiques : exercices, cas, lectures, rédaction de notes, de dossiers qui font écho aux ressources pédagogiques et/ou aux activités réalisées dans le cadre des regroupements physiques, forums …),
    • des travaux personnels non tutorés.

Modalité Foad

La modalité Foad est parfaitement adaptée à votre disponibilité :

  • des webconférences régulières à présence indispensable (accessibles en direct via internet, enregistrées pour visualisation en différé),
  • des activités distantes via la plateforme d’enseignement à distance pouvant prendre la forme de :
    • la mise à disposition de ressources pédagogiques (cours, exercices, cas),
    • des travaux à réaliser tutorés via la plateforme d’enseignement à distance,
    • des travaux personnels non tutorés.

méthode d'évaluation

Note finale = ((note de projet + note d'examen) / 2).

Equivalences, passerelles & suite de parcours

En savoir plus sur les équivalences, passerelles & suite de parcours

financez votre formation

En savoir plus sur nos modes de financement


Mis à jour le : 17-11-2024
S'inscrire !