HIREAU recrute un post-doc en informatique pour 12 mois

Le candidat (H / F) exercera ses missions au sein de l’UMR 5205 sous la responsabilité hiérarchique de Khalid Benabdeslem et Frédéric Cherqui.
Organisation du travail : 37h – temps complet.
Lieu de travail : LIRIS – CNRS UMR 5205, UCBL, 43 Bd du 11 Novembre 1918, 69622 Villeurbanne.

Apprentissage semi-supervisé pour la reconstitution des dates de pose de réseaux d’assainissement et d’eau potable

Financement

Cette proposition est financée par le Laboratoire d’excellence (Labex) IMU (Intelligence des mondes urbains – http://imu.universite-lyon.fr/) et s’inscrit dans le cadre du projet HIREAU.

Contexte et objectifs

La date de pose est l’un des facteurs principaux d’explication de la dégradation des conduites d’assainissement et d’eau potable. Pour les gestionnaires de ces réseaux, connaître cette information permettra ainsi (grâce à l’utilisation de modèles de détérioration) de prédire l’état de santé actuel des conduites non encore inspectées. Cette connaissance est primordiale pour prendre des décisions d’inspection des conduites, dans un contexte de forte contrainte budgétaire. Dans le cadre du  projet HIREAU, une approche dite historique est envisagée pour répondre à cette problématique, en se basant sur la fouille d’archives. Cependant, l’approche étant « humaine », elle ne pourra pas déterminer la totalité des dates de pose de conduites mise en question, à cause du coût d’une telle démarche et de non exhaustivité de l’information. Une approche informatique est donc indispensable pour compléter l’approche historique. L’approche informatique que nous préconisons s’inscrit dans le cadre de l’apprentissage semi-supervisé, un champ disciplinaire qui consiste à modéliser des fonctions de décision à partir de base de données statistiques partiellement étiquetées. Dans notre cas, ces bases seront construites à partir de différentes sources hétérogènes et après l’expertise qui ne pourra déterminer qu’une partie de la cible : les dates de poses à caractère continu. Cette approche devra également prendre en compte les hypothèses formulées sur le développement de ces réseaux, et plus particulièrement les logiques liant urbanisation, bâtiments et réseaux.

Programme scientifique

Depuis la prolifération des bases de données partiellement étiquetées, l’apprentissage automatique a connu un développement important dans le mode semi-supervisé. La plupart des travaux de recherche ont été investis pour apprendre à partir de bases d’apprentissage avec une variable cible à caractère discret. Cependant, dans certaines applications, cette variable peut être continue et partiellement informée ; et situerait donc le problème dans le cadre de la régression semi-supervisé.

Dans ce sujet, nous nous intéressons donc à cette problématique avec différentes tâches à développer :

Régression semi-supervisée pour la prédiction de dates de pose

L’apprentissage semi-supervisé consiste en général à modéliser une fonction statistique à partir de base de données regroupant à la fois des exemples étiquetés et d’autres non-étiquetés. Pour aborder une telle problématique, deux familles d’approches existent : celle basée sur la propagation de la supervision en vue de la classification supervisée et celle basée sur les contraintes en vue du clustering (non-supervisé). Nous nous intéressons ici à la première famille avec deux particularités liées la variable cible. D’une part, il s’agit d’apprendre avec une partie supervisée relativement très réduite par rapport à la partie non-supervisée et  d’autre part, cette partie supervisée contient des valeurs continues au lieu de valeurs discrètes qui représentent habituellement des étiquettes de classes. Pour ce faire, nous préconisons des modèles de régression régularisée de type manifold.

Sélection de variables explicatives pour la régression

La sélection de variables est une tâche primordiale en fouille de données et apprentissage automatique. Il s’agit d’une problématique très bien connue par les deux communautés dans les contextes, supervisé et non-supervisé. Le contexte semi-supervisé est en cours de développement et les travaux sont embryonnaires et particulièrement peu nombreux pour les problèmes de régression. Il est donc très opportun de s’attaquer à cette problématique que nous envisageons d’aborder par des approches à base de la théorie spectrale de graphe en adoptant nos modèles déjà développés dans le cadre de la classification semi-supervisée. L’objectif final étant de sélectionner les variables les plus pertinentes et caractéristiques aux dates de poses, éliminer la redondance et améliorer ainsi les modèles d’apprentissages semi-supervisé sous-jacents.

Outre les problèmes intrinsèques de ce type de tâches, la masse de données dans le cadre de ce projet pose des problèmes de passage à l’échelle. Cela pose également des problèmes de mise en œuvre des techniques, de complexité temporelle des algorithmes, et de validité des méthodes prévues pour fonctionner dans des contextes plus limités. L’analyse technique qui se base essentiellement sur l’analyse des données doit pouvoir supporter non seulement ce passage à l’échelle mais aussi envisager des outils nouveaux pour l’analyse multiple de ces données complexes.

Évaluation des performances du modèle développé

La faisabilité de l’approche informatique sera également considérée du point de vue opérationnel. Les résultats de la modélisation seront évalués pour renseigner sur la qualité de la prédiction en fonction notamment des données disponibles et des périodes de pose. Des recommandations seront à définir concernant la base de données. L’identification des limites de l’approche et des perspectives de recherche seront également nécessaires.

Consortium

Ce post-doc s’inscrit dans le cadre du projet de recherche HIREAU (https://hireau.wordpress.com) qui regroupe trois laboratoires de recherche (DEEP, LIRIS UMR 5205 et EVS UMR 5600), deux industriels (Veolia et Eau du Grand Lyon) et la Métropole de Lyon. Il s’inscrira dans une interaction forte avec les partenaires du projet et plus particulièrement Eau du Grand Lyon et la Métropole de Lyon.

Durée

12 mois, démarrage prévu en avril 2018 mais possibilité d’adapter la date de démarrage en fonction du candidat.

Profil recherché

Compétences nécessaires: Machine Learning, Data Mining, Statistique. Maîtrise des
langages de programmation tels que : Matlab, Python, R, C/C++, Java, Scala-Spark.

Si possible connaissances en matière de réseaux urbains et/ou maîtrise des SIG.

Candidatures

Renseignements sur le poste

Khalid Benabdeslem, LIRIS CNRS UMR 5205 – https://liris.cnrs.fr/kbenabde@univ-lyon1.fr

Frédéric Cherqui, INSA DEEP – http://deep.insa-lyon.fr/  –  fcherqui@gmail.com

Envoi des candidatures

Lettre de motivation + CV exclusivement par e-mail avant le 15/12/2017 minuit à isabelle.lefort@univ-lyon2.fr et isabelle.diraimondo@universite-lyon.fr

Document pdf à télécharger ici

http://imu.universite-lyon.fr/offres-demplois/