Conception d'une application au service de la santé publique
L'agence "Santé publique France" a lancé un appel à projets pour trouver des idées innovantes d’applications en lien avec l'alimentation. L’objectif du projet était de proposer une idée d’application est de réaliser une preuve de concept.
La base de données que nous utilisons provient d'OpenFoodFacts et constitue une liste de produits alimentaires. Cette base est constituée de plus de 2 millions de produits, chacun d'entre eux étant caractérisé par 188 variables distinctes. Ces variables englobent divers aspects tels que des informations nutritionnelles détaillées, des données sur la provenance des produits, des indications sur leur impact écologique, ainsi que des éléments d'identification tels que la marque, le code barre et même des images associées.
On choisit de proposer une application mobile permettant à un utilisateur de scanner le code barre d’un produit et de récupérer des informations sur la composotion nutritionnelle du produit ainsi que le nutriscore.
On débute par effectuer une analyse exploratoire de données, une étape préliminaire cruciale qui cherche à identifier des tendances, des corrélations entre les variables, ainsi qu'à repérer des anomalies, tout en guidant le choix des méthodes d'analyse appropriées. Cette démarche facilite une compréhension approfondie des données, éclairant ainsi le chemin vers des analyses statistiques ou des modèles plus avancés.
Ensuite, on analyse la qualité des données en se débarassant des valeurs abbérentes, en vérifiant les formats et le taux de complétions des variables. On écarte naturellement les variables trop peu renseignées et on se concentre uniquement sur les variables relatives à la santé du consommateurs, à savoir la composition nutritionnelle et le nutriscore.
La variable nutriscore étant absolument essentielle au bon fonctionnement de l’application, il faudrait que cette information soit disponible pour chaque produit. Or ce n’est pas le cas et la variable n’est renseigné que pour 80% des produits. On décide donc de mettre en place une stratégie d’imputation grâce à la méthode des plus proches voisins pour compléter la variable.
Une fois les données préparées, nous abordons la conception de l'application. Le fonctionnement retenu consiste à réaliser un clustering sur la base de données pour identifier des groupes de produits. Lorsque l'utilisateur scanne le code-barres, le produit est attribué à son cluster, et une sélection des dix meilleurs produits en termes de nutriscore est effectuée au sein de ce cluster, puis renvoyée à l'utilisateur.
Pour plus de détail sur ce projet vous pouvez vous rendre sur le repository Github.
Compétences acquises :
Effectuer des opérations de nettoyage sur des données structurées
Effectuer des analyses statistiques univariées et multivariées
Mettre en place une stratégie d’imputation des données
Détecter les outliers et les valeurs abbérentes
Choisir le type de modèle le plus adapté à la résolution d’une problématique métier
Communiquer ses résultats à l’aide de représentations graphiques lisibles et pertinentes



