Collecte des données avec Data Miner
1. Contexte du projet, outil utilisé et extraction des données
Le but du projet est de collecter et préparer des données sur les bières vendues dans différentes chaînes d’épicerie afin d’améliorer la profitabilité des 5 à 7.
Les épiceries retenues sont :
- Metro
- Provigo
- IGA
- Super C
(Maxi a été exclu afin de conserver seulement quatre sources.)
Data Miner a été configuré et installé. Ensuite, l’extraction des données a été effectuée à l’aide de cet outil sur les sites de chacune des épiceries mentionnées plus haut.
2. Problèmes avec les sites
Les sites des épiceries IGA, Provigo et Maxi rendaient difficile la séparation des informations. Par exemple, avec Maxi, comme on peut le voir dans la première image, lorsque nous sélectionnions des cellules, il était impossible de confirmer le choix. De plus, toujours sur le site de Maxi, comme montré dans la deuxième image, même en utilisant l’outil de recherche avancée, il n’était pas possible d’accéder au prix des produits.
C’est pour cette raison que Super C a été choisi à la place de Maxi dans le projet.
Du côté de Super C et Metro, les fichiers obtenus étaient relativement bien structurés et demandaient peu d’ajustements. Pour IGA et Provigo, le processus a été plus difficile. Toutefois, en utilisant les outils avancés de Data Miner et certaines options liées au HTML, il a été possible d’extraire les informations nécessaires, même si celles-ci se retrouvaient toutes regroupées dans un seul bloc.


3. Solutions et exportations mises en place
Pour corriger ces problèmes, la fonctionnalité de recherche avancée de Data Miner a été utilisée afin de sélectionner uniquement les éléments nécessaires.
Les données ont ensuite été exportées en formats CSV et Excel pour chaque épicerie.
4. Nettoyage initial des données
Les fichiers provenant de Provigo et IGA contenaient encore des informations regroupées. Une intelligence artificielle a donc été utilisée pour nettoyer, séparer et classifier les données dans des colonnes distinctes. Sans être parfait, les données ne sont plus dans un gros bloc.
5. État actuel du projet
À la fin de cette étape, quatre fichiers Excel (Metro, Provigo, IGA et Super C) contiennent des données structurées et sont prêts pour la prochaine étape, soit le nettoyage et le traitement des données.