Dans un contexte où les entreprises manipulent une multitude de systèmes RH (Core HR, paie, recrutement…), la consolidation de ces données pour une vision 360° de l’employé reste un défi majeur. Nous avons récemment relevé ce défi chez un de nos clients en développant une solution de machine learning, capable de faire le lien entre des sources hétérogènes — même lorsqu’elles ne partagent pas la même granularité.
Problématique : des granularités incompatibles
Prenons un exemple concret :
- Le système Core HR stocke les données avec une granularité fine : person_number + assignment_number (représentant le poste occupé par l’employé).
- Le système de paie, en revanche, n’identifie les employés que via le person_number, sans référence à l’assignment_number.
Un même person_number peut donc correspondre à plusieurs affectations dans CoreHR. Comment savoir quelle ligne reflète la situation réelle en paie pour un mois donné ? Et que faire lorsqu’on a plusieurs lignes de paie sans assignment_number pour les différencier ?
Solution : un modèle de classification supervisée
Pour répondre à cette problématique, nous avons développé un modèle de machine learning supervisé, capable d’identifier automatiquement la bonne ligne d’assignment_number parmi les différentes possibilités.
Méthodologie :
1. Exploration et nettoyage des données pour harmoniser les champs clés : date d’embauche, intitulé de poste, division, service… autant de variables explicatives que possible.
2. Jointure naïve des sources : chaque ligne de paie est associée à l’état des assignments à la fin du mois, pour le même person_number.
3. Création d’un jeu de données labellisé servant de base d’entraînement :
- Si la date d’embauche dans la paie correspond à la date de début de l’assignment, on identifie la ligne comme correcte → label = 1
- Sinon, la ligne est considérée comme incorrecte → label = 0 4.
4. Séparation des données en ensembles d’apprentissage et de test.
5. Entraînement de plusieurs modèles via une validation croisée à 5 couches et 10 itérations.
6. Sélection du modèle le plus performant selon les métriques (accuracy, F1-score) et une validation métier par les équipes RH.
Modèle retenu :
- SVM (Support Vector Machine) avec un noyau radial (RBF)
- Performances :
- Accuracy : 99,48 %
- Balanced Accuracy : 99,10 %
- F1-score : 0,99
Architecture de la solution
L’ensemble de la solution est déployé et automatisé sur un environnement Microsoft Azure, permettant une mise à jour régulière à l’arrivée de nouvelles données.
- Intégration des données depuis les bases paie et RH (YES CoreHR)
- Transformation : nettoyage, enrichissement et génération de variables explicatives
- Modélisation et prédiction de la bonne ligne assignment_number à l’aide du modèle ML
- Alimentation d’un datamodel utilisé dans Power BI pour des dashboards RH fiables et enrichis
Un repository central est également mis à jour, validé par les équipes RH, pour corriger les éventuelles anomalies détectées.
Bénéfices observés
- Analyse inter-systèmes facilitée
- Vision RH consolidée et précise pour les équipes décisionnelles
- Automatisation d’un processus auparavant manuel et sujet à erreur
- Gain de temps significatif pour les équipes RH
Aller plus loin : Cas d’usage concrets
Le cas décrit ici peut être généralisé à d’autres problématiques RH :
- Analyse enrichie Paie/RH : comprendre les écarts de rémunération en fonction des affectations réelles
- Performance & rémunération : identifier les liens entre performance individuelle et paie
- Bien-être au travail : croiser absentéisme, performance et données RH pour détecter les signaux faibles
- Stratégie de recrutement : analyser le parcours candidat jusqu’à sa stabilisation dans l’entreprise
Cette méthode peut être adaptée à toute combinaison de systèmes RH disposant d’un identifiant commun, comme ici le person_number.
Conclusion
Ce projet illustre parfaitement la manière dont l’IA peut répondre à des enjeux concrets de qualité et d’intégration des données RH. Grâce à ce modèle de machine learning, nous sommes désormais capables de croiser des sources auparavant non réconciliables — offrant ainsi à nos clients une base solide pour une data RH fiable, scalable et actionnable.
Stratégie Data RH : et si on accélérait ?
Imaginez un monde où la fonction RH est propulsée dans une nouvelle dimension grâce à la puissance de la data. Et si ce monde était à portée de main ? Découvrez comment exploiter tout le potentiel de la Data RH pour révolutionner votre organisation.
Contact
Un projet ? Une demande ? Des questions ?
Contactez-nous dès aujourd’hui et découvrez comment nous pouvons concrétiser ensemble l’avenir du numérique de votre entreprise.