Apprentissage par transfert: Comment utiliser ce qui existe déjà.
Au fur et à mesure que le nombre de modèles d’IA augmente, il devient évident que les nouvelles applications présentent souvent des similitudes avec celles existantes. L’apprentissage par transfert et l’adaptation de domaine exploitent ce chevauchement en réutilisant des modèles précédemment entraînés. Cette approche accélère l’entraînement, réduit les besoins en données et améliore les performances des modèles, ce qui en fait un outil précieux.
La méthode traditionnelle d’apprentissage profond consiste à collecter de grandes quantités de données annotées et à entraîner un réseau neuronal sur celles-ci. Cependant, avec l’augmentation du nombre de modèles, cette approche rencontre des défis croissants :
- Il peut être difficile de rassembler suffisamment de données annotées pour entraîner des modèles de haute qualité. Par exemple, les données d’imagerie médicale spécialisées sont souvent rares ou inaccessibles en raison des réglementations en matière de confidentialité. De plus, la création de jeux de données étiquetés est coûteuse et prend du temps, car elle nécessite souvent une annotation manuelle d’une grande quantité de données.
- L’entraînement des modèles d’apprentissage profond est gourmand en calcul, nécessitant généralement du matériel puissant comme les GPU. L’accès à de telles ressources peut être coûteux et limité. Ce défi est particulièrement marqué pour les grands modèles de langage (LLM) comme ChatGPT-4, qui comptent des milliers de milliards de paramètres et nécessitent des coûts d’entraînement dépassant les centaines de millions de dollars.
Pour relever ces défis, nous proposons d’exploiter les données ou modèles existants comme source de connaissances pour nos applications cibles. Grâce à l’apprentissage par transfert, nous visons à adapter efficacement ces connaissances source aux exigences spécifiques de la nouvelle tâche. Par exemple, la Figure 1 illustre deux ensembles de données et tâches très différents. À gauche, nous avons des images de papillons colorés facilement disponibles, tandis qu’à droite, nous avons des données médicales en noir et blanc soumises à des restrictions de confidentialité et à une disponibilité limitée. Malgré ces différences, les deux tâches impliquent de la reconnaissance d’images et partagent des caractéristiques de haut niveau communes, comme les formes et les textures.
Les différents type de transferts
Il existe plusieurs types de différences entre les données sources et cibles (voir [1] pour plus de détails). Ces disparités influencent le choix de la méthode d’apprentissage par transfert appropriée et les besoins en données cibles pour un apprentissage efficace. Nous catégorisons ces différences en trois principaux types :
Décalage a priori : Un décalage d’annotation se produit lorsque la distribution des annotations diffère entre les ensembles de données source et cible. Par exemple, considérons une tâche de classification des patients comme malades ou en bonne santé. Dans un ensemble de données source collecté via des sondages en ligne, seulement 10% des participants ont déclaré être malades. Inversement, dans un ensemble de données cible collecté dans un hôpital, 80% des patients sont malades. Ce déséquilibre dans les proportions d’annotations constitue un décalage a priori.
Décalage covarié : Un décalage covarié se produit lorsque la distribution des données d’entrée diffère entre les domaines source et cible, tandis que la tâche sous-jacente reste inchangée. Par exemple, dans la reconnaissance des émotions faciales, un modèle entraîné sur des images de qualité studio pourrait obtenir des performances médiocres lorsqu’il est évalué sur des photos de smartphones oú des photos faites maison en raison des variations d’éclairage et de fond. Les figures 3 et 4 illustrent deux scénarios de décalage covarié : l’un où les caractéristiques décalées ont un impact significatif sur les prédictions et l’autre où elles sont sans importance.
Décalage de concept : Le décalage de concept fait référence aux changements de la prédiction attendue pour une entrée fixée entre les données source et cible. Cela peut être dû à des facteurs tels que les variations ou le vieillissement des appareils. Par exemple, la puissance de sortie d’une batterie diffère entre son état initial et après 100 cycles d’utilisation, nécessitant des ajustements du modèle en fonction de l’âge de la batterie.
En situations pratiques, les trois types de décalages que nous avons décrits coexistent souvent et interagissent de manière complexe. Bien que nous ayons présenté des scénarios idéalisés de décalage d’annotation, de décalage covarié et de décalage de concept, les données du monde réel présentent souvent des combinaisons de ces difficultés. Par exemple, un ensemble de données d’imagerie médicale peut présenter simultanément un décalage d’annotation dû à des changements de prévalence des maladies et un décalage covarié dû à des variations de l’équipement d’imagerie.
Comprendre ces décalages est crucial pour un apprentissage par transfert efficace. En identifiant le type de décalage dominant, les chercheurs peuvent sélectionner des techniques d’adaptation appropriées, en fonction également du type de données disponibles.
Les différents types de transferts
Souvent, nous disposons de vastes quantités de données ou de modèles sources bien établis. Cependant, les applications cibles sont fréquemment confrontées à une pénurie de données et à des annotations limitées voire inexistantes. Ces différentes situations présentent des défis uniques qui nécessitent des approches d’apprentissage par transfert adaptées.
Transfert supervisé : Lorsque les données cibles sont annotées, une approche simple consiste à affiner le modèle source sur les données cibles. Cette méthode est souvent efficace sur le plan computationnel, en particulier avec des données cibles limitées, et est particulièrement efficace pour l’adaptation face au décalage de concept. Cependant, la quantité de données nécessaire dépend de l’ampleur du décalage entre les données sources et cibles. De plus, un sur-apprentissage lors de l’affinage peut se produire lorsque le ré-entraînement est effectué sur un petit ensemble de données, entraînant une mauvaise généralisation et un oubli [1]. Pour y remédier, des techniques de régularisation peuvent être utilisées pour empêcher un écart excessif par rapport au modèle source, comme illustré par la Figure 6.
Transfert semi-supervisé : Lorsque les données cibles sont seulement partiellement annotées, une approche combinée est souvent utilisée. Cela implique généralement une phase d’apprentissage non supervisée pour extraire des caractéristiques partagées à partir des données sources et cibles. Par la suite, un composant d’apprentissage supervisé est introduit, impliquant souvent la prédiction de pseudo-annotations pour les données cibles non annotées.
Transfert non supervisé : Lorsque les données cibles ne comportent aucune annotation, il n’est pas possible de traiter les décalages de concept et à priori, car ces décalages impliquent un changement de prédictions non encore observées. Sans données annotées ou informations supplémentaires (par exemple, apprentissage informé par des modèles physique), le modèle ne peut pas déterminer les bonnes prédictions.
Le décalage covarié, caractérisé par des changements dans la distribution des entrées sans affecter la tâche de prédiction, peut être partiellement traité à l’aide de méthodes non supervisées. Les décalages covariés impliquant des changements critiques de caractéristiques (comme illustré dans la Figure 3) restent difficiles sans données cibles annotées, car les prédictions en dehors de la plage du domaine source deviennent imprévisibles sans connaissances supplémentaires. Cependant, dans le cas d’un décalage covarié impliquant des caractéristiques non pertinentes (Figure 4), l’alignement de domaine profond est une méthode de transfert efficace. Cette technique vise à aligner les distributions d’entrée des domaines source et cible afin d’obtenir une représentation commune des caractéristiques à partir de laquelle nous effectuons des prédictions :
Example d’applications
La prolifération de vastes ensembles de données et de modèles puissants a entraîné une augmentation des décalages de domaine, où les modèles entraînés sur un ensemble de données ont du mal à obtenir de bons résultats sur un autre. Pour relever ce défi et optimiser l’utilisation des ressources, l’adaptation de domaine est devenue une technique essentielle. Les sources courantes de décalage de domaine comprennent :
- Personnalisation : La nature unique des données individuelles, générées par des appareils tels que les smartphones et autres appareils IoT, rend difficile la création de modèles d’IA universels. Par exemple, la prédiction de texte dépend fortement sur le style d’écriture personnel, nécessitant des modèles personnalisés. Bien que la personnalisation offre des avantages significatifs, un grand nombre de participants et les exigences supplémentaires en matière de confidentialité des données personnelles créent des défis supplémentaires qui sont mieux traités à l’aide de l’apprentissage fédéré [3]. L’adaptation de domaine et l’apprentissage par transfert dans le contexte de l’apprentissage fédéré sont donc un sujet de recherche important.
- Variations géographiques : Des facteurs tels que la localisation influencent considérablement diverses tâches. La prévision météorologique, par exemple, nécessite des modèles localisés en raison des différences géographiques.
- Analyse d’images médicales : Transfert de connaissances de grands ensembles de données d’images naturelles vers des tâches d’imagerie médicale telles que la classification des maladies, la détection d’objets et la segmentation. Dans [4] ils utilisent un grand ensemble de données d’images sources (ImageNet, avec plus de 14 millions d’images) comme ensemble de données source pour ensuite transférer vers leur plus petit ensemble de données médicales.
- Données synthétiques : Parfois, la rareté des données réelles peut être atténuée en créant un grand ensemble de données sources de données synthétiques, puis en transférant ces connaissances vers l’ensemble de données cible réel [5].
Conclusion
Dans le monde d’aujourd’hui, nous sommes entourés de vastes quantités de données. Mais toutes les données ne sont pas égales. Souvent, les informations dont nous avons besoin pour résoudre un problème sont différentes de celles que nous possédons déjà. C’est là qu’interviennent l’apprentissage par transfert et l’adaptation de domaine.
Imaginez apprendre à un enfant à faire du vélo. Une fois qu’il a appris à garder l’équilibre, il peut facilement s’adapter à différents vélos. C’est comme l’apprentissage par transfert : utiliser ce que vous savez déjà pour apprendre quelque chose de nouveau. Mais que se passe-t-il si l’enfant doit apprendre à faire du vélo sur la glace ? C’est là qu’intervient l’adaptation de domaine : ajuster ce que vous savez pour l’adapter à une nouvelle situation. Ces techniques sont essentielles pour créer des technologies intelligentes capables de gérer différentes situations et de s’améliorer au fil du temps.
References
[1] W. M. Kouw, An introduction to domain adaptation and transfer learning, ArXiv abs/1812.11806 (2018). URL https://api.semanticscholar.org/CorpusID:57189554
[2] L. Wang, X. Zhang, H. Su, J. Zhu, A comprehensive survey of continual learning: Theory, method and application, IEEE Transactions on Pattern Analysis and Machine Intelligence 46 (8) (2024) 5362–5383. doi: 10.1109/TPAMI.2024.3367329.
[3] Federated learning: The future of ai without compromising privacy, (2024).
[4] H.-C. Shin, H. R. Roth, M. Gao, L. Lu, Z. Xu, I. Nogues, J. Yao, D. Mollura, R. M. Summers, Deep convolutional neural networks for computer-aided detection: Cnn architectures, dataset characteristics and transfer learning, IEEE Transactions on Medical Imaging 35 (5) (2016) 1285–1298. doi:10.1109/TMI.2016.2528162.
[5] S. Mishra, R. Panda, C. P. Phoo, C.-F. R. Chen, L. Karlinsky, K. Saenko, V. Saligrama, R. S. Feris, Task2sim: Towards effective pre-training and transfer from synthetic data, in: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 9184–9194. doi:10.1109/CVPR52688.2022.00898.
Lectures complémentaires sur le sujet
[6] Fine tune large language model (llm) on a custom dataset with qlora, https://dassum.medium.com/fine-tune-large-language-model-llm-on-a-custom-dataset-with-qlora-fb60abdeba07 (2024).
[7] Awesome-domain-adaptation, https://github.com/zhaoxin94/awesome-domain-adaptation?tab=readme-ov-file#survey (2024).
[8] L. Zhang, X. Gao, Transfer adaptation learning: A decade survey, IEEE Transactions on Neural Networks and Learning Systems 35 (2019) 23–44. URL https://api.semanticscholar.org/CorpusID:75137541
[9] S. J. Pan, Q. Yang, A survey on transfer learning, IEEE Transactions on Knowledge and Data Engineering 22 (10) (2010) 1345–1359. doi:10.1109/TKDE.2009.191.
[10] F. Zhuang, Z. Qi, K. Duan, D. Xi, Y. Zhu, H. Zhu, H. Xiong, Q. He, A comprehensive survey on transfer learning, Proceedings of the IEEE 109 (2019) 43–76. URL https://api.semanticscholar.org/CorpusID:207847753
Note de bas de page
[1] L’oubli est un défi courant dans l’apprentissage continu, où les modèles doivent continuellement s’adapter à de nouveaux petits ensembles de données sans compromettre les performances sur les tâches apprises précédemment (oubli catastrophique). Il s’agit d’une forme de décalage de concept, et les lecteurs peuvent se référer à [2] pour une compréhension plus approfondie de l’apprentissage continu et du compromis entre adaptation et mémorisation.
Laisser un commentaire
Rejoindre la discussion?N’hésitez pas à contribuer !