Mathematics of deep learning : generalization, optimization, continuous-time models - TEL - Thèses en ligne
[go: up one dir, main page]

Thèse Année : 2023
Mathematics of deep learning : generalization, optimization, continuous-time models Mathématiques du deep learning : généralisation, optimisation, modèles en temps continu
1 LPSM (UMR_8001) - Laboratoire de Probabilités, Statistique et Modélisation (Campus Jussieu Tour 16-26, 1er étage 4, Place Jussieu 75005 Paris / Bâtiment Sophie Germain 5ème étage Avenue de France 75013 Paris - France)
"> LPSM (UMR_8001) - Laboratoire de Probabilités, Statistique et Modélisation

Résumé

Deep learning has emerged as a transformative paradigm in the past decade, with major impact in various fields of artificial intelligence. However, the properties of this family of machine learning methods are not yet fully understood. In this PhD thesis, we present contributions, mostly theoretical in nature, to the field of deep learning. We study various families of neural networks (shallow neural networks, residual networks, recurrent networks, Transformer) and various types of mathematical problems, most notably in the fields of statistics (generalization bounds) and optimization (convergence of the gradient flow).A first setting that is of particular interest for us is the large-depth limit of residual networks. It has been remarked that this large-depth limit may correspond to a neural ordinary differential equations. Under appropriate conditions, we show that it is indeed the case, although other limits such as stochastic differential equations can also hold. We investigate optimization and statistical properties of neural networks in this setting. In the second part of the thesis, we move on to prove results on finite-depth neural networks. We prove convergence of gradient flow for shallow neural networks with a moderate number of neurons in a simple setting. Finally, we investigate properties of the more recent Transformer architecture from a more practical point of view.
L'apprentissage profond a largement transformé le paysage de l'apprentissage automatique au cours de la dernière décennie, avec un impact majeur dans divers domaines de l'intelligence artificielle. Cependant, les propriétés des méthodes d'apprentissage profond ne sont pas encore entièrement comprises. Dans cette thèse de doctorat, nous présentons des contributions, principalement d'ordre théorique, dans ce domaine. Nous étudions différentes familles de réseaux neuronaux (réseaux neuronaux à une couche cachée, réseaux résiduels, réseaux récurrents, Transformer) et différents types de problèmes mathématiques, notamment en statistique (bornes de généralisation) et en optimisation (convergence du flot de gradient). Dans un premier temps, nous nous intéressons à la limite en grande profondeur des réseaux résiduels. Il a été remarqué dans la littérature que cette limite en grande profondeur pourrait correspondre à une équation différentielle ordinaire neuronale. Sous des conditions appropriées, nous montrons que c'est effectivement le cas, bien que d'autres objets limites peuvent aussi apparaître, en particulier une équation différentielle stochastique. Nous étudions les propriétés d'optimisation et statistiques des réseaux neuronaux dans ce cadre. Dans la deuxième partie de la thèse, nous nous intéressons à des réseaux neuronaux de profondeur finie. Nous prouvons la convergence du flot de gradient pour des réseaux à une couche cachée avec un nombre modéré de neurones dans un cadre simple. Enfin, nous étudions les propriétés de l'architecture plus récente du Transformer avec une approche plus pratique.
Fichier principal
Vignette du fichier
MARION_Pierre_these_2023.pdf (6.01 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04453458 , version 1 (12-02-2024)
Identifiants
  • HAL Id : tel-04453458 , version 1

Citer

Pierre Marion. Mathematics of deep learning : generalization, optimization, continuous-time models. Statistics [math.ST]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS517⟩. ⟨tel-04453458⟩
406 Consultations
243 Téléchargements

Partager

More