Mathematics of deep learning : generalization, optimization, continuous-time models

Thèse Année : 2023

Mathematics of deep learning : generalization, optimization, continuous-time models Mathématiques du deep learning : généralisation, optimisation, modèles en temps continu

(1)

1 (Campus Jussieu Tour 16-26, 1er étage 4, Place Jussieu 75005 Paris / Bâtiment Sophie Germain 5ème étage Avenue de France 75013 Paris - France) 1004954

SU - Sorbonne Université : UMR_8001 (21 rue de l’École de médecine - 75006 Paris - France) 413221
CNRS - Centre National de la Recherche Scientifique : UMR8001 (France) 441569
UPCité - Université Paris Cité : UMR_8001 (85 boulevard Saint-Germain 75006 Paris - France) 557826

"> LPSM (UMR_8001) - Laboratoire de Probabilités, Statistique et Modélisation

Pierre Marion

Fonction : Auteur
PersonId : 1143321
ORCID : 0000-0002-2325-3962
IdRef : 275628108

Laboratoire de Probabilités, Statistique et Modélisation

Résumé

Deep learning has emerged as a transformative paradigm in the past decade, with major impact in various fields of artificial intelligence. However, the properties of this family of machine learning methods are not yet fully understood. In this PhD thesis, we present contributions, mostly theoretical in nature, to the field of deep learning. We study various families of neural networks (shallow neural networks, residual networks, recurrent networks, Transformer) and various types of mathematical problems, most notably in the fields of statistics (generalization bounds) and optimization (convergence of the gradient flow).A first setting that is of particular interest for us is the large-depth limit of residual networks. It has been remarked that this large-depth limit may correspond to a neural ordinary differential equations. Under appropriate conditions, we show that it is indeed the case, although other limits such as stochastic differential equations can also hold. We investigate optimization and statistical properties of neural networks in this setting. In the second part of the thesis, we move on to prove results on finite-depth neural networks. We prove convergence of gradient flow for shallow neural networks with a moderate number of neurons in a simple setting. Finally, we investigate properties of the more recent Transformer architecture from a more practical point of view.

L'apprentissage profond a largement transformé le paysage de l'apprentissage automatique au cours de la dernière décennie, avec un impact majeur dans divers domaines de l'intelligence artificielle. Cependant, les propriétés des méthodes d'apprentissage profond ne sont pas encore entièrement comprises. Dans cette thèse de doctorat, nous présentons des contributions, principalement d'ordre théorique, dans ce domaine. Nous étudions différentes familles de réseaux neuronaux (réseaux neuronaux à une couche cachée, réseaux résiduels, réseaux récurrents, Transformer) et différents types de problèmes mathématiques, notamment en statistique (bornes de généralisation) et en optimisation (convergence du flot de gradient). Dans un premier temps, nous nous intéressons à la limite en grande profondeur des réseaux résiduels. Il a été remarqué dans la littérature que cette limite en grande profondeur pourrait correspondre à une équation différentielle ordinaire neuronale. Sous des conditions appropriées, nous montrons que c'est effectivement le cas, bien que d'autres objets limites peuvent aussi apparaître, en particulier une équation différentielle stochastique. Nous étudions les propriétés d'optimisation et statistiques des réseaux neuronaux dans ce cadre. Dans la deuxième partie de la thèse, nous nous intéressons à des réseaux neuronaux de profondeur finie. Nous prouvons la convergence du flot de gradient pour des réseaux à une couche cachée avec un nombre modéré de neurones dans un cadre simple. Enfin, nous étudions les propriétés de l'architecture plus récente du Transformer avec une approche plus pratique.

Mots clés

Machine learning Neural networks Statistics Differential equations Optimization

Apprentissage automatique Réseaux de neurones Statistique Équations différentielles Optimisation

Domaines

Statistiques [math.ST] Machine Learning [stat.ML]

Fichier principal

MARION_Pierre_these_2023.pdf (6.01 Mo)

Origine	Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-04453458

Soumis le : lundi 12 février 2024-16:14:06

Dernière modification le : jeudi 28 novembre 2024-03:29:38

Archivage à long terme le : lundi 13 mai 2024-19:53:23

Dates et versions

tel-04453458 , version 1 (12-02-2024)

Identifiants

HAL Id : tel-04453458 , version 1

Citer

Pierre Marion. Mathematics of deep learning : generalization, optimization, continuous-time models. Statistics [math.ST]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS517⟩. ⟨tel-04453458⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INSMI STAR LPSM SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES UP-SCIENCES THESES-UNC

406 Consultations

243 Téléchargements