Convention de sommation d'Einstein

En mathématiques et plus spécialement dans les applications de l'algèbre linéaire en physique, la convention de sommation d'Einstein ou notation d'Einstein est un raccourci de notation utile pour la manipulation des équations concernant des coordonnées.

Selon cette convention, quand l'indice d'une variable apparaît deux fois dans un terme, on sous-entend la sommation sur toutes les valeurs que peut prendre cet indice. Cet indice est dit muet. On le fait figurer une fois en position supérieure (grandeur ou indice contravariant), une fois en position inférieure (grandeur ou indice covariant).

Un indice non muet est dit indice réel et ne peut apparaître qu'une seule fois dans le terme en question. Généralement, ces indices sont 1, 2 et 3 pour les calculs dans l'espace euclidien ou 0, 1, 2 et 3 ou 1, 2, 3 et 4 pour les calculs dans un espace de Minkowski, mais ils peuvent avoir d'autres valeurs ou même, dans certaines applications, représenter un ensemble infini. En dimension 3,

y=x^{i}e_{i}\,

signifie donc

y=\sum _{i=1}^{3}x^{i}e_{i}=x^{1}e_{1}+x^{2}e_{2}+x^{3}e_{3}

En relativité générale, l'alphabet latin et l'alphabet grec sont respectivement utilisés pour distinguer si la somme porte sur 1, 2 et 3 ou 0, 1, 2, et 3. Par exemple les indices i, j, … sont utilisés pour 1, 2, 3 et $μ$ , $ν$ , pour 0, 1, 2, 3.

Lorsque les indices se rapportent à des tenseurs, comme en relativité générale, les indices muets doivent apparaître une fois en haut et une fois en bas ; dans d'autres applications une telle distinction n'existe pas^[a].

Une notation apparentée est la notation en indice abstrait.

Définitions

Traditionnellement, on s'intéresse à un espace vectoriel V de dimension finie n et une base sur V dont les vecteurs sont notés $\mathbf {e} _{1},\mathbf {e} _{2},\dots ,\mathbf {e} _{n}$ . Dans ce cas, un vecteur $\mathbf {v}$ dans V possède une représentation dans cette base qui s'exprime à l'aide de coordonnées notées $v^{1},v^{2},\dots ,v^{n}$ , ceci conformément à la relation suivante, dite règle de base :

\mathbf {v} =\sum _{i=1}^{n}v^{i}\mathbf {e} _{i}

Avec la convention de sommation d'Einstein, elle s'écrit simplement

\mathbf {v} =v^{i}\mathbf {e} _{i}

Dans cette expression, on sous-entend que le terme de droite est additionné pour toutes les valeurs de i allant de 1 à n, car l'indice i apparaît deux fois.

L'indice i est dit muet car le résultat n'en dépend pas. Par exemple, pour exprimer la même chose on pourrait aussi écrire :

\mathbf {v} =v^{k}\mathbf {e} _{k}

Dans les contextes dans lesquels l'indice doit apparaître une fois en bas et une fois en haut, les vecteurs de base s'écrivent $\mathbf {e} _{i}$ mais les coordonnées s'écrivent $v^{i}$ . La règle de base s'écrit alors :

\mathbf {v} =v^{i}\mathbf {e} _{i}

.

L'intérêt de la notation d'Einstein est qu'elle s'applique à d'autres espaces vectoriels construits à partir de V en utilisant le produit tensoriel et la dualité. Par exemple, $V\otimes V$ , le produit tensoriel de V par lui-même, a une base constituée de tenseurs de la forme $\mathbf {e} _{ij}=\mathbf {e} _{i}\otimes \mathbf {e} _{j}$ . Tout tenseur T dans $V\otimes V$ peut s'écrire :

T=T^{ij}\mathbf {e} _{ij}

.

V*, le dual de V, a une base $\mathbf {e} ^{1\ast },\mathbf {e} ^{2\ast },\dots ,\mathbf {e} ^{n\ast }$ , dite base duale de la base $\mathbf {e} _{1},\mathbf {e} _{2},\dots ,\mathbf {e} _{n}$ , définie par la règle :

\mathbf {e} ^{i\ast }(\mathbf {e} _{j})=\delta _{j}^{i}

où $\delta _{j}^{i}$ est le symbole de Kronecker : $\delta _{j}^{i}$ vaut 1 si i = j et 0 sinon.

Ici nous avons utilisé un indice supérieur pour la base duale, les indices des coordonnées doivent alors apparaître en bas. Dans ce cas, si $\mathbf {L}$ est un élément de V*, alors :

\mathbf {L} =L_{i}\mathbf {e} ^{i}

Si au contraire, tous les indices doivent être placés en bas, alors une lettre différente doit être utilisée pour désigner la base duale. Par exemple :

\mathbf {d} _{i}=\mathbf {e} ^{i}

L'utilité de la notation d'Einstein apparaît surtout dans les formules et les équations qui ne font pas mention de la base choisie. Par exemple, avec $\mathbf {L}$ et $\mathbf {v}$ défini comme plus haut :

\mathbf {L} \cdot \mathbf {v} =L_{i}v^{i}

.

Ceci est vrai pour toutes les bases.

Les sections suivantes contiennent d'autres exemples de telles équations.

Algèbre vectorielle élémentaire et algèbre matricielle

Soit V un espace vectoriel dans $\mathbb {R} ^{n}$ , alors il existe une base standard pour V dans laquelle $\mathbf {e} _{i}$ est (0,…,0,1,0,…,0), avec le 1 à la position i. Dans ce cas, les matrices n × n peuvent être vues comme des éléments de $V^{*}\otimes V$ . On peut aussi considérer les vecteurs dans V comme des vecteurs colonnes ou comme des matrices n × 1 et les éléments de V* comme des vecteurs rangées ou des matrices 1 × n.

Dans les exemples qui suivent, tous les indices apparaîtront en position haute. C'est parce que V a un produit interne et que la base choisie est orthonormale, comme cela est expliqué dans la section suivante.

Si H est une matrice et v est un vecteur colonne, alors H v est un autre vecteur colonne. Pour définir w = H v, on peut écrire:

w^{i}=H_{j}^{i}v^{j}\,

L'indice muet j apparaît deux fois dans le terme de droite, tandis que i apparaît une seule fois dans chaque terme.

En utilisant la distributivité, $H(\mathbf {u} +\mathbf {v} )=H\mathbf {u} +H\mathbf {v}$ peut s'écrire:

H_{j}^{i}(u^{j}+v^{j})=H_{j}^{i}u^{j}+H_{j}^{i}v^{j}\,

Cet exemple montre la preuve de la loi de distributivité, car l'équation des indices ne fait que directement référence aux nombres réels $H_{j}^{i}$ , $u^{j}$ et $v^{j}$ et sa validité découle directement de celle de la distributivité de ces nombres.

La transposée d'un vecteur colonne est un vecteur ligne avec les mêmes composantes et la transposée d'une matrice est une autre matrice dont les composantes sont données en inversant les indices. Supposons que nous sommes intéressés par $w$ , le produit de $^{t}v$ par $^{t}H$ . Alors:

w_{i}=v_{j}H_{i}^{j}\,

Donc pour exprimer que la transposée d'un produit inverse l'ordre de la multiplication, nous pouvons écrire:

H_{j}^{i}v^{j}=v_{j}H_{i}^{j}\,

À nouveau, ceci découle directement de la commutativité des nombres réels.

Le produit scalaire de deux vecteurs u et v peut s'écrire:

u\cdot v=u_{i}v^{i}\,

Si n = 3, nous pouvons aussi écrire le produit vectoriel en utilisant le symbole de Levi-Civita. Par exemple, si w est u × 'v, alors:

w^{i}=\epsilon _{jk}^{i}u^{j}v^{k}\,

Ici le symbole de Levi-Civita $\epsilon _{ijk}$ est le tenseur totalement anti-symétrique tel que $\epsilon _{123}=1$ . Concrètement :

$\epsilon _{ijk}=1$ si (i,j,k) est une permutation paire de (1,2,3) ;
$\epsilon _{ijk}=-1$ si (i,j,k) est une permutation impaire de (1,2,3) ;
$\epsilon _{ijk}=0$ si (i,j,k) n'est pas une permutation de (1,2,3) (s'il y a deux fois le même indice).

Exemple

Article détaillé : Identités vectorielles.

Soit à démontrer l'identité vectorielle suivante :

\mathbf {a} \times (\mathbf {b} \times \mathbf {c} )=(\mathbf {a} \cdot \mathbf {c} )\mathbf {b} -(\mathbf {a} \cdot \mathbf {b} )\mathbf {c}

Avec a b et c des vecteurs quelconques. En notation d'Einstein, on a :

\left(\mathbf {a} \times (\mathbf {b} \times \mathbf {c} )\right)_{i}={\epsilon _{i}}^{jk}a_{j}{\epsilon _{k}}^{lm}b_{l}c_{m}

En réarrangeant les termes et en permutant les indices, on obtient l'expression équivalente suivante :

{{{\epsilon }^{k}}_{i}}^{j}{\epsilon _{k}}^{lm}a_{j}b_{l}c_{m}={\delta _{i}}^{l}{\delta ^{jm}}a_{j}b_{l}c_{m}-{\delta _{i}}^{m}{\delta ^{jl}}a_{j}b_{l}c_{m}

En utilisant les propriétés du symbole de Levi-Civita. On a alors en réorganisant et en simplifiant les termes :

b_{i}a^{m}c_{m}-a_{j}b^{j}c_{i}=(\mathbf {a} \cdot \mathbf {c} )b_{i}-(\mathbf {a} \cdot \mathbf {b} )c_{i}

On a donc finalement :

$\left(\mathbf {a} \times (\mathbf {b} \times \mathbf {c} )\right)_{i}=(\mathbf {a} \cdot \mathbf {c} )b_{i}-(\mathbf {a} \cdot \mathbf {b} )c_{i}$

En explicitant l'indice i, on retrouve l'identité.

Cas sans produit interne

Dans les exemples ci-dessus, l'on peut remarquer que les formules sont toujours valides si les indices muets sont présents une fois comme indice supérieur et une fois comme indice inférieur, sauf dans l'exemple concernant la transposée. C'est parce que ces exemples utilisent implicitement le produit interne dans un espace euclidien (produit scalaire) alors que l'exemple avec le transposée ne le fait pas.

Dans certaines applications, il n'y a pas de produit interne sur V. Dans ces cas, requérir que les indices muets doivent apparaître une fois en haut et une fois en bas peut aider à éviter des erreurs, un peu comme l'analyse dimensionnelle permet d'éviter les erreurs d'unités. Plus significativement, le produit interne peut être l'objet principal de l'étude et ne devrait pas être supprimé de la notation ; c'est le cas, par exemple, des équations de la relativité générale. Dans ces cas, la différence entre la position d'un indice peut-être cruciale.

Quand on se réfère explicitement au produit interne, ces composantes sont souvent notées : $g_{ij}$ (cfr. tenseur métrique). On notera que $g_{ij}=g_{ji}$ . La formule pour le produit scalaire devient alors :

\mathbf {u} \cdot \mathbf {v} =g_{ij}u^{i}v^{j}

On peut aussi abaisser l'indice en définissant :

u_{i}=g_{ij}u^{j}\,

,

ce qui donne:

\mathbf {u} \cdot \mathbf {v} =u_{i}v^{i}

Ici, nous avons implicitement utilisé le fait que $g_{ij}=g_{ji}$ .

De façon similaire, nous pouvons élever un indice en utilisant le produit interne correspondant sur V*. Le produit interne est alors défini par $g^{ij}$ , qui en tant que matrice est l'inverse de $g_{ij}$ . En élevant un indice puis en l'abaissant (ou le contraire), on retrouve ce que l'on avait au départ. En élevant le i dans $g_{ij}$ , alors on obtient $d_{j}^{i}$ et en élevant le j dans $d_{j}^{i}$ on obtient $g^{ij}$ .

Si la base choisie pour V est orthonormale, alors $g_{ij}=g^{ij}$ et $u_{i}=u^{i}$ . Dans ce cas, on retrouve la formule pour le produit scalaire de la section précédente. Mais si la base n'est pas orthonormale, cela ne sera plus vrai. Ainsi, en étudiant le produit interne sans pouvoir savoir si la base est orthonormale, il faut se référer explicitement à $g_{ij}$ . De plus, si le produit interne n'est pas défini-positif, comme c'est le cas en relativité générale, $g_{ij}=d_{ji}$ ne sera pas vrai même si la base est orthonormale car on aura parfois -1 au lieu de 1 quand i = j.

Application

En informatique, la sommation d'Einstein permet d'effectuer certaines opérations matricielles de façon très efficace en réduisant le besoin en mémoire de stockage temporaire. Elle est notamment implantée dans la fonction "einsum" de NumPy^[2] qui permet par exemple d'implanter le calcul d'une matrice de Fock en trois lignes de code plutôt que 4 boucles imbriquées^[3].

Notes et références

Notes

↑ Einstein a commencé à utiliser sa convention de sommation avec uniquement des indices en position inférieure, puis il a inventé la convention des indices inférieurs et supérieurs pour distinguer les indices covariants et contravariants, restreignant alors sa convention à la sommation sur deux indices de positions différentes^[1].

Références

↑ (en) Leonard Susskind et André Cabannes, General Relativity. The Theoretical Minimum, New York, Basic Books, janvier 2023, 373 p. (ISBN 9781541601772 et 9781541601796), p. 34-36.
↑ (en) « Numpy.einsum - NumPy v1.24 Manual », sur scipy.org (consulté le 15 juin 2023).
↑ « github.com/dgasmith/psi4numpy/… »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)}. Nouveau lien non brisé : https://github.com/dgasmith/psi4numpy/blob/master/Tutorials/03_Hartree-Fock/3a_restricted-hartree-fock.ipynb (voir dans le bloc de code In [10] les trois lignes qui suivent # Build Fock matrix)

Portail de la physique

[2] Einstein a commencé à utiliser sa convention de sommation avec uniquement des indices en position inférieure, puis il a inventé la convention des indices inférieurs et supérieurs pour distinguer les indices covariants et contravariants, restreignant alors sa convention à la sommation sur deux indices de positions différentes^[1].

[1] (en) Leonard Susskind et André Cabannes, General Relativity. The Theoretical Minimum, New York, Basic Books, janvier 2023, 373 p. (ISBN 9781541601772 et 9781541601796), p. 34-36.

[3] (en) « Numpy.einsum - NumPy v1.24 Manual », sur scipy.org (consulté le 15 juin 2023).

[4] « github.com/dgasmith/psi4numpy/… »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)}. Nouveau lien non brisé : https://github.com/dgasmith/psi4numpy/blob/master/Tutorials/03_Hartree-Fock/3a_restricted-hartree-fock.ipynb (voir dans le bloc de code In [10] les trois lignes qui suivent # Build Fock matrix)

[a]

[2]

[3]

[1]