\documentclass[XUPS,XML,SOM,Unicode,francais, NoFloatCountersInSection]{cedram}
\setcounter{tocdepth}{2}

\usepackage{../xups24}
\graphicspath{{xups24-06_figures}}
\usepackage{tikz-cd}

\DeclareMathOperator*{\argmax}{argmax}
\DeclareMathOperator{\argmin}{argmin}
\DeclareMathOperator{\rang}{rang}
\DeclareMathOperator{\rd}{d\!}
\DeclareMathOperator{\signe}{signe}
\let\ra\rightarrow

%\XUPScorrections

\begin{document}
\frontmatter
\title{Applications en\nobreakspace apprentissage\nobreakspace automatique}

\author{\firstname{Mathieu} \lastname{Carrière}}
\address{DataShape team, Centre Inria d'Université Côte d'Azur}
\email{mathieu.carriere@inria.fr}
\urladdr{https://www-sop.inria.fr/members/Mathieu.Carriere}

%\thanks{Journées X-UPS 2024. Introduction à l'analyse de données. Éditions de l'École polytechnique, 2024}

\begin{abstract}
La principale application de la théorie de la persistance est en analyse de données, où les diagrammes de persistance sont utilisés pour construire et améliorer des modèles prédictifs calibrés à partir d'un ensemble fini de données. Dans ce texte, nous formalisons les bases de l'apprentissage automatique supervisé et non-supervisé, ainsi que les différentes approches permettant l'incorporation des diagrammes de persistance dans les modèles standards via les méthodes à noyaux.
\end{abstract}

\maketitle
\vspace*{-\baselineskip}
\tableofcontents
\mainmatter

Dans ce texte, nous allons étudier les applications de la théorie de la persistance en apprentissage automatique supervisé.
Nous avons déjà vu dans le texte~\cite{sec-stabilite} que le théorème de stabilité
pouvait directement permettre l'utilisation des diagrammes de persistance en inférence géométrique et statistique. Nous allons maintenant
aborder les problématiques qui apparaissent en analyse de données lorsque l'on désire utiliser les diagrammes de persistance pour la
construction de modèles prédictifs. Nous commencerons donc par rappeler quelques généralités de l'apprentissage automatique pour les
modèles prédictifs en section~\ref{subsec:gen-ml}. Nous étudierons ensuite quelques représentations classiques de l'analyse topologique
de données en section~\ref{subsec:expl-tda}, et nous présenterons un noyau gaussien dédié aux diagrammes de persistance en
section~\ref{subsec:impl-tda}, dont nous prouverons quelques propriétés métriques.

\begin{remarque}
Comme pour le texte~\cite{sec-stabilite}, nous nous restreignons dans ce texte à $T=\R$, $\mathbb K=\Z/2\Z$, et aux diagrammes de persistance de $\dgspace$,
c'est-à-dire de cardinaux finis et dont les coordonnées des points sont finies.
\end{remarque}

\section{Bases de l'apprentissage automatique supervisé}
\label{subsec:gen-ml}

Un \emph{modèle prédictif} est une fonction paramétrée $\hf_\theta:\R^d\to Y$, $\theta\in\R^N$,
où $N\in\N^*$ désigne le nombre de paramètres du modèle, et~$Y$ est l'espace des prédictions. Parmi les exemples les plus
standards, on peut considérer le cas de la \emph{régression}, dans lequel on cherche à prédire les valeurs d'une fonction (inconnue)
$f$ à valeurs réelles, et celui de la \emph{classification}, dans lequel $Y=\{\ell_1,\dots,\ell_C\}$ contient $C$ catégories
non nécessairement comparables entre elles (comme par exemple $Y=\{\text{homme},\,\text{femme}\}$).
Dans un souci de simplification, dans la suite de ce texte, nous identifierons les catégories avec leurs indices (arbitraires) $\{1,\dots,C\}$.

Pour construire de tels modèles, le paradigme de \emph{l'apprentissage automatique supervisé} consiste à chercher les modèles qui s'approchent
le plus des bonnes prédictions sur des données
\[
\data_n = \{(x_1,y_1),\dots,(x_n,y_n)\}\subset \R^d\times Y
\]
qui ont déjà été observées, appelées
\emph{données d'entraînement}. Formellement, ceci revient à résoudre
le problème d'optimisation suivant:
\begin{equation}
\label{eq:optim}
\theta^\star=\underset{\theta\in\Theta}\argmin \frac{1}{n}\sum_{i=1}^n L(\theta, x_i, y_i),
\end{equation}
où $\Theta\subseteq\R^N$ constitue l'ensemble des paramètres,
et
\[
L:\Theta\times X\times Y\to\R
\]
s'appelle la \emph{fonction de perte}.

\subsubsection*{Modèles linéaires}
Un \emph{modèle linéaire} est défini comme une fonction de la forme $\hf_\theta(x)=\langle\theta,\tilde x\rangle$, où $\tilde x = [1,x_1,\dots,x_d]^T$ (et le nombre de paramètres $N$ vaut donc $d+1$). Par exemple, dans le cadre de la régression linéaire classique via \emph{la méthode des moindres carrés}, on~combine un modèle linéaire avec
fonction de perte égale à la différence au carré entre la prédiction du modèle et la valeur observée: $L(\theta, x_i,y_i) = (\hf_\theta(x_i)-y_i)^2$.
La solution de ce cas de figure est connue, et on peut montrer que:
\[
\theta^\star=(\Xn^T\Xn)^{-1}\Xn^T \Yn,
\]
où $\Xn\in\R^{n\times d}$ est la matrice dont les lignes correspondent aux $x_i$, et~$\Yn:= [y_1,\dots,y_n]^T$.

Dans le cadre de la classification binaire, c'est-à-dire à deux catégories $c_1,c_2$, un modèle linéaire courant est le modèle de \emph{régression logistique}
(qui, malgré son nom, est bien un modèle de classification !), qui classe les points en modélisant leurs probabilités d'appartenance à l'une des catégories. Plus formellement,
pour un point $x$ dont la catégorie $y$ est inconnue, on a:
\[
\begin{aligned}
\hf_\theta(x)&:= \argmax \{{\mathbb P}(y=c_1|x,\theta),{\mathbb P}(y=c_2|x,\theta)\} \\
&\phantom{:}= \argmax \Bigl\{\frac{1}{1-\exp(-\langle\theta,\tilde x\rangle)}, 1-\frac{1}{1-\exp(-\langle\theta,\tilde x\rangle)}\Bigr\}.
\end{aligned}
\]
Dans ce cas, et comme précédemment, $\theta^\star$ peut être calculé explici\-tement en utilisant comme fonction de perte l'opposé de la log-vrai\-semblance du modèle sur les données d'entraînement
$L(\theta,x_i,y_i):=-\log({\mathbb P}(y=y_i|x_i,\theta))$.

\subsubsection*{Machines à support de vecteurs} Un autre paradigme de classification binaire standard à partir d'un modèle linéaire consiste, plutôt que
de modéliser une probabilité d'appartenance, à simplement classer les points en fonction de leur position vis-à-vis d'un hyperplan:
\[
\hf_\theta(x) = \signe(\langle \theta,\tilde x\rangle),
\]
où, pour cette méthode uniquement, on utilisera $-1$ et $+1$ pour désigner les deux catégories.
On peut ainsi chercher à optimiser la perte $L(\theta, x_i, y_i) = 1-y_i\hf_\theta(x_i)$.
En outre, pour des données linéairement séparables,
il existe plusieurs hyperplans possibles qui réalisent une perte nulle sur les données d'entraînement. Ainsi, et pour des raisons
de robustesse, on préférera un hyperplan dont les \emph{marges}, c'est-à-dire les plus petites distances des points d'entraînement à l'hyperplan,
sont élevées. Voir la figure~\ref{fig:modeles}. Ceci permet de transformer le problème général (\ref{eq:optim}) en un problème d'optimisation quadratique via quelques manipulations
simples (sur ce point, voir par exemple~\cite[\S 17.3.1]{Murphy2022}), dont on peut
trouver des solutions via un solveur numérique. Lorsque les données ne sont pas linéairement séparables, on peut soit résoudre une relaxation du problème
d'optimisation quadratique en autorisant les marges à être négatives (et en les pénalisant si c'est le cas), ou utiliser des méthodes à noyaux (voir la section~\ref{subsec:impl-tda} ci-dessous).

Nous allons maintenant présenter quelques-uns des modèles non-linéaires les plus fréquents pour la classification (dans la plupart des cas, ces modèles
s'adaptent de manière évidente à la régression).

\subsubsection*{Modèle des plus proches voisins} Un des modèles non-linéaires les plus simples est le modèle des plus proches voisins.
Soit $k\in \N^*$. Le \emph{modèle de classification à $k$ voisins} est le modèle suivant:
\[
\hf^{\data_n}_\theta(x) = \argmax_{1\leq c\leq C}\card(\{(x_i,y_i)\in \data_n\mid y_i=c\text{ et }x_i\in \mathcal N_k(x)\}),
\]
où $\theta=\{k\}$ et $\mathcal N_k(x)$ désignent les $k$ plus proches voisins de $x$ parmi les données observées. Ce modèle consiste donc
simplement, pour prédire la catégorie d'un point $x$, à choisir la catégorie la plus fréquente, ou catégorie majoritaire, parmi les $k$ plus proches voisins de $x$.
Voir la figure~\ref{fig:modeles}. Ce modèle ne dispose que du para\-mè\-tre $k\in\N^*$, dont la valeur optimale $k^\star$ peut s'obtenir par $K$-\emph{validation croisée}, c'est-à-dire
en partitionnant les données d'entraînement en $K$ sous-ensembles $\data_1,\dots,\data_K$ (si possible de même taille),
et en choisissant un $k^\star$
qui mini\-mise la fonction de perte
$L(\theta,x_i,y_i)= \delta\{\hf\,{}^{\data_{-{j_i}}}_\theta(x_i)=y_i\},$
où~$j_i$ dési\-gne l'indice du sous-ensemble qui contient $(x_i,y_i)$, $\data_{-{j_i}}:=\data_n\setminus\nobreak \data_{j_i}$, et $\delta\{A\}=1$ si $A$ est vraie, $\delta\{A\}=0$ sinon.
La raison pour laquelle on évalue le modèle via des sous-ensembles est que $\hf^{\data_n}_\theta(x_i)=y_i$ par définition; il est donc impossible de prévoir
le comportement de $\hf^{\data_n}_\theta$ si on l'évalue sur les données observées (car la perte sera toujours nulle, un problème que l'on appelle de manière plus générale le \emph{sur-apprentissage}),
on préfère à la place étudier ses propriétés de généralisation
via des évaluations de \og sous-modèles\fg, c'est-à-dire des instances du modèle qui n'ont pu observer que certains sous-ensembles, et non pas l'intégralité des données d'entraînement.

\subsubsection*{Forêts aléatoires}
Un autre modèle non-linéaire standard de classification consiste à agréger des modèles simples basés sur des arbres. Un modèle d'arbre de classification
peut se définir comme:\vspace*{-3pt}
\[
\hf_\theta(x) = \sum_{j=1}^J \theta_j \delta\{x\in R_j\},
\]
où $\theta=\{(\theta_j,R_j)\}_{1\leq j\leq J}$, $J\in\N^*$, et chaque $R_j$ correspond à une région rectangulaire de $\R^d$ de la forme\vspace*{-3pt}
\[
R_j=\{x\in\R^d\mid \alpha^j_1\leq x_{(1)}\leq \beta^j_1,\dots, \alpha^j_d\leq x_{(d)}\leq \beta^j_d\},
\]
qui peut s'interpréter comme le noeud d'un arbre binaire $A$ de partitionnement de $\R^d$.
Voir la figure~\ref{fig:modeles}.
Les paramètres $\theta_j$ d'un arbre~$A$ sont en général des valeurs réelles pour les arbres de régression, et des catégories pour les arbres de classification, et peuvent être optimisés
(ainsi que les seuils $\alpha^j, \beta^j$)
sur les données d'entraînement en augmentant la taille de l'arbre de manière itérative pour minimiser la perte $L(\theta,x_i,y_i)= \delta\{f_\theta(x_i)=y_i\}$ (voir par exemple la méthode CART).
En pratique, les modèles d'arbre sont assez sensibles aux perturbations et généralisent mal, ce pourquoi on préfère construire des modèles ensemblistes:\vspace*{-3pt}
\[
\hf_\theta(x) = \argmax_{1\leq c\leq C}\card(\{A\in\mathcal A\mid f_{\theta_A}(x)=c\}),
\]
où $\theta=\mathcal A$ est une famille finie d'arbres (chaque arbre $A$ ayant pour paramètres $\theta_A$) entraînés sur des sous-échantillons des données d'entraînement (pour éviter le sur-apprentissage).

\begin{figure}[htb]
\centering
\includegraphics[width=.99\textwidth]{exemple-modeles}
\caption{\label{fig:modeles} Exemples de modèles de classification, et de leurs prédictions sur un point de test (désigné par une croix).
\emph{(Gauche, haut)} Machines à support de vecteurs de marge faible (rouge) ou élevée (bleu).
\emph{(Gauche, bas)} Modèle de classification à six voisins.
\emph{(Droite, haut)} Modèle de réseau de neurones complètement connecté à quatre couches, pour lequel les données sont envoyées sur le segment $x+y\!=\!1$, $x,y\!\geq\! 0$ du plan, et classées en fonction de leurs positions vis-à-vis
du milieu du segment (en rouge).
\emph{(Droite, bas)} Modèle d'arbre de classification, et~chemin emprunté par le point de test dans l'arbre pour la \hbox{prédiction}.
}
\vspace*{-.8\baselineskip}
\end{figure}

\subsubsection*{Réseaux de neurones}
Enfin, une vaste famille de modèles, qui compte parmi les plus utilisées actuellement, est la famille constituée des \emph{réseaux de neurones}.
Un modèle de réseau de neurones (aussi parfois appelé une \emph{architecture} de réseau) est un modèle de la forme:
\[
\hf_\theta(x)=\hf_{W_J,b_J,\sigma_J}\circ\dots\circ \hf_{W_1,b_1,\sigma_1},
\]
où $\theta=\{(W_j,b_j,\sigma_j)\}_{1\leq j\leq J}$, $J\in\N^*$, et chaque fonction $\hf_{W_j,b_j,\sigma_j}$, appelée \emph{couche du réseau} de taille $\ell_j\in\N^*$, est définie par:\vspace*{-3pt}
\[
\hf_{W_j,b_j,\sigma_j}(x)=\sigma_j(W_j x + b_j),
\]
où
$W_j\in\R^{\ell_j\times \ell_{j-1}}$ est une \emph{matrice de poids}, $b_j\in \R^{\ell_j}$ est un \emph{biais}, et $\sigma_j$ est une \emph{fonction d'activation} non-linéaire (comme par exemple une fonction
sigmoïde, une fonction ReLU $\sigma_j(x)=\max\, \{0,x\}$, etc.). Remarquons que $\ell_0=d$ est la dimension des données, et que la taille de la dernière couche $\ell_M$ vaut $1$ pour la régression,
et $C$ (le~nombre de catégories) pour la classification, auquel cas on ajoute traditionnellement un argmax à la prédiction du \hbox{modèle} (renormalisée de telle \hbox{manière} que ses coordonnées soient positives
et de somme égale à~$1$) pour déterminer la catégorie.
Cette architecture est appelée un \hbox{modèle} \emph{complètement connecté} de réseau, et beaucoup d'autres architec\-tures sont aujourd'hui disponibles. Les paramètres optimaux
$W_j^\star, b_j^\star$ sont en général obtenus par descente de gradient (même s'il n'existe pas de garantie générale de trouver un minimum global, ces modèles étant non convexes)
en minimisant, pour la classification, une perte appelée \emph{entropie croisée}:\vspace*{-3pt}
\[
L(\theta, x_i,y_i)=-\sum_{c=1}^C \hf_\theta(x_i)_{(c)}\log(\mathrm{OH}(y_i)_{(c)}),
\]
où OH
désigne une représentation \emph{one-hot} de $y_i$, c'est-à-dire un vecteur de taille $C$ dont toutes les coordonnées sont nulles à l'exception de la coordonnée $y_i$ qui vaut $1$. Pour la régression,
on utilise généralement la perte des moindres carrés.
Notons finalement que les tailles ainsi que le nombre de couches sont des hyper-paramètres que l'on peut aussi optimiser par validation croisée.

Une dernière remarque importante: il est très fréquent de rajouter un terme $\Omega(\theta)$ au problème général (\ref{eq:optim}). En effet, si les paramètres du modèle ne sont
pas contraints, on arrive souvent à des effets de sur-apprentissage, en particulier quand le nombre de paramètres $N$ est supérieur au nombre de points $n$.
Ces termes sont appelés \emph{termes de régularisation}, et correspondent souvent à la norme 1 ou 2 de $\theta$ (vu comme un vecteur de $\R^N$).

\section{Quelques représentations finies classiques des diagram\-mes de persistance}
\label{subsec:expl-tda}

Repassons maintenant dans le cadre des diagrammes de persistance, et supposons que l'on veuille appliquer
des modèles prédictifs sur des diagrammes de persistance munis de catégories différentes. Voir par exemple
la figure~\ref{fig:3dshapes} pour un exemple d'application, où l'on désire assigner des catégories à différents
points de formes 3D. Pour éviter de dépendre du plongement de la forme, il n'est pas désirable d'utiliser
directement les coordonnées des points des formes, mais plutôt d'utiliser des descripteurs \emph{intrinsèques}.
Les diagrammes de persistance en font partie, lorsqu'ils sont obtenus par exemple en filtrant les formes 3D
via des boules géodésiques: pour chaque point de la forme, une boule géodésique centrée sur le point va changer de
topologie en grossissant, ce que l'on peut capturer avec l'homologie persistante, et d'une manière qui ne dépend pas du
plongement des formes.

\begin{figure}[htb]
\centering
\includegraphics[width=0.9\textwidth]{3dshapes}
\caption{\label{fig:3dshapes} Exemple de modèle prédictif
pour la segmentation de formes 3D bâti sur des diagrammes de persistance.
À partir de filtrations issues de boules géodésiques grandissantes (\emph{haut, milieu}), on peut
calculer des descripteurs des points sous la forme de diagrammes de persistance, et les utiliser
pour prédire les catégories de points via un modèle prédictif
optimisé sur des diagrammes d'entraînement (\emph{bas}).}
\end{figure}

Il apparaît clairement des modèles prédictifs présentés dans la section précédente qu'un prérequis pour leur utilisation est que les données
soient des vecteurs euclidiens: tous ces modèles font en effet usage des coordonnées des points de données pour bâtir leurs prédictions.
Ceci pose un problème pour les diagrammes de persistance, car ils n'ont pas de coordonnées bien définies. Plus généralement,
il~n'existe pas de notion de somme, moyenne ou produit scalaire pour les diagrammes, et donc les modèles précédents ne peuvent
pas s'appliquer. Pour remédier à cela, une partie de la littérature de l'analyse topologique de données est consacrée à la définition
de \emph{représentations} des diagrammes de persistance, c'est-à-dire à la définition de transformations explicites $\Phi:\dgspace\to\R^d$, où
$d\in\N^*$.

Un soin particulier est de plus apporté aux représentations qui \emph{préservent la stabilité}, c'est-à-dire aux représentations pour lesquelles:
\[
\|\Phi(D)-\Phi(D')\|_p\leq K d_q(D,D'),
\]
où $1\leq p,q \leq +\infty$ et $K$ est une constante strictement positive. En~\hbox{effet}, pour $q=+\infty$ et en vertu du théorème de stabilité entre diagrammes de persistance, toute représentation préservant la stabilité satisfera $\|\Phi(D(f))-\Phi(D(g))\|_p\leq K\|f-g\|_\infty$, et sera donc elle-même une représentation stable des données. Dans la suite, nous présentons trois des représentations finies les plus courantes de l'analyse topologique de données.

\subsubsection*{Distances à la diagonale}
Une manière simple mais efficace de représenter les diagrammes consiste simplement à trier les distances à la diagonale.

\begin{definition}
Soit $D\in\dgspace$. La \emph{suite diagonale} $u^D$ associée à $D$ est définie par:
\[
u^D_k=k\max\,\{\|p-\pi_\Delta(p)\|_\infty\mid p\in D\},
\]
où $k\max$ désigne le $k$-ème maximum d'un ensemble, et avec la convention que $u^D_k=0$ pour $k>\card(D)$.
\end{definition}

En pratique, pour un jeu de données de diagrammes de persistance $D_1,\dots,D_n$, on tronque les suites à un certain seuil prédéfini $T\in\N^*$,
que l'on prend souvent égal à $\max\,\{\card(D_i)\mid 1\leq i\leq n\}$. Appelons $u^{D_i,T}$ les suites tronquées, considérées comme des vecteurs de $\R^T$.

\begin{proposition}
Pour tout $D,D'\in\dgspace$, on a:
\[
\|u^{D,T}-u^{D',T}\|_\infty\leq 2\bottleneckd(D,D').
\]
\end{proposition}

\begin{proof}
Considérons d'abord le cas des suites non tronquées, et utilisons l'ordre de $u^D$ pour fixer un ordre sur $D$:
\[
D=\{p_k\mid 1\leq k\leq \card(D)\}\text{ tel que }u^D_k=\|p_k-\pi_\Delta(p_k)\|_\infty.
\]
On va maintenant construire une suite $\tilde u^{D'}$ à partir de cet ordre.
Soit~$\corr$ une correspondance partielle entre $D$ et $D'$ qui réalise $\bottleneckd(D,D')$.

Supposons $\card(D)\leq\card(D')$.
Soit $k\in\N^*$, tel que $k\leq\card(D)$.
Si il existe $p'\in D'$ tel que $(p_k,p')\in \corr$, on définit $\gamma(p_k)=p'$.
Si ce n'est pas le cas (c'est-à-dire si $p_k$ est apparié avec la diagonale), on~définit $\gamma(p_k)$ comme
un des points de $D'$ aussi apparié à la diagonale, et choisi de telle manière que $\gamma$ soit injective.
On définit ensuite
\[
\tilde u^{D'}_k:=\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty.
\]
Pour $\card(D)\leq k\leq\card(D')$, on utilise les distances à la diagonale des $\card(D')-\card(D)$ points restants
de $D'$ (ordonnés de manière arbitraire) pour remplir les entrées de $\tilde u^{D'}$, et enfin pour $k>\card(D')$ on définit $\tilde u^{D'}_k=0$.
La construction de $\tilde u^{D'}$ pour $\card(D)>\card(D')$ est similaire, à savoir qu'on utilise les distances à la diagonale des points de $D'$ obtenus
en appliquant $\gamma$ sur les $\card(D')$ premiers points de $D$, et qu'on complète ensuite la suite avec des valeurs nulles.
La~suite $\tilde u^{D'}$ est donc une permutation des entrées de $u^{D'}$.

Soit $k\in\N^*$. Pour étudier $|u^D_k-\tilde u^{D'}_k|$, trois cas sont possibles.
\begin{itemize}
\item Soit
\[
|u^D_k-\tilde u^{D'}_k|=|\|p_k-\pi_\Delta(p_k)\|_\infty-\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty|
\]
avec $(p_k,\gamma(p_k))\in M$.
Alors, on a (par l'inégalité triangulaire):
\[
\begin{aligned}
\|p_k-\pi_\Delta(p_k)\|_\infty & -\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty \\
& \leq \|p_k-\gamma(p_k)\|_\infty+\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty \\
&\  +\|\pi_\Delta(\gamma(p_k))-\pi_\Delta(p_k)\|_\infty-\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty \\
& = \|p_k-\gamma(p_k)\|_\infty+\|\pi_\Delta(\gamma(p_k))-\pi_\Delta(p_k)\|_\infty \\
& \leq 2\|p_k-\gamma(p_k)\|_\infty \\
&\leq 2\bottleneckd(D,D').
\end{aligned}
\]
Par symétrie, on obtient finalement $|u^D_k-\tilde u^{D'}_k|\leq 2\bottleneckd(D,D')$.

\item Soit
\[
|u^D_k-\tilde u^{D'}_k|=|\|p_k-\pi_\Delta(p_k)\|_\infty-\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty|
\]
avec $p_k$ et $\gamma(p_k)$ tous les deux appariés à la diagonale.
Alors on a:\vspace*{-5pt}
\begin{multline*}
|\|p_k-\pi_\Delta(p_k)\|_\infty-\|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty|\\
\leq \|p_k-\pi_\Delta(p_k)\|_\infty + \|\gamma(p_k)-\pi_\Delta(\gamma(p_k))\|_\infty\leq 2\bottleneckd(D,D').
\end{multline*}
\item Soit $u^D_k=0$ ou $\tilde u^{D'}_k=0$. La démonstration du point ci-dessus peut s'utiliser de nouveau pour prouver
\[
|u^D_k-\tilde u^{D'}_k|\leq\bottleneckd(D,D')\leq 2\bottleneckd(D,D').
\]

Ainsi, on a $\|u^D-\tilde u^{D'}\|_\infty\leq 2\bottleneckd(D,D')$. Le résultat final s'obtient en remarquant que trier les entrées d'une suite est une opération lipschitzienne (exercice laissé au lecteur):
\[
\|u^{D,T}-u^{D',T}\|_\infty\leq\|u^D-u^{D'}\|_\infty\leq \|u^D-\tilde u^{D'}\|_\infty\leq 2\bottleneckd(D,D').\qedhere
\]
\end{itemize}
\end{proof}

Voir la figure~\ref{fig:representations}.
On peut aussi compléter ces suites avec les distances calculées entre les différents points du diagramme, en plus des
distances à la diagonale. Voir~\cite{Carriere2015} pour une étude de cette représentation.

Il est cependant clair que caractériser un diagramme par les distances de ses points à la diagonale, et/ou les distances internes entre ses points,
n'est pas une représentation injective: on peut très facilement construire des diagrammes différents dont les représentations correspondantes
sont égales (il suffit par exemple de translater les points le long de la diagonale).

\subsubsection*{Images de persistance}
Une autre possibilité plus discriminante que la représentation précédente, introduite par~\cite{Adams2017}, consiste simplement à transformer les diagrammes de persistance en fonctions intégrables,
en convoluant les points des diagrammes avec des gaussiennes pondérées.

\begin{definition}
Soit $D\in\dgspace$. \emph{La surface de persistance} $I\rho(D;w,\sigma)$ de paramètres $w:\R^2\to\R$ et $\sigma >0$, associée à $D$, est la fonction suivante:\vspace*{-3pt}
\[
\rho(D;w,\sigma):
\begin{cases}
\begin{aligned}
\R^2 & \to \R \\
x & \mto \sum_{p\in D} w(\tilde p)\cdot \frac{1}{2\pi\sigma^2}\exp\bigl(-\sfrac{\|x-\tilde p\|_2^2}{2\sigma^2}\bigr),
\end{aligned}
\end{cases}
\]
où $\tilde p = (p_x,p_y-p_x)$ (de telle manière que la diagonale devienne l'axe des abscisses).
\end{definition}

En pratique, pour éviter d'avoir à gérer les fonctions elles-mêmes, on préfère souvent \og pixeliser\fg ces fonctions,
en les intégrant sur les cases d'une grille placée sur le plan:

\begin{definition}
Soit $D\in\dgspace$. Soit\vspace*{-3pt}
\[
G=\{g_{i,j}= [a_i,a_{i+1}]\times[b_j,b_{j+1}] \mid a_1\leq\dots\leq a_{p+1}, b_1\leq\dots\leq b_{q+1}\}
\]
une grille de taille $p\times q$, $p,q\in\N^*$.
\emph{L'image de persistance} $I(D;w,\sigma)\in\R^{pq}$ de paramètres $w:\R^2\to\R$ et $\sigma >0$, associée à $D$, est le vecteur dont les coordonnées sont données par\vspace*{-3pt}\enlargethispage{\baselineskip}
\[
I(D;w,\sigma)_{(g_{i,j})} = \int_{a_i}^{a_{i+1}} \int_{b_j}^{b_{j+1}} \rho(D;w,\sigma)(x)\rd x.
\]
\end{definition}

Voir la figure~\ref{fig:representations}.
La fenêtre $\sigma$ et la fonction de poids $w$ sont laissés au choix de l'utilisateur, et peuvent être optimisés comme des hyper-paramètres (car en tant que tels ils ne
dépendent pas des données d'entraînement), donc par exemple par validation croisée. On~peut démontrer que l'image de persistance est stable vis-à-vis de la distance de
Wasserstein $d_1$ d'ordre 1 entre les diagrammes de persistance, pour des fonctions de poids bien choisies.

\begin{proposition}
Soit $w$ une fonction de poids telle que $w(\tilde p)=0$ pour tout point $\tilde p$ tel que $\tilde p_y =0$ (c'est-à-dire tel que $p$ soit sur la diagonale).
Pour tout $D,D'\in\dgspace$, on a:\vspace*{-3pt}
\begin{align*}
\|I(D;w,\sigma)-I(D';w,\sigma)\|_1&\leq\|\rho(D;w,\sigma)-\rho(D';w,\sigma)\|_1\\
&\leq K d_1(D,D'),\\[-3pt]
\tag*{où}
K&=\Bigl(\sup_u \|\nabla w(u)\| + \sqrt{\sfrac{2}{\pi}}\;\frac{\|w\|_\infty}{\sigma}\Bigr).
\end{align*}
\end{proposition}

\begin{proof}
La première inégalité est une conséquence directe de\vspace*{-3pt}
\[
\|I\|_1=\sum\Bigl|\iint \rho\Bigr|\leq \sum\iint|\rho|=\|\rho\|_1.
\]
Prouvons donc le résultat pour les surfaces de persistance.
La preuve est basée sur le lemme suivant, dont la preuve est laissée en exercice au lecteur (voir~\cite[Lem.\,8]{Adams2017}):
\begin{lemme}[admis]
\label{lem:gauss}
Soit $p,p'\in\R^2$. Alors:\vspace*{-10pt}
\begin{multline*}
\Bigl\|w(p)\cdot \frac{1}{2\pi\sigma^2}\exp\left(-\sfrac{\|\cdot-p\|_2^2}{2\sigma^2}\right)\\
-w(p')\cdot \frac{1}{2\pi\sigma^2}\exp\left(-\sfrac{\|\cdot-p'\|_2^2}{2\sigma^2}\right)\Bigr\|_1 \\
\leq \Bigl(\sup_u \|\nabla w(u)\| + \sqrt{\sfrac{2}{\pi}}\,\frac{\|w\|_\infty}{\sigma}\Bigr)\|p-p'\|_2.
\end{multline*}
\end{lemme}

Soit $\corr$ une correspondance partielle qui réalise $d_1(D,D')$.
Soit $\mathcal N_{\tilde p,\sigma}:=\frac{1}{2\pi\sigma^2}\exp\left(-\sfrac{\|\cdot-\tilde p\|_2^2}{2\sigma^2}\right)$.
Alors, on a:
\begin{align*}
\| \rho(D;w,\sigma)& -\rho(D';w,\sigma)\|_1
 \leq \Bigl\|\sum_{(p,p')\in \corr}w(\tilde p)\cdot \mathcal N_{\tilde p,\sigma}-w(\tilde p')\cdot \mathcal N_{\tilde p',\sigma}\Bigr\|_1 \\
& + \Bigl\|\sum_{p\in D\setminus\im(\pi_1)}w(\tilde p)\cdot \mathcal N_{\tilde p,\sigma}\Bigr\|_1 + \Bigl\|\sum_{p'\in D'\setminus\im(\pi_2)}w(\tilde p)\cdot \mathcal N_{\tilde p',\sigma}\Bigr\|_1 \\
& \leq \sum_{(p,p')\in \corr}\left\|w(\tilde p)\cdot \mathcal N_{\tilde p,\sigma}-w(\tilde p')\cdot \mathcal N_{\tilde p',\sigma}\right\|_1 \\
& + \sum_{p\in D\setminus\im(\pi_1)}\left\|w(\tilde p)\cdot \mathcal N_{\tilde p,\sigma}-w(\tilde \pi_\Delta(p))\cdot \mathcal N_{\tilde \pi_\Delta(p),\sigma}\right\|_1 \\
& + \sum_{p'\in D'\setminus\im(\pi_2)} \left\|w(\tilde p)\cdot \mathcal N_{\tilde p',\sigma}-w(\tilde \pi_\Delta(p'))\cdot \mathcal N_{\tilde \pi_\Delta(p'),\sigma}\right\|_1 \\
\intertext{car $\tilde\pi_\Delta(p):=(\pi_\Delta(p)_x, \pi_\Delta(p)_y-\pi_\Delta(p)_x)=(\pi_\Delta(p)_x,0)$}
\intertext{et donc $w(\tilde\pi_\Delta(p)) = 0$ (et pareillement pour $\tilde\pi_\Delta(p')$),}
& \leq \underbrace{\Bigl(\sup_u \|\nabla w(u)\| + \sqrt{\sfrac{2}{\pi}}\;\frac{\|w\|_\infty}{\sigma}\Bigr)}_{=K}\biggl(\sum_{(p,p')\in \corr}\|\tilde p-\tilde p'\|_2 \\
& +\sum_{p\in D\setminus\im(\pi_1)}\|\tilde p-\tilde\pi_\Delta(p)\|_2 +
\sum_{p'\in D'\setminus\im(\pi_2)}\|\tilde p'-\tilde\pi_\Delta(p')\|_2\biggr) \\
\intertext{ d'après le lemme~\ref{lem:gauss},}
& \leq \sqrt{5}K d_1(D,D')\quad \text{ car }\|\tilde p\|_2\leq \sqrt{5}\|p\|_\infty.\qedhere
\end{align*}
\end{proof}

On peut généraliser la construction des surfaces et images de persistance à d'autres fonctions que des gaussiennes, ainsi qu'à d'autres fonctions de poids,
mais il est possible de montrer que préserver la stabilité impose d'utiliser des fonctions de poids qui tendent vers zéro pour des points qui tendent vers
l'axe des abscisses (qui, on le rappelle, correspond à la diagonale des diagrammes de persistance). Sur ce point, voir~\cite{Divol2020}.

\subsubsection*{Paysages de persistance} Enfin, une dernière construction très usu\-elle, due à~\cite{Bubenik2015}, peut se définir au niveau des modules de persistance.

\begin{definition}
Soit $M=\{\{M_t\}_{t\in\R},\{m_{t,t'}\}_{t\leq t'\in\R}\}$ un module de persistance indexé sur $\R$.
Soit $t < t'$. On appelle $\beta^{t,t'}(M):=\rang(m_{t,t'})=\dim(\Im(m_{t,t'}))$ le \emph{nombre de Betti persistant} entre~$t$ et~$t'$.
Le \emph{$k$-ème paysage} (\emph{landscape} en anglais) de $M$, pour $k\in\N^*$, est la fonction:
\[
\lambda_k^M:
\begin{cases}
\begin{aligned}
\R & \to\R \\
t & \mto \sup\,\{s>0\mid \beta^{t-s,t+s}(M)\geq k\}
\end{aligned}
\end{cases}
\]
\end{definition}

On peut en réalité démontrer que ces fonctions paysage peuvent se définir au niveau des diagrammes de persistance eux-mêmes,
comme les maxima de fonctions tente définies sur les points des diagrammes de persistance.

\begin{exercice}
\label{exo:landscape}
Soit $M$ un module de persistance pdf, et soit $D$ son diagramme de persistance. Montrer que:
\[
\lambda_k^M(t)=k\max\, \{\Lambda_p(t)\mid p\in D\},
\]
où
\[
\Lambda_p(t)=
\begin{cases}
0& \text{si $t\leq p_x$ ou $t\geq p_y$},\\
t-p_x& \text{si $p_x\leq t\leq \dfrac{p_x+p_y}{2}$},\\
p_y-t& \text{si $\dfrac{p_x+p_y}{2}\leq t\leq p_y$}.
\end{cases}
\]
\end{exercice}

L'intérêt de la définition des paysages de persistance via les nombres de Betti persistants est qu'elle
simplifie considérablement la preuve de la stabilité des paysages.

\begin{proposition}
Soient
\[
M=\{\{M_t\}_{t\in\R},\{m_{t,t'}\}_{t\leq t'\in\R}\}\quand M'=\{\{M'_t\}_{t\in\R},\{m'_{t,t'}\}_{t\leq t'\in\R}\}
\]
deux modules de persistance pdf indexés sur $\R$, et soient $D,D'$ leurs diagrammes de persistance.
Soit $k\in\N^*$. Alors, on a:
\[
\|\lambda_k^M-\lambda_k^{M'}\|_\infty\leq\bottleneckd(D,D').
\]
\end{proposition}

\begin{proof}
Soit $t\in\R$ et $\eps=\bottleneckd(D,D')=\interleavingd(M,M')$. Supposons que $\lambda_k^M(t) \geq \eps$, et soit $s>0$ tel que $\lambda_k^M(t) \geq s \geq \eps$.
Alors, il existe des familles d'applications linéaires $\{\phi_t\}_t, \{\psi_t\}_t$ telles que l'on a le diagramme commutatif suivant:
\[
\begin{tikzcd}
& M'_{t-s+\eps} \arrow[rr, "m'_{t-s+\eps, t+s-\eps}"] & & M'_{t+s-\eps}\arrow[rd, "\psi_{t+s}"] & \\
M_{t-s}\arrow[ru, "\phi_{t-s}"]\arrow[rrrr, "m_{t-s, t+s}"] & & & & M_{t+s}
\end{tikzcd}
\]
Ainsi, on obtient $\beta^{t-s+\eps,t+s-\eps}(M') \geq \beta^{t-s,t+s}(M)\geq k$. D'où l'on déduit $\lambda_k^{M'}(t)\geq s-\eps$ pour tout $s$,
et donc $\lambda_k^{M'}(t)\geq \lambda_k^{M}(t)-\eps$. Si~$\lambda_k^M(t) < \eps$, on a trivialement $\lambda_k^{M'}(t)\geq 0 > \lambda_k^{M}(t)-\eps$.
L'argument étant symétrique en $M$ et $M'$, on obtient le résultat désiré.
\end{proof}

Voir la figure~\ref{fig:representations}. Enfin, de la même manière que pour les images de persistance, il est possible de définir les \emph{silhouettes de persistance}
en sommant les fonctions tente (voir exercice~\ref{exo:landscape}), pondérées de telle manière à préserver la stabilité. Il est en outre possible
de prouver des résultats de convergence statistique particuliers au moyen de ces représentations, voir sur ce point~\cite{Chazal2015}.

\begin{figure}[htb]
\centering
\includegraphics[width=0.9\textwidth]{representations}
\caption{\label{fig:representations} Exemples des représentations classiques présentées dans ce texte. Pour un diagramme de persistance donné (\emph{bas, gauche}),
on peut stocker la liste de ses distances à la diagonale triée (\emph{haut, gauche}), les fonctions linéaires par morceaux de son paysage de persistance et sa silhouette (\emph{haut, droite}),
et son image de persistance (\emph{bas, droite}). }
\end{figure}

De manière générale, bien que les paysages, silhouettes et images de persistance contiennent plus d'information que la suite des distances triées, ces
représentations ont leurs propres faiblesses: les paysages sont très redondants (en particulier lorsqu'on les stocke comme des vecteurs en les échantillonnant le long
de l'axe des abscisses), et les images sont très creuses, ce qui force à les combiner avec des modèles prédictifs capables de gérer ces propriétés.

\section{Méthodes à noyaux pour les diagrammes de persistance}
\label{subsec:impl-tda}
Une autre limitation évidente des représentations de diagrammes mentionnées en section~\ref{subsec:expl-tda}, mais aussi plus généralement des modèles présentés en section~\ref{subsec:gen-ml},
est leur restriction aux modèles \emph{finis}, c'est-à-dire entièrement caractérisés par un nombre fini de paramètres. Cette limitation est particulièrement remarquable pour les machines
à support de vecteurs par exemple, au sens où il est très simple de construire des données non linéairement séparables. En~ce qui concerne les diagrammes de persistance, l'ensemble
de ces diagrammes, même lorsque l'on se restreint à ceux dont le cardinal est borné supérieurement, est connu pour être de dimension infinie, ainsi que pour sa courbure négative (voir~\cite{Turner2014}).
Il est donc peu probable que des représentations ou des modèles de dimension finie permettent de capturer l'intégralité des propriétés des diagrammes. Il existe toutefois une classe de modèles non-linéaires
que nous n'avons pas encore abordée, et qui permet justement de manipuler des représentations de dimension infinie, les \emph{méthodes à noyaux}, dont nous allons maintenant présenter les bases.

\subsubsection*{Bases des méthodes à noyaux}
L'idée fondamentale des méthodes à noyaux est de représenter les points de données par des vecteurs \hbox{vivant} dans des espaces de Hilbert bien spécifiques, les \emph{espaces à noyau
reproduisant} (ENR).

\begin{definition}
Soit $X$ un ensemble de données (non nécessairement euclidiennes). Un ENR $\enr$ sur $X$ est un espace de Hilbert de fonctions $\enr=\{f:X\to\R\}$ telles que les
\emph{fonctionnelles d'évaluation}
\[
\{F_x:\enr\ra\R\mid x\in X\},
\]
définies par $F_x(f)=f(x)$, soient toutes des fonctions continues vis-à-vis de la distance induite par la norme $\|\cdot\|_\enr$.
\end{definition}

Cette définition permet de définir simplement des représentations dans $\enr$ pour tout point de $X$; en effet, par le théorème de représentation de Riesz, il s'ensuit de la continuité
des $F_x$ que l'on peut associer un vecteur $\Phi_\enr(x)\in\enr$ à chaque $x\in X$ tel que $F_x(f)=\langle f,\Phi_\enr(x)\rangle_\enr$.

Ne reste donc plus qu'à construire de tels ENR. Un résultat central de Moore et Aronszajn permet de caractériser les ENR via des \emph{noyaux}.

\begin{definition}
Un noyau sur $X$ est une fonction $K:X\times X\to\R$ telle que, pour toute famille finie $x_1,\dots,x_n$, $n\in\N^*$, la matrice de Gram
$\{\{K(x_i,x_j)\}\}_{i,j}$ soit définie positive.
\end{definition}

\begin{theoreme}[admis]
Un espace de Hilbert $\enr$ est un ENR sur $X$ si et seulement si il existe un noyau $K$ tel que $\Phi_\enr(x)=K(x,\cdot)$.
\end{theoreme}

Il suffit donc de définir un noyau sur $X$ pour définir (implicitement) un ENR sur $X$ et des représentations associées. De plus, le \emph{théorème du représentant}
assure que l'on peut résoudre le problème général (\ref{eq:optim}) en n'ayant accès qu'à la matrice de Gram.

\begin{theoreme}[représentant]
Soit $\enr$ un ENR sur $X$. Alors les solutions (si elles existent) de\vspace*{-3pt}
\[
f^\star=\argmin_{f\in\enr} \frac{1}{n} L(f,\Phi_\enr(x_i),y_i) + \Omega(\|f\|_\enr),
\]
où $\Omega:\enr\to\R_+$ est une fonction croissante de la norme $\|\cdot\|_\enr$,
peuvent s'écrire sous la forme $f^\star=\sum_{i=1}^n \alpha_i \Phi_\enr(x_i)=\sum_{i=1}^n \alpha_i K(x_i,\cdot)$.
\end{theoreme}

\begin{proof} Soit $f\in\enr$.
Commençons par décomposer $f$ comme la somme de sa projection sur le sous-espace $\enr_n$ engendré par les $\Phi_\enr(x_j)$ et un terme orthogonal,
on obtient\vspace*{-3pt}
\[
f=\pi_{\enr_n}(f)+f^\perp=\sum_{j=1}^n \alpha_j\Phi_\enr(x_j) + f^{\perp},
\]
avec
$\langle \Phi_\enr(x_j),f^\perp\rangle_\enr = 0$ pour tout $x_j$. Il en résulte que, pour tout point $x_i$:\vspace*{-3pt}
\begin{align*}
f(x_i) & = \sum_{j=1}^n \alpha_j\Phi_\enr(x_j)(x_i) + f^{\perp}(x_i) \\
& = \sum_{j=1}^n \alpha_j \langle \Phi_\enr(x_j), \Phi_\enr(x_i)\rangle_\enr + \langle f^{\perp}, \Phi_\enr(x_i)\rangle_\enr = \sum_{j=1}^n \alpha_j K(x_j, x_i)
\end{align*}
et donc en définitive, on obtient que\vspace*{-3pt}
\[
L(f,\Phi_\enr(x_i),y_i)=L(\pi_{\enr_n}(f),\Phi_\enr(x_i),y_i)= L(\{\alpha_j\}_{1\leq j\leq n},\Phi_\enr(x_i),y_i).
\]
En ce qui concerne le terme de régularisation, il est clair que $\Omega(\|f\|_\enr)\geq \Omega(\|\pi_{\enr_n}(f)\|_\enr)=\Omega(\sum_i\sum_j\alpha_i\alpha_j K(x_i,x_j))$
par monotonicité de $\Omega$. Finalement, on peut donc décroître la valeur de la fonction objectif pour tout $f$ en mettant le terme
$f^\perp$ à zéro, d'où le résultat.
\end{proof}

Par exemple, si l'on reprend les machines à support de vecteurs, où le but est de trouver un hyperplan optimal dans $\enr$ séparant les données (représentées par
$\Phi_\enr$), et caractérisé par un vecteur normal $f^\star\in\enr$, le théorème du représentant permet d'affirmer que $f^\star$ s'écrit comme une combinaison
linéaire des $K(x_i,\cdot)$ dont il reste à trouver les coefficients $\alpha_1^\star,\dots,\alpha_n^\star$. Pour ce faire, il s'ensuit du théorème
qu'il est suffisant de ne connaître l'évaluation de $f^\star$ que sur les données d'entraînement,
et donc de ne connaître que la matrice de Gram.

De nombreuses méthodes existent pour construire des noyaux, et l'une des plus fréquentes repose sur un résultat qui permet de construire des noyaux gaussiens généraux.

\begin{theoreme}[admis]
Soit $X$ un ensemble de données muni d'une pseudo-distance $d:X\times X\to \R_+$.
La fonction
\[
K_\sigma:(x,x')\mto \exp\left(-\sfrac{d(x,x')}{\sigma}\right)
\]
est un noyau sur $X$ pour tout $\sigma > 0$ si et seulement si $d$ est \emph{conditionnellement semi-définie négative} (CSDN), c'est-à-dire que
\[
\sum_{i=1}^n \sum_{j=1}^n \alpha_i\alpha_j d(x_i,x_j) \leq 0
\]
pour toute famille finie de points $x_1,\dots,x_n$ et toute famille finie de coefficients $\alpha_1,\dots,\alpha_n$, $n\in\N^*$, tels que $\sum_{i=1}^n \alpha_i=0$.
\end{theoreme}

\begin{exercice}
\label{ex:csdn}
Montrer, dans le cas où $X=\R^d$, que $d(x,x')=\|x-x'\|^2_2$ est CSDN (on pourra utiliser $\|x-x'\|^2_2=\langle x-x',x-x'\rangle$),
ainsi que $d(x,x')=\|x-x'\|_1$. On pourra utiliser
\[
|x_{(i)}-x'_{(i)}|=x_{(i)}+x'_{(i)}-2\min\,\{x_{(i)},x'_{(i)}\}.
\]
\end{exercice}

\subsubsection*{Un noyau gaussien pour les diagrammes de persistance}
Malheureusement, on peut facilement générer des contre-exemples qui montrent que les distances de Wasserstein,
ainsi que la distance du goulot de bouteille, ne sont pas CSDN (exercice laissé au lecteur). On ne peut donc pas s'en servir pour créer des noyaux gaussiens.
En revanche, il est beaucoup plus pratique de manipuler ces distances lorsqu'on projette les points sur des droites, ce qui
est le principe de la \emph{distance de Wasserstein en tranches}.

\begin{definition}
Soient $D,D'\in\dgspace$.
On définit
\[
\tilde D = D\cup \{\pi_\Delta(p')\mid p'\in D'\}\quand \tilde D' = D'\cup \{\pi_\Delta(p)\mid p\in D\}.
\]
Pour tout $\alpha\in[-\pi/2,\pi/2]$, on définit $u^{\tilde D}_\alpha$ comme le vecteur trié des projections $\{\langle p,e_\alpha\rangle\mid p\in\tilde D\}$, où
$e_\alpha=(\cos(\alpha),\sin(\alpha))$ désigne le vecteur unitaire d'angle $\alpha$.
La \emph{distance de Wasserstein en tranches} (\emph{sliced Wasserstein distance} en anglais) entre $D$ et $D'$ est définie par:
\[
\sw(D,D')=\frac 1\pi \int_{-\pi/2}^{\pi/2} \|u^{\tilde D}_\alpha-u^{\tilde D'}_\alpha\|_1\rd\alpha.
\]
Remarquons que cette distance est bien définie car $u^{\tilde D}_\alpha$ et $u^{\tilde D'}_\alpha$ sont des vecteurs de même taille (égale à $\card(D)+\card(D')$).
\end{definition}

La raison pour laquelle on préfère manipuler cette distance est qu'on peut montrer qu'elle est CSDN (et donc que l'on peut servir
pour créer des noyaux), mais aussi qu'elle se relie facilement à la distance de Wasserstein d'ordre 1 entre diagrammes.

\begin{proposition}[admis]
La distance $\sw:\dgspace\times\dgspace\to\R_+$ est CSDN. La fonction $k_{SW,\sigma}:\dgspace\times\dgspace\to\R$ définie par:
\[
k_{SW,\sigma}(D,D')=\exp\left(-\sw(D,D')/\sigma\right)
\]
est donc un noyau gaussien pour les diagrammes de persistance pour tout $\sigma >0$.
\end{proposition}

La preuve de cette proposition est basée sur deux idées principales: d'une part, la norme 1 est CSDN (voir exercice~\ref{ex:csdn}),
et, d'autre part, pour un ensemble fini de diagrammes de persistance, la dépendance de $u^{\tilde D}_\alpha$ à l'égard de $D'$
(qui est en soi une obstruction à une conclusion directe via la norme 1, car les vecteurs $u^{\tilde D}_\alpha$ et $u^{\tilde D'}_\alpha$
ont des tailles qui varient en fonction de la paire de diagrammes considérés) peut être résolue en ajoutant à tout diagramme de l'ensemble
les projections sur la diagonale de tous les autres, et en formulant la norme 1 comme la solution d'un problème de transport optimal entre les
deux vecteurs, vus comme des mesures unidimensionnelles discrètes. Voir~\cite{Carriere2017b}.

Finalement, une propriété remarquable de la distance de Wasserstein en tranches est qu'elle est \emph{équivalente}, c'est-à-dire non seulement stable, mais aussi
\emph{discriminante}, vis-à-vis de la distance de Wasserstein d'ordre 1.

\begin{theoreme}\label{th:sw-stab}
Soient $D,D'\in\dgspace$ deux diagrammes de persistance de cardinal borné par $N$, $N\in\N^*$.
Alors, on a:
\[
\frac{d_1(D,D')}{2M}\leq \sw(D,D')\leq 2\sqrt{2}d_1(D,D'),
\]
où $M=1+2N(2N-1)$.
\end{theoreme}

\begin{proof}
Appelons $\gamma_\alpha$ la bijection entre $\tilde D$ et $\tilde D'$ induite par les vecteurs triés $u^{\tilde D}_\alpha$ et $u^{\tilde D'}_\alpha$.
Appelons de plus $\gamma$ la bijection entre $\tilde D$ et $\tilde D'$ qui réalise $d_1(D,D')$.

\subsubsection*{Borne supérieure} Soit $\alpha\in[-\pi/2,\pi/2]$. Rappelons que $\|e_\alpha\|_2=1$. On a:
\begin{align*}
\|u^{\tilde D}_\alpha -u^{\tilde D'}_\alpha\|_1 &=\sum_{p\in\tilde D} |\langle p-\gamma_\alpha(p),e_\alpha\rangle|\\
&\leq\sum_{p\in\tilde D} |\langle p-\gamma(p),e_\alpha\rangle|\leq\sqrt{2}\sum_{p\in\tilde D}\|p-\gamma(p)\|_\infty\\
&\leq 2\sqrt{2} d_1(D,D').
\end{align*}
La borne supérieure s'ensuit par linéarité.

\subsubsection*{Borne inférieure} L'idée est d'utiliser le fait que $\gamma_\alpha$ est une fonction constante par morceaux de $\alpha$, et
qu'elle a au plus $2+2N(2N-1)$ valeurs critiques $\alpha_0,\dots,\alpha_M$ dans $[-\sfrac\pi2, \sfrac\pi2]$. En effet, ces valeurs sont obtenues en prenant les angles $\alpha$ tels que
$\langle p_1-p_2,e_\alpha\rangle =0$ pour toutes les paires $p_1,p_2$ de $\tilde D$ ou $\tilde D'$.
Alors, pour une paire d'angles critiques consécutifs, on a:
\begin{align*}
\int_{\alpha_i}^{\alpha_{i+1}}\sum_{p\in\tilde D} |\langle p&-\gamma_\alpha(p),e_\alpha\rangle|\rd\alpha\\[-10pt]
& =\sum_{p\in\tilde D}\|p-\gamma_{\alpha_i}(p)\|_2\int_{\alpha_i}^{\alpha_{i+1}}|\cos(\angle(p-\gamma_{\alpha_i}(p),e_\alpha))|\rd\alpha\\
&\geq \sum_{p\in\tilde D}\|p-\gamma_{\alpha_i}(p)\|_2(\alpha_{i+1}-\alpha_i)^2/2\pi\\
& \geq (\alpha_{i+1}-\alpha_i)^2 d_1(D,D')/2\pi,
\end{align*}
où l'inégalité utilisée pour borner inférieurement l'intégrale du cosinus provient de la concavité du cosinus.
La borne inférieure désirée résulte finalement de l'inégalité de Cauchy-Schwarz.
\end{proof}

\backmatter
\bibliographystyle{jepalpha+eid}
\bibliography{xups24-06}
\end{document}
