\documentclass[XUPS,XML,SOM,Unicode,francais, NoFloatCountersInSection, NoEqCountersInSection]{cedram}

\makeatletter
\def\article@logo{}
\def\enddoc@text{}
\makeatother

\def\CDRdoi{10.5802/xups.2024-00}

\newcommand{\R}{\mathbb{R}}

\begin{document}
\frontmatter
\title{Analyse topologique de données. Préface des éditeurs et introduction par les auteurs}

\author[\initial{P.} \lastname{Harinck}]{\firstname{Pascale} \lastname{Harinck}}
\address{CMLS, CNRS, École polytechnique, Institut Polytechnique de Paris, 91128 Palaiseau cedex, France}

\author[\initial{A.} \lastname{Plagne}]{\firstname{Alain} \lastname{Plagne}}
\address{CMLS, CNRS, École polytechnique, Institut Polytechnique de Paris, 91128 Palaiseau cedex, France}

\author[\initial{C.} \lastname{Sabbah}]{\firstname{Claude} \lastname{Sabbah}}
\address{CMLS, CNRS, École polytechnique, Institut Polytechnique de Paris, 91128 Palaiseau cedex, France}

\renewcommand{\baselinestretch}{1.1}\normalfont

\chapterspace{-2}
\chapter*{Préface}

Les outils issus de la topologie ont récemment eu un impact sur l'analyse de données. L'un des développements est l'homologie persistante. Supposons que l'on dispose de données sous la forme d'un nuage de points, c'est-à-dire d'un ensemble de points. Si cet ensemble a été échantillonné à partir d'un objet, on aimerait utiliser ce nuage pour déduire les propriétés de l'objet. L'homologie persistante applique les outils de la topologie algébrique à cette fin. On la retrouve notamment dans de nouvelles classes de descripteurs pour les données, utilisées en apprentissage automatique. Les textes de ces journées forment un tout, en introduisant différentes facettes de ce type de questions.

Dans un texte introductif \cite{chap-intro}, \emph{Steve Oudot} donne des éléments de contexte sur l'analyse topologique de données et son développement. Puis, de manière informelle, il présente les idées qui sous-tendent la théorie de la persistance topologique, qui rassemble les fondements mathématiques du domaine.

La théorie de l'homologie associe à tout espace topologique des groupes, de telle sorte que si deux espaces sont homéomorphes alors les groupes associés sont isomorphes. Cette théorie est un outil central de topologie dont l'introduction remonte à Poincaré et dont les applications sont innombrables. Ces groupes jouent aussi un rôle clé en analyse topologique des données, ce qui nous est expliqué par \emph{Vincent Humilière} \cite{chap-homologie}.

\emph{Steve Oudot} utilise l'homologie dans le 
texte \cite{chap-pers-1} pour introduire la théorie de la persistance topologique, notamment dans ses aspects algébriques.

Dans le texte \cite{sec-stabilite}, \emph{Mathieu Carrière} étudie différentes réper\-cus\-sions du théorème de stabilité en analyse de données et en inférence géométrique et statistique. Celui-ci garantit que des diagrammes de persistance issus des sous-niveaux de fonctions proches en norme infinie, sont eux-mêmes proches au sens de la distance \og du~goulot de bouteille\fg. 

De manière surprenante, les idées issues de l'analyse topologique de données, et la théorie de la persistance en particulier, ont eu des applications très récentes en mathématiques fondamentales. \emph{Vincent Humilière} en explique deux dans le texte \cite{sec-appli-geometrie}.

Enfin, dans le texte \cite{sec-appli-IA}, \emph{Mathieu Carrière} formalise les bases de l'apprentissage automatique supervisé et non-supervisé, ainsi que les différentes approches permettant l'incorporation des diagrammes de persistance dans les modèles standards via les méthodes à noyaux.

\smallskip
Nous tenons à remercier la direction de l'École polytechnique, la Direction des Services de l'Enseignement et le Centre Poly-Média, pour l'aide matérielle importante qu'ils ont apportée à la préparation de ces journées et à la publication de ce volume. Nos remerciements vont aussi au Labex Mathématique Hadamard pour le financement des captations vidéos des exposés, ainsi qu'à \hbox{Hélios} Azzollini pour leur réalisation remarquable, mises en ligne sur la chaîne Youtube de l'École polytechnique:
\href{https://www.youtube.com/playlist?list=PLrRN3yszYHZkR9vyUeOVkcF6yy4FjgkMn}{\url{https://www.youtube.com/playlist?list=PLrRN3yszYHZkR9vyUeOVkcF6yy4FjgkMn}}\par\noindent

Nous remercions enfin le secrétariat du Centre de Mathématiques Laurent Schwartz, notamment Carole Juppin, qui assure chaque année le bon déroulement des journées.

\vspace*{.5cm}
\hfill \textsl{Pascale Harinck, Alain Plagne et Claude Sabbah}\mbox{}

\chapterspace{-2}
\chapter*{Présentation générale}

Cet ouvrage est une courte introduction aux fondements mathématiques de l'analyse topologique de données, communément appelée TDA d'après l'anglais \emph{Topological Data Analysis}. Ce domaine de l'intelligence artificielle s'est développé à partir des années 2000 et a connu un fort essor du fait de son positionnement transversal, à l'interface entre l'algèbre, la topologie, la géométrie, l'algorithmique, les statistiques, l'optimisation et l'apprentissage machine. Il combine en effet (et contribue à développer) une grande variété d'outils mathématiques et informatiques, ce qui fait tout son attrait sur le plan scientifique.

Les fondements mathématiques du domaine sont regroupés sous le terme de \emph{théorie de la persistance}. Les idées de base qui la sous-tendent ne sont en soi pas nouvelles et remontent à la théorie de Morse: on regarde les sous-niveaux de fonctions réelles et on utilise un invariant algébrique (l'\emph{homologie}) pour encoder l'évolution de la topologie à travers ces sous-niveaux. Les outils utilisés sont toutefois plus avancés que la théorie de Morse car les fonctions considérées sont à peu près arbitraires, en particulier elles peuvent être non lisses ou même discontinues, et dans les développements les plus récents de la théorie elles peuvent même être à valeurs dans~$\R^n$. Les aspects algé\-briques de la théorie de la persistance utilisent et développent des outils issus de la topologie algébrique, de la théorie des représentations, de la théorie des faisceaux, ou encore de l'algèbre commutative. À chacun de ces domaines la TDA offre de nouvelles perspectives d'application, tout en éclairant certaines des grandes questions du domaine d'une lumière originale et en proposant des manières iné\-di\-tes de les aborder, notamment à travers le prisme de la stabilité. La~théorie de la persistance elle-même trouve des appli\-ca\-tions au-delà de l'analyse de données, dans d'autres domaines des mathématiques fondamentales comme la topologie symplectique, la géométrie spectrale ou encore l'analyse complexe. La richesse de toutes ces interactions ne peut être vraiment mise en valeur dans une introduction courte au sujet comme celle présentée dans ce livre. Pour cela nous renvoyons le lecteur vers d'autres ouvrages plus avancés et plus complets.

La partie centrale du livre (textes~\cite{chap-pers-1} et~\cite{sec-stabilite}) se concentre sur le cadre le plus standard de la théorie de la persistance, celui des fonctions réelles sur des espaces topologiques. Elle fournit une introduction pédestre au sujet, insistant sur les principaux résultats de structure et de stabilité et fournissant juste ce qu'il faut d'arguments de preuve pour convaincre le lecteur de la validité des énoncés. Elle est suivie d'une partie applicative (textes~\cite{sec-appli-geometrie} et~\cite{sec-appli-IA}) qui présente une sélection d'applications en mathématiques fondamentales d'une part, en analyse de données d'autre part. Le tout est précédé de deux textes introductifs, l'un (texte~\cite{chap-intro}) présentant quelques-unes des principales idées de la théorie de manière accessible dans un cadre applicatif particulier, l'autre (texte~\cite{chap-homologie}) introduisant les bases de l'homologie qui sont utilisées dans la suite. L'ensemble forme un ouvrage court que l'on peut aisément glisser dans son sac et lire de manière linéaire le temps d'une escapade. Son contenu devrait être lisible par les étudiants dès la licence, à condition qu'ils aient un bagage en algèbre linéaire et bilinéaire ainsi qu'en topologie générale. Il~devrait également intéresser les mathématiciens d'autres disciplines qui recherchent une introduction brève au sujet.

\Subsubsection*{La théorie de la persistence en analyse de données et au-delà}

Dans le contexte de l'analyse de données, la théorie de la persistance est utilisée dans la chaîne de traitement pour engendrer de nouvelles représentations pour les données, comme illustré dans la figure~\ref{fig:TDA_pipeline}. En détails: en partant des données, vues comme un nuage de points dans un espace métrique (l'espace euclidien~$\R^3$ dans l'exemple), on construit une famille croissante (pour l'inclusion) d'espaces topologiques, appelée une \emph{filtration}. Pour cela on regarde les sous-niveaux d'une fonction, choisie en fonction du contexte, dans l'exemple la distance aux données dans l'espace ambiant. L'homologie de cette filtration nous donne un objet algébrique appelé \emph{\hbox{module} de persistance}, sur lequel on calcule un ou plusieurs invariants, qui, dans le cadre de cet ouvrage, prennent la forme de code-barres comme illustré dans la figure. Ces codes-barres sont ensuite transformés en vecteurs qui servent de nouvelle représentation pour les données d'entrée et peuvent être intégrés dans d'autres chaînes de traitement comme par exemple des réseaux de neurones. À noter que les données fournies en entrée ne sont pas forcément les données initiales du problème: elles peuvent en être une version déjà transformée, ce qui fait que la TDA peut s'insérer à divers endroits (pas seulement au début) de la chaîne de traitement.

\begin{figure}[t]
\centering
\includegraphics[width=.95\textwidth]{TDA_pipeline}
\caption{La chaîne de traitement de la TDA.}
\label{fig:TDA_pipeline}
\end{figure}

Comme nous le verrons dans le texte~\cite{sec-appli-IA}, la pertinence de l'approche décrite ci-dessus
repose sur trois propriétés fondamentales des modules de persistance, détaillées dans les textes~\cite{chap-pers-1} et~\cite{sec-stabilite}:
\begin{itemize}
\item le fait que l'on puisse les définir à partir des sous-niveaux de n'importe quelle fonction réelle sur un espace topologique quelconque;
\item le fait que, structurellement, ils soient entièrement caractérisés par leur code-barres, et ce, sous des hypothèses très faibles;
\item enfin le fait qu'une métrique canonique puisse être mise sur l'ensemble de ces codes-barres, de manière à les rendre stables par perturbation des fonctions (et donc des données) d'entrée.
\end{itemize}

Ces trois propriétés rendent également pertinent l'usage des modu\-les de persistance dans d'autres contextes, y~compris en mathématiques fondamentales comme il a été dit plus haut. Dans ces contextes, le rôle joué par la stabilité des modules de persistance et de leurs invariants est proéminent et permet d'aborder des questions réputées difficiles sous un angle nouveau. Les exemples présentés dans le texte~\cite{sec-appli-geometrie} donneront une idée plus précise au lecteur.\enlargethispage{\baselineskip}%

\subsubsection*{Quelques perspectives sur le sujet}
Le développement de la théorie de la persistance et de ses applications, que ce soit en intelligence artificielle ou en mathématiques fondamentales, est un thème de recher\-che très actif. Une présentation exhaustive des questions ouvertes qui concentrent actuellement l'attention des chercheurs serait hors de propos dans cette introduction. Toutefois, nous souhaitons mentionner deux de ces problématiques qui comptent parmi les plus importantes du fait de leur impact applicatif majeur.

La première problématique concerne l'étude de la dérivabilité de la chaîne de traitement de la TDA, en particulier de la construction des codes-barres. Nous verrons dans les textes qui suivent que la construction des codes-barres est pour une grande part combinatoire, ce qui rend la définition d'une dérivée difficile voire impossible de prime abord. Et pourtant, grâce aux propriétés de stabilité des codes-barres il est possible de définir une dérivée presque partout. En effet, cette stabilité s'exprime grossièrement de la manière suivante: l'opérateur qui associe son code-barres à une fonction réelle est lipschitzien. De ce fait, par un résultat bien connu de théorie géométrique de la mesure (le théorème de Rademacher), l'opérateur est différentiable presque partout. Reste à définir le bon cadre théorique pour formaliser cet énoncé, trouver des formules explicites pour la différentielle, et étudier ce qu'il se passe au voisinage des points singuliers. C'est l'objet de toute une série de travaux pionniers récents du domaine, qui esquissent une théorie du calcul différentiel et de l'optimisation dans l'espace des codes-barres, et rendent possible leur usage dans de nouveaux contextes comme par exemple en apprentissage profond.

La deuxième problématique concerne l'étude de la topologie des sous-niveaux de fonctions à valeurs dans~$\R^n$, appelée communément \emph{multi-persistance} car les filtrations et les modules de persistance associés sont à plusieurs paramètres. Cette extension de la théorie s'avère infiniment plus complexe que sa version de base, en lien avec des questions notoirement difficiles et ouvertes issues d'autres domaines des mathématiques comme par exemple celle de la classification des modu\-les indécomposables sur les algèbres de type sauvage en théorie des représentations. Dans ce contexte il n'existe pas de notion canonique de code-barres pour les modules de persistance, et tout l'enjeu est de développer des invariants alternatifs qui soient à la fois calculables, stables, et suffisamment fins pour les applications visées. De nombreuses approches sont actuellement explorées, qui abordent la question sous des angles très divers, comme par exemple ceux de la théorie de Cerf, de la théorie des faisceaux, de l'algèbre homologique, ou encore de la théorie des ordres. Ces multiples développements donnent lieu à un foisonnement de nouvelles propositions d'invariants, dont l'analyse théorique et la validation expérimentale occuperont sans doute la communauté pendant de nombreuses années. L'espoir étant qu'à terme émerge une théorie bien fondée de la multi-persistance, au même titre qu'a émergé
une version de base pour les fonctions réelles telle que présentée dans cet ouvrage.\enlargethispage{\baselineskip}%

\vspace*{.5cm}
\hfill \textsl{Mathieu Carrière, Vincent Humilière et Steve Oudot}\mbox{}

\backmatter
\bibliographystyle{jepalpha+eid}
\bibliography{xups24-00}
\end{document}