Séminaire Statistique
organisé par l'équipe Statistique
-
Anne Van Delft
A statistical framework for analyzing shape in a time series of random geometric objects (joint work with Andrew Blumberg)
16 février 2024 - 11:00Salle de séminaires IRMA
We introduce a new framework to analyze shape descriptors that capture the geometric features of an ensemble of point clouds. At the core of our approach is the point of view that the data arises as sampled recordings from a metric space-valued stochastic process, possibly of nonstationary nature, thereby integrating geometric data analysis into the realm of functional time series analysis. We focus on the descriptors coming from topological data analysis. Our framework allows for natural incorporation of spatial-temporal dynamics, heterogeneous sampling, and the study of convergence rates. Further, we derive complete invariants for classes of metric space-valued stochastic processes in the spirit of Gromov, and relate these invariants to so-called ball volume processes. Under mild dependence conditions, a weak invariance principle in $D([0,1]\times [0,\mathscr{R}])$ is established for sequential empirical versions of the latter, assuming the probabilistic structure possibly changes over time. Finally, we use this result to introduce novel test statistics for topological change, which are distribution free in the limit under the hypothesis of stationarity. -
Alaaeddine Chaoub
Deep learning representations for prognostics and health management
23 février 2024 - 11:00Salle de séminaires IRMA
Deep learning technologies have experienced remarkable growth across various sectors, notably in computer vision and natural language processing, fueled by the confluence of data abundance, algorithmic breakthroughs, and hardware advancements. Yet, despite extensive monitoring of complex industrial assets and the accumulation of vast datasets from condition monitoring signals, the application of deep learning approaches for fault prediction for industrial equipment remains limited. This presentation delves into the existing research, highlighting key challenges, potential and proposed solutions, and avenues for future research. Key challenges include model architectures that under-perform across varied operating conditions, the inherent black-box nature of DL models which complicates interpretability and trustworthiness, and the pronounced issue of data scarcity arising from multiple reasons such as preventive maintenance. To tackle these obstacles, we explore a spectrum of strategies, including modular networks, pre-training and fine-tuning, data augmentation, few-shot learning, auxiliary learning, and meta-learning. By delving into these methodologies and shedding light on promising avenues for future exploration, this presentation aims to bridge the gap between DL's potential and its practical application in industrial fault prognostics. -
Herold Dehling
Test for independence of long-range dependent time series using distance covariance
22 mars 2024 - 11:00Salle de séminaires IRMA
-
Louise Martineau
Introduction à l'analyse topologique de données en statistique
19 avril 2024 - 11:00Salle de séminaires IRMA
-
Sara Mazzonetto
Estimation paramétrique et du temps locales certains diffusions biaisés-collantes
24 mai 2024 - 11:00Salle de séminaires IRMA
Nous considérons certaines diffusions uni-dimensionnelles dont la dynamique est biaisée par la présence d'un point-barrière qui est partiellement-reflectif (skew) ou collant (sticky). Cette nature de la barrière est encodée dans des paramètres de biais et de stickiness. Tout d'abord nous décrivons le processus et ses caractéristiques, et ensuite nous discutons d'approximation du temps local et d'estimation de paramètres à partir d'une trajectoire observée à de temps discrets. On verra pourquoi, dans le cas particulier du skew BM les estimateurs convergent avec un taux non standard de 1/4 vers une gaussienne mixte. Le cas du sticky BM est bien diffèrent. Ce travail est basé partiellement sur des travaux communs avec A. Anagnostakis (LJK Grenoble) et A. Lejay (IECL/Inria Nancy). -
Nicolas Chenavier
Maximum de vraisemblance composite pour un champ aléatoire de Brown-Resnick en infill.
3 juin 2024 - 11:00Salle de séminaires IRMA
Dans cet exposé, on s'intéresse à un certain type de champ aléatoire: le champ de Brown-Resnick. La loi de ce dernier est décrite par deux paramètres: l'un d'échelle, l'autre de Hurst. On suppose que le champ est observé dans une fenêtre fixée en un nombre fini de sites. Les sites sont donnés par la réalisation d'un processus ponctuel de Poisson. Estimer les paramètres par maximum de vraisemblance est en pratique impossible car les lois fini-dimensionnelles ne peuvent être calculées de façon efficace. Pour y remédier, nous considérons les estimateurs par maximum de vraisemblance composite en retenant comme pairs les pairs de points qui sont voisins dans la triangulation de Delaunay sous-jacent et comme triplets les triplets qui sont sommets d'un triangle de Delaunay. Les résultats sont des théorèmes limites sur ces estimateurs, lorsque l'intensité du processus de Poison tend vers l'infini. Travail joint avec Christian Y. Robert. -
Catherine Huber
De la statistique mathématique aux applications biomédicales: statistique robuste et non paramétrique, durées de survie, apprentissage statistique via les réseaux de neurones.
21 juin 2024 - 11:00Salle de séminaires IRMA
Les mesures de disparité entre les probabilités (distances ou divergences) et les relations entre elles et avec la théorie de l'information jouent un rôle majeur en statistique, qu'il s'agisse de l'un ou l'autre des trois types de modèles statistiques: paramétriques, non-paramétriques ou semi-paramétriques. Pour le premier type, même si le phénomène étudié obéit au modèle, défini à un nombre fini de paramètres près, ce n'est jamais le cas des observations qui en sont faites, ne serait-ce qu'à cause des erreurs d'arrondi. Aussi, doit-on optimiser les procédures d'estimation et de test non pas pour le modèle, mais pour un voisinage de ce modèle. Pour définir ce voisinage, on doit choisir une distance adéquate sur les probabilités. Cela conduit à des procédures minimax, c’est-à-dire qui minimisent le risque maximum dans ce voisinage. Pour le second type de modèle, qui a l'avantage de laisser plus de liberté à la fonction à estimer qui est supposée appartenir à un ensemble de fonctions obéissant à certaines conditions de régularité, une distance est choisie pour obtenir le risque minimax sur cet ensemble. Cette liberté a un coût, qui est une plus grande difficulté d'interprétation. La plupart des modèles en analyse de survie sont du troisième type: une partie du modèle repose sur une fonction quelconque tandis que l'autre partie met en jeu des paramètres qui pourront être facilement interprétés par l'utilisateur quand le statisticien lui annoncera les résultats. Finalement, quand, en IA, on utilise un réseau de neurones, il n'y a (apparemment) plus de modèle mais un algorithme dont la définition de l'objectif dépend de l'une de ces distances. Les applications concernent le diagnostic et les durées de survie, en particulier le risque dû à l'exposition à l'amiante et la prédiction de la survenue de la maladie d'Alzheimer. Je propose quelques exemples simples de comparaison des capacités respectives de prédiction et d'interprétation des réseaux de neurones et de la statistique classique, sur des données de taille modérée. -
Boris Hejblum
Modèles de mélange à processus de Dirichlet pour la classification non-supervisée de données de cytométrie en flux
11 octobre 2024 - 11:00Salle de séminaires IRMA