Séminaire Statistique

organisé par l'équipe Statistique

Étienne Birmelé

Statistiques, médecine et détection d'anomalies

14 septembre 2020 - 17:00Salle de séminaire 418

Résumé: Les modèles statistiques et l'apprentissage sont d'un grand intérêt pour les applications à la médecine au sens où ils permettent de quantifier ou prévoir l'anormalité des mesures liées à des cellules ou des individus. Je présenterai brièvement deux travaux entrant dans ce cadre. Le premier est lié à l'utilisation d'un modèle à variable latente pour la détection de gènes dérégulés dans les réseaux d'interaction entre gènes, le second à de l'apprentissage supervisé pour la détection de modifications du flux respiratoire.
Christophe Pouzat

Quelques problèmes de statistique en neurophysiologie

21 septembre 2020 - 17:00Salle de séminaire 418

Neurophysiologiste expérimental, je suis devenu statisticien (amateur) par nécessité : il me fallait analyser mes données, ainsi que celles de quelques collègues. Je présenterai brièvement certaines données, issues « d'enregistrements extracellulaires multiples », avant d'exposer les problèmes d'analyse que leur exploitation génère : - le tri des potentiels d'action est un problème d'identification de sources qui fait appel à des méthodes de classification non supervisée puis supervisée avec quelques subtilités intéressantes ; - le résultat du tri est une collection de temps — les temps des potentiels d'action émis par chacun des neurones identifiés — que nous modélisons comme des observations d'un processus ponctuel multivarié — un processus par neurone et les processus intéragissent — ; le problème suivant est donc « naturellement » celui de l'estimation de l'intensité du processus ; là, des problèmes de choix de modèles et d'estimation sous contraintes apparaissent et ils sont loin d'être complètement résolus.
Antoine Usseglio-Carleve

Quelques modèles de régression extrême

12 octobre 2020 - 17:00Salle de séminaire 418

Si estimer la médiane (quantile de niveau 0.5) ou le quartile (quantile de niveau 0.25 ou 0.75) d'une variable aléatoire Y paraît évident lorsque l'on dispose d'un échantillon de taille n, qu'en est-il si le niveau de quantile que l'on cherche à estimer dépasse 1-1/n ? Dans ce cas, l'usage de la classique statistique d'ordre renvoie systématiquement le maximum de l'échantillon, et mène alors à une estimation non-consistante du quantile désiré. Grâce à la théorie des valeurs extrêmes, on trouve dans la littérature des méthodes d'extrapolation pour estimer de tels quantiles. La particularité de ce travail est que la variable d'intérêt Y est impactée par un vecteur de covariables X. L'enjeu est alors d'estimer des quantiles extrêmes de la loi conditionnelle de Y sachant X=x. Pour cela, on propose d'abord une approche de régression purement non-paramétrique, en proposant des estimateurs de quantile et d'expectile (une alternative au quantile que l'on introduira) extrêmes, et en étudiant leurs propriétés asymptotiques. La vitesse de convergence de ces estimateurs se dégradant assez fortement lorsque la taille de la covariable X augmente, on proposera alors quelques modèles sur X et Y permettant de contourner le fléau de la dimension. Quelques applications en assurance ou catastrophe naturelle seront proposées.
Nicolas Meyer

Inférence des extrêmes en grande dimension

19 octobre 2020 - 17:00Salle de séminaire 418

Identifier les directions dans lesquelles des événements exceptionnels se produisent est l'un des enjeux majeurs de la théorie des valeurs extrêmes multivariés. D'un point de vue théorique, la plupart de l'information concernant de tels événements est contenue dans la mesure spectrale qui apparaît comme la limite de la composante angulaire de vecteurs aléatoires à variation régulière. L'estimation de cette mesure peut s’avérer délicat, surtout en grande dimension. L’objet de cet exposé est d'introduire une méthode de réduction de la dimension basée sur la projection euclidienne sur le simplex. Cette méthode donne naissance au concept de variation régulière parcimonieuse. La première partie de l'exposé est consacrée à des résultats théoriques concernant les vecteurs aléatoires à variation régulière parcimonieuse. Dans une deuxième partie, nous développons une approche statistique basée sur la sélection de modèles pour identifier des groupes de directions susceptibles d'être extrêmes simultanément. Nous illustrons notre méthode sur des données simulées et réelles.
Alexis Derumigny

Estimation of copulas via Maximum Mean Discrepancy

2 novembre 2020 - 16:30Web-séminaire

We study robust inference for parametric copula models. Estimation using Canonical Maximum Likelihood might be unstable, especially in the presence of outliers. We propose to use a procedure based on the Maximum Mean Discrepancy (MMD) principle. We derive non-asymptotic oracle inequalities, consistency and asymptotic normality of this new estimator. In particular, the oracle inequality holds without any assumption on the copula family, and can be applied in the presence of outliers or under misspecification. Moreover, in our MMD framework, the statistical inference of copula models for which there exists no density with respect to the Lebesgue measure on [0,1]d, as the Marshall-Olkin copula, becomes feasible. A simulation study shows the robustness of our new procedures, especially compared to pseudo-maximum likelihood estimation. An R package implementing the MMD estimator for copula models is available.
Arnaud Poinas

Propriétés de mélange et TCL pour processus ponctuels déterminantaux

9 novembre 2020 - 17:00Web-séminaire

Après quelques rappels sur les processus ponctuels, nous présenterons dans cet exposé une classe de processus ponctuels spatiaux sur R^d utilisés pour modéliser des données au caractère répulsif, appelés processus ponctuels déterminantaux (ou DPP). Nous nous intéresserons en particulier à leur propriété d'association négative. Peu exploitée dans la littérature des processus ponctuels, nous montrerons en quoi elle implique des propriétés d'alpha-mélange ainsi qu'un TCL plus fort que les TCL classiques basés sur l'alpha-mélange. Les DPPs étant négativement associés, nous en déduirons un TCL pour une classe générale de fonctions de DPPs non stationnaires, incluant en particulier les statistiques utilisées dans l'inférence asymptotique de ces processus.
Anouar Meynaoui

Adaptive test of independence based on HSIC measures

16 novembre 2020 - 17:00Web-séminaire

Dependence measures based on reproducing kernel Hilbert spaces, also known as Hilbert-Schmidt Independence Criterion and denoted HSIC, are widely used to statistically decide whether or not two random vectors are dependent. Recently, non-parametric HSIC-based statistical tests of independence have been performed. However, these tests lead to the question of the choice of the kernels associated to the HSIC. In particular, there is as yet no method to objectively select specific kernels with theoretical guarantees in terms of first and second kind errors. One of the main contributions of this work is to develop a new HSIC-based aggregated procedure which avoids such a kernel choice, and to provide theoretical guarantees for this procedure. To achieve this, we first introduce non-asymptotic single tests based on Gaussian kernels with a given bandwidth, which are of prescribed level $\alpha \in (0,1)$. From a theoretical point of view, we upper-bound their uniform separation rate of testing over Sobolev and Nikol'skii balls. Then, we aggregate several single tests, and obtain similar upper-bounds for the uniform separation rate of the aggregated procedure over the same regularity spaces. Another main contribution is that we provide a lower-bound for the non-asymptotic minimax separation rate of testing over Sobolev balls, and deduce that the aggregated procedure is adaptive in the minimax sense over such regularity spaces. Finally, from a practical point of view, we perform numerical studies in order to assess the efficiency of our aggregated procedure and compare it to existing independence tests in the literature.
Jocelyn Chauvet

Régularisation des modèles linéaires généralisés mixtes par construction de composantes supervisées

23 novembre 2020 - 17:00Web-séminaire

Une forte redondance des variables explicatives cause de gros problèmes d'identifiabilité et d'instabilité des coefficients dans les modèles de régression. Même lorsque l'estimation est possible, l'interprétation des résultats est donc extrêmement délicate. Il est alors indispensable de combiner à la vraisemblance de ces modèles un critère supplémentaire qui régularise l'estimateur. Dans le sillage de la régression PLS qu’elle englobe et généralise, la stratégie de régularisation que nous considérons est fondée sur l'extraction de composantes dites « supervisées ». Contraintes à l'orthogonalité entre elles, ces composantes doivent non seulement capturer l'information structurelle des variables explicatives, mais également prédire au mieux les variables réponses, qui peuvent être de types divers (continues ou discrètes, quantitatives, ordinales ou nominales). Sur un exemple élémentaire de régression, nous commençons par mettre en défaut le pouvoir interprétatif des composantes principales et PLS. Cela justifie la nécessité de construire des composantes de manière plus flexible dans la but de rétablir ce pouvoir interprétatif. Les composantes supervisées sont précisément conçues dans cette optique, tout en maintenant de bonnes qualités prédictives. Par ailleurs, la régression sur composantes supervisées, développée initialement pour les GLMs multivariés, n'a jusqu'alors concerné que des modèles à observations indépendantes. Or, dans de nombreuses situations, les observations sont groupées. Nous proposons donc une extension de la méthode aux GLMMs multivariés, pour lesquels les corrélations intra-groupes sont modélisées au moyen d'effets aléatoires. À chaque étape de l'algorithme de Schall permettant l'estimation du GLMM, nous procédons à la régularisation du modèle par l'extraction de composantes maximisant un compromis entre qualité d'ajustement et pertinence structurelle. Comparé à la régularisation par pénalisation de type ridge ou LASSO, nous montrons sur données simulées que notre méthode non seulement permet de révéler les dimensions explicatives les plus importantes pour l'ensemble des réponses, mais fournit souvent de meilleures estimations. La méthode est aussi évaluée sur des données réelles d’écologie forestière.
Vincent Vandewalle

Multiple Partition Clustering

7 décembre 2020 - 17:00Web-séminaire

This talk deals with unsupervised classification when several latent class variables are considered (multiple partition classification). Indeed, assuming that all heterogeneity in the data can be explained by a single variable is a very strong assumption, and it may be useful to consider that several blocks (or linear combinations) of variables can provide different partitions of individuals. This may reveal new lines of analysis in the data set. In this framework we present two approaches. The first one assumes the existence of several groups of variables, each leading to a different partition of the individuals (Marbac and Vandewalle, 2019). The approach has the interest to propose an efficient algorithm allowing the search for blocks of variables as well as the estimation of the different partitions of the individuals. The key assumption, is the independence of variables given the cluster in each block. This assumption allows at each step to reassign each variable to the most relevant block of variables at a low computation cost. This model makes it possible to classify the variables into blocks, each producing a specific grouping of individuals. A second model assumes the existence of several classifying projections in the data and has been recently published (Vandewalle, 2020). For this approach, I have proposed a model and an estimation algorithm. The main idea is to assume that there are different linear combinations of variables in the data, each one explained by a different latent class variable. Thus the method allows to obtain different classifying projections and the associated partitions. The proposed approach remains limited to cases where the number of variables is less than the number of individuals, but has the advantage of being invariant by linear bijective transformation of the variables. The behavior of these models will be illustrated in simulated and real data. We will discuss how using such kind of models can give new insight from the data analysis point of view, can be considered for further investigation. References: Marbac, M. and Vandewalle, V. (2019). “A tractable multi-partitions clustering”. In: Computational Statistics & Data Analysis 132, pp. 167–179. Vandewalle, V. (2020). “Multi-Partitions Subspace Clustering”. In: Mathematics 8.4, p. 597.
Amir Aboubacar

Estimation non paramétrique pour des flux de données

14 décembre 2020 - 17:00Web-séminaire

Dans cet exposé, nous nous intéresserons à l'estimation fonctionnelle dans un cadre non paramétrique pour des flux de données. Nous donnerons une définition et une modélisation statistique de ce type de données. Nous présenterons brièvement quelques questions relatives à l'estimation non paramétrique, lorsque l'échantillon d'apprentissage est de nature temporelle, spatiale ou spatio-temporelle et se présente sous forme de flux de données. Nous considérerons le cas d'un modèle statistique dans lequel la variable aléatoire générique est multivariée, circulaire ou de nature fonctionnelle. Des modèles classiques seront revisités dans le contexte de flux de données, et leurs propriétés asymptotiques étudiées, notamment lorsque le processus générateur des données est stationnaire ou localement stationnaire.

S'abonner au séminaire

Séminaire Statistique

organisé par l'équipe Statistique

Étienne Birmelé

Christophe Pouzat

Antoine Usseglio-Carleve

Nicolas Meyer

Alexis Derumigny

Arnaud Poinas

Anouar Meynaoui

Jocelyn Chauvet

Vincent Vandewalle

Amir Aboubacar