Video thumbnail

    Mystères mathématiques d’intelligences pas si artificielles - Stéphane Mallat

    Valuable insights

    1.Échec de l'IA symbolique face à la complexité: Les systèmes experts basés sur la logique symbolique ont échoué lorsque les problèmes impliquaient trop de variables, menant à l'hiver de l'intelligence artificielle à cause de l'explosion des règles.

    2.L'IA moderne : apprentissage statistique et pragmatisme: L'intelligence artificielle actuelle repose sur l'apprentissage statistique, dont la base philosophique provient du pragmatisme, où la connaissance s'acquiert en résolvant des problèmes pratiques via l'induction probabiliste.

    3.Nécessité d'un a priori structurel pour l'apprentissage: Sans une structure *a priori* définie dans l'algorithme, l'estimation des distributions de probabilité complexes est confrontée au mur de la complexité, rendant l'apprentissage impossible.

    4.La connaissance apprise est un modèle probabiliste: Apprendre, que ce soit pour la classification ou la génération, consiste fondamentalement à construire un modèle mathématique de la probabilité conditionnelle sous-jacente aux données observées.

    5.La malédiction de la dimensionnalité est contournée par la structure: L'estimation directe de distributions de probabilité dans des espaces de très haute dimension est infaisable, nécessitant que les données soient structurées hiérarchiquement pour être apprises efficacement.

    6.Parallèles entre IA et physique statistique: La capacité d'apprendre une distribution de probabilité équivaut à apprendre la physique d'un système, en exploitant la structure hiérarchique et les interactions locales, similaire au groupe de renormalisation en physique.

    7.Ondelettes et neurophysiologie dans les réseaux profonds: Les premières couches des réseaux de neurones apprennent des filtres similaires aux ondelettes détectées dans la zone V1 du cortex visuel, indiquant une convergence imposée par la structure du problème.

    8.L'IA ouvre un domaine scientifique sur la connaissance: L'expérimentation avec les réseaux de neurones rend la théorie de la connaissance, traditionnellement philosophique, accessible à la démarche scientifique, créant ainsi une nouvelle discipline.

    Définitions et Évolutions de l'Intelligence Artificielle

    L'intelligence artificielle, telle que définie dès 1960, vise à construire des algorithmes capables de résoudre des tâches exigeant l'intelligence humaine, incluant la perception et le raisonnement. Les premières tentatives reposaient sur des représentations symboliques de la connaissance, utilisant des déductions logiques via des systèmes experts. Cependant, après un enthousiasme initial, cette approche s'est heurtée à une explosion du nombre de règles nécessaires dès que les problèmes devenaient trop complexes, entraînant ce que l'on a nommé l'hiver de l'intelligence artificielle.

    L'avènement de l'apprentissage statistique

    À partir des années 1990, une autre forme d'intelligence artificielle a émergé, fondée sur l'apprentissage statistique. Les réseaux de neurones, en particulier, ont montré des performances impressionnantes, dépassant les attentes des chercheurs. Des capacités jugées inatteignables, comme la reconnaissance faciale ou le traitement du langage, ont été maîtrisées en quelques années seulement, marquant un changement fondamental par rapport aux méthodes symboliques précédentes.

    • La reconnaissance de visages.
    • Le traitement et la compréhension du langage.
    • Les capacités de raisonnement complexe.

    Fondements Philosophiques de l'Apprentissage

    La question de la connaissance, abordée depuis l'Antiquité, structure la théorie de la connaissance en deux visions extrêmes : la vision platonicienne, où la connaissance est acquise *a priori*, et la vision aristotélicienne, où elle dérive de l'expérience. Cet axe a historiquement divisé la pensée en deux courants majeurs qui influencent directement les paradigmes de l'intelligence artificielle.

    Rationalisme et Empirisme

    La vision rationaliste, incarnée par des penseurs tels que Descartes et Spinoza, postule que la raison est la source principale de la connaissance, basée sur des vérités absolues. Cette approche constitue la base philosophique de l'IA symbolique, qui repose sur la déduction logique. À l'opposé, la vision empirique, historiquement anglo-saxonne avec Locke et Hume, soutient que toute connaissance provient initialement de l'expérience sensorielle.

    On parlait à l'époque de système expert, c'est-à-dire que les connaissances du monde sont représentées par des assertion logique à partir de quel on peut déduire d'autres conséquences.

    La synthèse Kantienne et le Pragmatisme

    La révolution kantienne a proposé une synthèse en affirmant que si la connaissance passe par l'expérience, elle est structurée par des formes *a priori* de l'esprit. Cette idée a été développée par les pragmatiques comme Peirce au début du XXe siècle. Pour eux, l'acquisition de la connaissance émerge de la résolution de problèmes pratiques, ce qui introduit naturellement la notion de probabilité et fonde l'induction probabiliste utilisée dans l'apprentissage statistique.

    Le Défi Mathématique : La Malédiction de la Dimensionnalité

    Le passage de l'IA symbolique à l'apprentissage statistique, bien que rendu possible par les avancées en calcul et mémoire depuis les années 1960, a confronté les chercheurs à un nouveau mur : la complexité. La notion de connaissance dans ce cadre devient l'apprentissage des probabilités, mais l'estimation de ces probabilités se heurte à un obstacle fondamental qui doit être compris pour saisir la difficulté des problèmes actuels.

    L'explosion combinatoire

    La difficulté majeure est la malédiction de la grande dimension. Si l'on tente d'estimer une distribution de probabilité $P(X)$ de manière naïve en utilisant un histogramme, le nombre de cases nécessaires croît exponentiellement avec la dimension $D$ des données (par exemple, $10^D$). Si $D$ atteint 80, le nombre de possibilités dépasse le nombre d'atomes dans l'univers, rendant l'estimation brute totalement infaisable, surtout lorsque $D$ est de l'ordre d'un million pour une image.

    Il y a une explosion du nombre de possibilités ce qui fait que a priori on peut pas calculer ce genre de probabilité à moins que le problème soit structuré.

    La seule voie pour estimer de telles distributions est d'adopter un discours de la méthode qui consiste à décomposer la distribution de probabilité complexe en un produit de distributions plus simples, caractérisées par beaucoup moins de paramètres, nécessitant ainsi beaucoup moins d'exemples pour l'apprentissage.

    Structure des Algorithmes et Nécessité de l'A Priori

    Dans un problème de classification, l'objectif est d'estimer une catégorie $Y$ à partir d'une observation $X$, par exemple une image de 1 million de pixels. L'algorithme, paramétré par $ heta$, doit intégrer un *a priori* structurel, car sans lui, la confrontation au mur de la complexité est immédiate. L'apprentissage consiste alors à minimiser le nombre d'erreurs sur un jeu de données d'entraînement, afin d'acquérir les paramètres optimaux permettant une bonne généralisation à de nouvelles données.

    Apprendre : minimiser l'erreur et généraliser

    L'enjeu principal est la généralisation : faire peu d'erreurs sur des données inconnues, ce qui repose sur la loi des grands nombres et requiert un grand volume d'exemples. Mathématiquement, le pourcentage d'erreur correspond à la probabilité que l'estimation diffère de la vraie réponse. Le minimum de cette probabilité est atteint lorsque la réponse choisie est celle qui possède la plus grande probabilité d'être observée sachant la donnée $X$, soit $P(Y|X)$.

    Type de Problème
    Objectif de l'Apprentissage
    Probabilité Modélisée
    Classification
    Estimer la catégorie $Y$ à partir de $X$
    Probabilité conditionnelle $P(Y|X)$
    Génération
    Produire une donnée $X$ correspondant à la catégorie $Y$
    Probabilité de la donnée $P(X|Y)$

    Ainsi, apprendre revient à construire un modèle de cette probabilité conditionnelle. Pour les problèmes de génération, où l'on produit une donnée de grande dimension (comme une image), l'algorithme échantillonne à partir de la distribution apprise $P(X)$, cherchant à reproduire la structure probabiliste observée dans les données d'entraînement.

    L'Intelligence Artificielle face à la Physique Statistique

    Si l'on est capable d'apprendre une distribution de probabilité $P(X)$ à partir d'observations, cela signifie que l'on est capable d'apprendre la physique sous-jacente du système. En physique statistique, la probabilité d'observer un état $X$ est proportionnelle à l'exponentielle négative de son énergie, $P(X) sim e^{-E(X)}$. Connaître la probabilité donne accès à l'énergie, aux forces et aux interactions, mais cela reste horriblement difficile à cause de la malédiction de la dimensionnalité.

    La structure hiérarchique du monde physique

    • Échelles microscopiques (particules, atomes).
    • Échelles macroscopiques (mécanique, thermodynamique).
    • Échelles astrophysiques et cosmologiques.

    La propriété clé exploitée en physique est que la plupart des interactions sont locales entre les éléments. Cette localité permet d'éviter l'explosion dimensionnelle en ne considérant que les voisins immédiats. Structurer les problèmes de manière hiérarchique est une idée ancienne retrouvée partout, du langage à la physique, et elle est au cœur de la méthode de renormalisation développée par Kadanoff et Wilson.

    Les Ondelettes : Pont entre Neurosciences et Apprentissage Profond

    Pour passer du microscopique au macroscopique, la physique utilise le sous-échantillonnage et la moyenne pour réduire la résolution, ce qui diminue la dimension. Pour construire un modèle en IA, on suit le chemin inverse : partir d'une faible résolution pour reconstruire une haute résolution en calculant la probabilité conditionnelle de l'image haute résolution sachant la basse résolution, $P( ext{Haute} | ext{Basse})$. Ces probabilités conditionnelles sont beaucoup plus simples car les interactions sont locales.

    Corrélation entre couches de réseaux et cortex visuel

    L'information manquante pour reconstruire l'image haute résolution à partir de la basse résolution réside dans les détails, détectés par des filtres appelés ondelettes. Ces filtres sont précisément ceux observés dans les premières couches des réseaux de neurones et dans le système visuel primaire (V1) du cortex, où les neurones répondent à des stimuli orientés et dilatés à différentes échelles.

    On voit bien que les choses se ressemblent et ça ça va dans le sens de ce qu'il disait.

    Des études, comme celles de Di Carlo en 2018, confirment de fortes corrélations entre les premières couches des réseaux de neurones et la structure de l'évolution neuronale observée en allant de V1 vers V2, V4 et IT dans le cerveau, suggérant que la nature du problème impose cette convergence structurelle.

    Modélisation par Transport et Architecture Hiérarchique

    Pour modéliser ces probabilités conditionnelles complexes, des outils mathématiques sophistiqués sont employés, notamment les cartes de transport. L'idée est de prendre une distribution simple, comme une gaussienne (bruit aléatoire), et d'utiliser un réseau de neurones profond pour transporter ce point dans l'espace jusqu'à un point correspondant à l'image souhaitée. Ce transport successif modélise la distribution de probabilité complexe que l'on cherche à calculer.

    Construction hiérarchique des modèles probabilistes

    En combinant le transport (pour les basses résolutions) et la modélisation des coefficients d'ondelettes (pour les détails fins), les architectures profondes structurent le problème à travers les échelles. Elles construisent la distribution de probabilité totale comme un produit de distributions conditionnelles locales, dont les paramètres sont appris par les millions de poids du réseau. C'est le modèle d'état de l'art pour la génération d'images ou la prédiction météorologique.

    Domaine
    Structure Fondamentale
    Nature des Paramètres
    Physique Statistique
    Hiérarchie d'échelles (Renormalisation)
    Interactions locales explicites
    Réseaux de Neurones Profonds
    Hiérarchie d'échelles (Couches successives)
    Millions de paramètres appris (probabilités conditionnelles implicites)

    Dans des domaines comme la météorologie, des systèmes comme Gencast parviennent à des prédictions à 15 jours en apprenant directement la physique complexe des interfaces (océan/atmosphère, relief). Les algorithmes les plus performants sont ceux qui apprennent cette physique implicitement, car la physique explicitement connue est souvent trop simple par rapport aux phénomènes complexes réels nécessaires à la prédiction.

    Conclusion : L'Épistémologie Scientifique de la Connaissance

    L'intelligence artificielle actuelle n'est pas simplement constituée de perroquets stochastiques ; elle apprend une connaissance extraordinairement sophistiquée. Cette connaissance s'inscrit dans une branche de la philosophie pragmatique, nécessitant des informations *a priori* pour identifier la structure des problèmes, à l'instar de ce que fait la physique pour modéliser le monde.

    Les enjeux mathématiques et sociétaux

    • La compréhension mathématique des modèles de haute dimensionnalité.
    • Le développement de modèles plus simples et plus robustes.
    • La réduction de la consommation énergétique des systèmes d'IA.

    Historiquement, la philosophie a couvert tous les domaines de la connaissance avant qu'ils n'acquièrent une démarche scientifique autonome. Aujourd'hui, la théorie de la connaissance devient accessible à l'expérimentation scientifique via les réseaux de neurones et la neurophysiologie. Il émerge ainsi un domaine scientifique de la théorie de la connaissance, forçant la philosophie à redéfinir son rôle face à ces découvertes empiriques.

    Questions

    Common questions and answers from the video to help you understand the content better.

    Quelle était la raison principale de l'échec de l'intelligence artificielle symbolique dans les années 60 ?

    L'échec principal de l'intelligence artificielle symbolique est survenu lorsque les problèmes à résoudre mettaient en jeu trop de variables, provoquant une explosion du nombre de règles logiques nécessaires, ce qui a conduit à l'« hiver de l'intelligence artificielle ».

    Comment l'apprentissage statistique moderne se rattache-t-il à la philosophie de la connaissance ?

    L'apprentissage statistique est la base philosophique du pragmatisme, où la connaissance est acquise en résolvant des problèmes pratiques. Cela se traduit mathématiquement par l'induction probabiliste, visant à minimiser l'erreur et à construire un modèle de probabilité conditionnelle.

    Qu'est-ce que la malédiction de la grande dimension et comment les réseaux de neurones tentent-ils de la contourner ?

    La malédiction de la grande dimension est l'explosion exponentielle du nombre de configurations possibles dans un espace de données de haute dimension, rendant l'estimation de probabilité impossible. Les réseaux de neurones la contournent en incorporant un *a priori* structurel qui décompose la distribution complexe en un produit de distributions plus simples et locales.

    Quel lien mathématique existe-t-il entre la physique statistique et l'apprentissage d'une distribution de probabilité ?

    En physique statistique, la probabilité d'un état est liée à son énergie ($P sim e^{-E}$). Apprendre la distribution de probabilité revient donc à apprendre l'énergie, les forces et les interactions du système physique sous-jacent, en exploitant sa structure hiérarchique.

    Pourquoi les premières couches des réseaux de neurones profonds ressemblent-elles aux ondelettes observées dans le cortex visuel V1 ?

    Cette similarité est observée car, pour reconstruire une image haute résolution à partir d'une basse résolution (structure hiérarchique), il faut calculer les coefficients d'ondelettes qui représentent les détails locaux. Le problème impose cette convergence structurelle tant en neurophysiologie qu'en apprentissage profond.

    Useful links

    These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

    This article was AI generated. It may contain errors and should be verified with the original source.
    VideoToWordsClarifyTube

    © 2025 ClarifyTube. All rights reserved.