Analyse de données symboliques

Un article de la désencyclopédie.
Aller à la navigation Aller à la recherche

L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de  ? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.

NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.

Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.

Principe

Analyse classique

Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien , celui-ci puisant ses racines dans Mine.pngMine.pngMine.png Mine.png Mine.pngMine.pngMine.png Mine.png Mine.pngMine.pngMine.pngMine.pngMine.pngMine.pngMine.pngMine.pngMine.pngMine.png Mine.png Mine.png Mine.png Mine.pngMine.pngMine.pngMine.pngMine.pngMine.pngMine.png, dont l'application standard est le Démineur.

Soit un tableau de données dans cet espace (en notant la fonction , avec l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble ).

23,68 m Mine.png
68,5 cacahuètes
Trisomie-21-triple.jpg
Missing value palindrome d'anagramme = emmargana

Les déficiences de cette représentation des données sont criardes :

  • Absence de treillis de Gallois
  • Trisomie (cf. qui correspond à la case à l'intersection de la colonne et de la ligne )
  • Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
  • Quadrillage par mines anti-personnelles

Analyse symbolique

L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble . Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :

  • Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
  • Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
  • Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
Minage des espèces trisomiques

     68,5 cacahuètes

Mine.pngExplode.jpgTrisomie-21-triple.jpg 23,68 m

palindrome d'anagramme = emmargana Missing value

Retour possible à l'analyse classique

L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.

Dans le codage symbolique suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient , , et  :

Tableau préalablement symbolisé TA
Somme des angles du triangle ABC = 180° et

On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que  : l'expressivité symbolique ne souffre d'aucune limitation.

Exemple de re-tabulation classique de TA
0 46 80
46 0 68,5 cacahuètes 54
80 54 0

L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui  ! Non !  !! Car Aga, AGAGA ! », quitte à se tromper.

Formalisme

Soit une fonction de généralisation , avec associative et commutative, l'ensemble des futures désillusions organisables dans un treillis, et l'ensemble des parties de . Comme sa signature de fonction l'indique, prend deux descriptions d'individus et en synthétise un objet symbolique.

Un objet symbolique s'exprime sous forme d'un triplet . L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux) — avec la fonction transformant un individu en sa description, , , l'ensemble des individus et l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de par rapport à une description selon la relation mathématique . est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).

On note l' extension de , i.e., les individus "reconnus" grâce à comme appartenant à .

Nous posons  : ceci signifie qu'un objet symbolique est équivalent à la description qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage, constitue un "filtre" mathématique. Posons pour les besoins de la rigueur. Supposons de plus que tous les éléments sont organisables en treillis de Gallois.

Théorème

Énoncé
Les objets symboliques sont organisés dans un treillis de Gallois dont les éléments sont de la forme .
Démonstration
CQFD
Démonstration de la démonstration
Par hypothèse , donc S se comporte exactement comme une description, et comme les descriptions sont organisables en treillis, aussi. CQFDD (sic)

Treillis de concepts

La capacité à agréger un ensemble d'objets symboliques d'ordre en un seul objet (d'ordre ) permet de définir un supremum de treillis résultant de l'union de modalités d'usage indispensable, comme l'heure du jour ou la luminosité ambiante.

Par exemple, soit l'objet symbolique ( est donc ici l'opérateur d'inclusion), dont on voit immédiatement l'intérêt de se constituer en filtre de "phrases" dans l'évaluation de l'extension de — ce filtrage se faisant sur la base du caractère diurne des phrases en entrée. Ainsi filtre l'ensemble des phrases du répertoire indo-européen. En effet, soit une phrase et sa description Échec de l’analyse (erreur de syntaxe): {\displaystyle y(P) = \{ sujet, verbe, complément \}}  : on voit immédiatement que , et que donc l'extension de ne contient pas .

Soient les objets symboliques et . En posant , et soit le supremum de ces objets symboliques, il devient possible de modéliser des concepts poétiques tels que "chercher la nuit à midi", "entre le noir et midi, c'est 23h et le soleil", ou encore "aujourd'hui il est 14h".

On pourrait appeler le concept de "se foutre de la gueule de son lecteur", ou encore de "prendre son lecteur pour un con". Dans tous les cas on peut intégrer cette conceptualité dans en utilisant par exemple :

Propagation des concepts

Évolution de la démographie somalienne entre 1961 et 2003 (chiffre de la FAO, 2005). Population en milliers d'habitants.

S n'exprimant qu'un mode calculatoire de son extension (et n'étant pas l'extension elle-même), il peut s'appliquer à une population arbitraire. Ainsi en Alaska, et car (en clair : Michael Jackson est inclus dans le spectre de couleurs du manchot).

Devant cette incongruité, la nécessité taxonomique de faire la part entre les manchots et Michael Jackson conduit à faire de l'espace des descriptions un espace des histogrammes à intervalles temporels, en profitant du fait qu'un manchot adulte ne change pas de couleur contrairement à la pop star. Des exemples d'histogrammes à intervalles temporels suivent :

Diagramme du taux de blancheur de Michael Jackson
Perspective du bonheur de Sophie entre le 20 avril 2007 et le 14 juillet 2007

La relation revient alors ici à une mesure de similiarité entre histogrammes. En adoptant cette nouvelle modélisation, on déduit un objet symbolique d'extension , qui exclue visiblement les manchots et l'avenir de Sophie qui s'annonçait plus particulièrement noir que blanc[2].

On voit que l'avenir de Sophie s'assombrit très vite. On pourra mieux s'en apercevoir en croisant ce diagramme avec celui du taux de blancheur de Michael Jackson. Bingo ! L'affinité est frappante de morbidité.

Croisement des diagrammes de Michael Jackson et de Sophie

Si vous voulez vraiment sauver Sophie (et pas la couleur de peau de Michael) tant qu'il est encore temps, envoyez le lien de cette page à vos 10 meilleurs amis. Et en bonus, vous gagnez la possibilité de réaliser trois de vos vœux les plus chers; c'est scientifiquement prouvé par le treillis de Gallois.

Applications

En visualisation cognitive

La technique d'analyse symbolique calcule le supremum du treillis de Gallois dans une application de visualisation cognitive.

Partant d'une représentation graphique du Da Vinci Code en bitmap fil de fer, nous créons une carte cognitive (cognitive map) synonyme de "tableau de données" en psychologie cognitive, en dessinant un tableau de trois lignes et trois colonnes dans le plan de visualisation. Il suffit alors de fusionner dans un ordre arbitraire, généralement optimisé sur la vitesse du calcul, les lignes entre elles d'une part, et les colonnes de la ligne résultante d'autre part.

La représentation graphique du Da Vinci Code.
On superpose la grille des repères du futur découpage.
Découpage de la rangée supérieure...
... et fusion avec la rangée du milieu.
Fusion de la nouvelle rangée supérieure avec la rangée inférieure.
Fusions des cases latérales effectuées.

On voit immédiatement que le Da Vinci Code constitue un sujet idéal à l'extraction de symbolisme. Il le prouve à la fois dans son algorithme universel et dans sa vertu didactique sur des thèmes aussi abstraits que l'économie spatiale, ouvrant ainsi de nombreuses perspectives en matière d'éducation scolaire au second cycle.

En cuisine

L'ADS a des utilisations pratiques en cuisine, en particulier dans la mise au point de recettes traditionnelles par étapes (i.e., en plusieurs points organisés chronologiquement en séquence), comme celle de la tarte à poires :

Préchauffez le four à 180°C.
un moule rond à bords hauts et coupez les poires en deux.
Garnissez avec la pâte. Lavez, pelez,
Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l' armagnac.
Nappez le fond de la pâte avec la crème, puis disposez légèrement dans
Enfournez les demi-poires en fleur en enfonçant la crème.
le tout les 30 mn.

Ce qui donne en langage symbolique, par synthèse d'un objet symbolique syncrétique :

  • Préchauffez le four à 180°C.
  • Garnissez un moule rond à bords hauts avec la pâte. Lavez, pelez, et coupez les poires en deux .
  • Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l'armagnac.
  • Nappez le fond de la pâte avec la crème, puis disposez les demi-poires en fleur côté bombé sur le dessus en les enfonçant légèrement dans la crème.
  • Enfournez le tout 30 mn.

Les objets symboliques sont à l'origine des fiches pratiques de recettes culinaires de ta grand-mère, et aussi à l'origine de ta mère tout court.

Voir aussi

Notes

  1. Tu vois Marietta, je ne te trompe pas.... Comment ça tu t'appelles pas Marietta ? Aïe !! Mais ça va pas ?!
  2. On rassure tout de suite le lectorat : le cadavre a été retrouvé très pâle.


691px-Pi-CM.svg.png  Portail des Sciences sérieuses


Qu'avez-vous pensé de l'article "Analyse de données symboliques" ?
Vous pouvez voter ci-dessous. Les résultats seront affichés lorsque vous aurez voté.
Vous n’êtes pas autorisé à voir les résultats de ce sondage avant d’avoir vous-même voté.
Il y avait un vote depuis l’élaboration du sondage au 6 avril 2019 à 17:32.
poll-id 1CB67B035F35D57CD4CD715474A25959