Analyse de données symboliques
L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de ? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.
NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.
Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.
Principe
Analyse classique
Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien , celui-ci puisant ses racines dans , dont l'application standard est le Démineur.
Soit un tableau de données dans cet espace (en notant la fonction , avec l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble ).
23,68 m | ||||||||||
68,5 cacahuètes | ||||||||||
Missing value | palindrome d'anagramme = emmargana |
Les déficiences de cette représentation des données sont criardes :
- Absence de treillis de Gallois
- Trisomie (cf. qui correspond à la case à l'intersection de la colonne et de la ligne )
- Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
- Quadrillage par mines anti-personnelles
Analyse symbolique
L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble . Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :
- Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
- Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
- Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
68,5 cacahuètes palindrome d'anagramme = emmargana Missing value |
Retour possible à l'analyse classique
L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.
Dans le codage symbolique suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient , , et :
Somme des angles du triangle ABC = 180° et |
On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que : l'expressivité symbolique ne souffre d'aucune limitation.
0 | 46 | 80 | |
46 | 0 | ||
80 | 54 | 0 |
L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui ! Non ! !! Car Aga, AGAGA ! », quitte à se tromper.
Formalisme
Soit une fonction de généralisation , avec associative et commutative, l'ensemble des futures désillusions organisables dans un treillis, et l'ensemble des parties de . Comme sa signature de fonction l'indique, prend deux descriptions d'individus et en synthétise un objet symbolique.
Un objet symbolique s'exprime sous forme d'un triplet . L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux) — avec la fonction transformant un individu en sa description, , , l'ensemble des individus et l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de par rapport à une description selon la relation mathématique . est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).
On note l' extension de , i.e., les individus "reconnus" grâce à comme appartenant à .
Nous posons : ceci signifie qu'un objet symbolique est équivalent à la description qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage, constitue un "filtre" mathématique. Posons pour les besoins de la rigueur. Supposons de plus que tous les éléments sont organisables en treillis de Gallois.
Théorème
- Énoncé
- Les objets symboliques sont organisés dans un treillis de Gallois dont les éléments sont de la forme .
- Démonstration de la démonstration
- Par hypothèse , donc S se comporte exactement comme une description, et comme les descriptions sont organisables en treillis, aussi. CQFDD (sic)
Treillis de concepts
La capacité à agréger un ensemble d'objets symboliques d'ordre en un seul objet (d'ordre ) permet de définir un supremum de treillis résultant de l'union de modalités d'usage indispensable, comme l'heure du jour ou la luminosité ambiante.
Par exemple, soit l'objet symbolique ( est donc ici l'opérateur d'inclusion), dont on voit immédiatement l'intérêt de se constituer en filtre de "phrases" dans l'évaluation de l'extension de — ce filtrage se faisant sur la base du caractère diurne des phrases en entrée. Ainsi filtre l'ensemble des phrases du répertoire indo-européen. En effet, soit une phrase et sa description Échec de l’analyse (erreur de syntaxe): {\displaystyle y(P) = \{ sujet, verbe, complément \}} : on voit immédiatement que , et que donc l'extension de ne contient pas .
Soient les objets symboliques et . En posant , et soit le supremum de ces objets symboliques, il devient possible de modéliser des concepts poétiques tels que "chercher la nuit à midi", "entre le noir et midi, c'est 23h et le soleil", ou encore "aujourd'hui il est 14h".
On pourrait appeler le concept de "se foutre de la gueule de son lecteur", ou encore de "prendre son lecteur pour un con". Dans tous les cas on peut intégrer cette conceptualité dans en utilisant par exemple :
Propagation des concepts
S n'exprimant qu'un mode calculatoire de son extension (et n'étant pas l'extension elle-même), il peut s'appliquer à une population arbitraire. Ainsi en Alaska, et car (en clair : Michael Jackson est inclus dans le spectre de couleurs du manchot).
Devant cette incongruité, la nécessité taxonomique de faire la part entre les manchots et Michael Jackson conduit à faire de l'espace des descriptions un espace des histogrammes à intervalles temporels, en profitant du fait qu'un manchot adulte ne change pas de couleur contrairement à la pop star. Des exemples d'histogrammes à intervalles temporels suivent :
La relation revient alors ici à une mesure de similiarité entre histogrammes. En adoptant cette nouvelle modélisation, on déduit un objet symbolique d'extension , qui exclue visiblement les manchots et l'avenir de Sophie qui s'annonçait plus particulièrement noir que blanc[2].
On voit que l'avenir de Sophie s'assombrit très vite. On pourra mieux s'en apercevoir en croisant ce diagramme avec celui du taux de blancheur de Michael Jackson. Bingo ! L'affinité est frappante de morbidité.
Si vous voulez vraiment sauver Sophie (et pas la couleur de peau de Michael) tant qu'il est encore temps, envoyez le lien de cette page à vos 10 meilleurs amis. Et en bonus, vous gagnez la possibilité de réaliser trois de vos vœux les plus chers; c'est scientifiquement prouvé par le treillis de Gallois.
Applications
En visualisation cognitive
La technique d'analyse symbolique calcule le supremum du treillis de Gallois dans une application de visualisation cognitive.
Partant d'une représentation graphique du Da Vinci Code en bitmap fil de fer, nous créons une carte cognitive (cognitive map) synonyme de "tableau de données" en psychologie cognitive, en dessinant un tableau de trois lignes et trois colonnes dans le plan de visualisation. Il suffit alors de fusionner dans un ordre arbitraire, généralement optimisé sur la vitesse du calcul, les lignes entre elles d'une part, et les colonnes de la ligne résultante d'autre part.
On voit immédiatement que le Da Vinci Code constitue un sujet idéal à l'extraction de symbolisme. Il le prouve à la fois dans son algorithme universel et dans sa vertu didactique sur des thèmes aussi abstraits que l'économie spatiale, ouvrant ainsi de nombreuses perspectives en matière d'éducation scolaire au second cycle.
En cuisine
L'ADS a des utilisations pratiques en cuisine, en particulier dans la mise au point de recettes traditionnelles par étapes (i.e., en plusieurs points organisés chronologiquement en séquence), comme celle de la tarte à poires :
Préchauffez | le | four à 180°C. | |||
un moule rond à bords hauts | et coupez les poires en | deux. | |||
Garnissez | avec la pâte. Lavez, pelez, | ||||
Mélangez dans un bol la crème, le jaune d'œuf, | le sucre, la poudre d'amandes et l' | armagnac. | |||
Nappez le fond de la pâte avec la crème, puis disposez | légèrement dans | ||||
Enfournez | les demi-poires en fleur | en enfonçant | la crème. | ||
le tout | les | 30 mn. |
Ce qui donne en langage symbolique, par synthèse d'un objet symbolique syncrétique :
|
Les objets symboliques sont à l'origine des fiches pratiques de recettes culinaires de ta grand-mère, et aussi à l'origine de ta mère tout court.
Voir aussi
Notes
Portail des Sciences sérieuses |
Vous n’êtes pas autorisé à voir les résultats de ce sondage avant d’avoir vous-même voté.