Compression sémantique (computationnelle)¶

Principes, cas d’usage et métriques pour évaluer la compression sémantique via Dhātu.

Objectif¶

Minimiser la perte de sens à débit (bitrate) fixé en représentant connaissances et messages sous forme de primitives Dhātu compactes.

Métriques (v0)¶

Couverture conceptuelle: % de concepts/fragments encodés sans primitive additionnelle.
Taux de reconstruction: similarité sémantique (humains/LLM) entre original et paraphrase décodée.
Taux d’ambiguïté: décodages plausibles par encodage; plus bas est mieux.
Taille moyenne d’encodage: primitives par proposition; budget cible à fixer par use case.
Coût d’apprentissage: exemples nécessaires pour apprendre un mapping stable (few-shot) sur un domaine.

Protocole d’évaluation minimal¶

1) Corpus jouet bilingue (FR/EN) de 100 phrases couvrant AAO, relations spatiales, temps, négation, quantification. 2) Encodage manuel de référence (gold) + tentative d’encodage automatique (règles/LLM guidé). 3) Décodage vers paraphrases FR/EN et scoring de similarité/ambiguïté. 4) Calcul des métriques ci-dessus; rapporter moyenne, médiane, variabilité.

Micro-cas¶

Instruction simple: « Ferme la porte » → [ACTION:fermer][OBJ:porte][AGENT:destinataire]
Question oui/non: « As-tu faim ? » → [INTERROGATIVE][ÉTAT:faim][AGENT:destinataire]
Contre-exemple ambigu: « Je vois l’homme avec le télescope » (attachement prépositionnel)

Pistes d’implémentation¶

Définir un petit inventaire Dhātu versionné (v0.1) dans un fichier YAML pour itérer.
Écrire un validateur d’encodage/décodage (tests unitaires) avec jeux de phrases jouets.
Incrémenter la couverture par domaines (objets domestiques, mouvements, interactions sociales de base).

Essayer (mini-banc d’essai)¶

Dossier: experiments/dhatu/
Lister: python experiments/dhatu/validator.py --list
Métriques: python experiments/dhatu/validator.py --metrics

Références¶

Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379–423; 27(4), 623–656. DOI: 10.1002/j.1538-7305.1948.tb01338.x
Tishby, N., Pereira, F. C., & Bialek, W. (2000). The Information Bottleneck Method. arXiv:physics/0004057. DOI: 10.48550/arXiv.physics/0004057
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the Dimensionality of Data with Neural Networks. Science, 313(5786), 504–507. DOI: 10.1126/science.1127647
Page « Références de recherche »: ../research/references.md