Skip to content

Compression sémantique (computationnelle)

Principes, cas d’usage et métriques pour évaluer la compression sémantique via Dhātu.

Objectif

Minimiser la perte de sens à débit (bitrate) fixé en représentant connaissances et messages sous forme de primitives Dhātu compactes.

Métriques (v0)

  • Couverture conceptuelle: % de concepts/fragments encodés sans primitive additionnelle.
  • Taux de reconstruction: similarité sémantique (humains/LLM) entre original et paraphrase décodée.
  • Taux d’ambiguïté: décodages plausibles par encodage; plus bas est mieux.
  • Taille moyenne d’encodage: primitives par proposition; budget cible à fixer par use case.
  • Coût d’apprentissage: exemples nécessaires pour apprendre un mapping stable (few-shot) sur un domaine.

Protocole d’évaluation minimal

1) Corpus jouet bilingue (FR/EN) de 100 phrases couvrant AAO, relations spatiales, temps, négation, quantification. 2) Encodage manuel de référence (gold) + tentative d’encodage automatique (règles/LLM guidé). 3) Décodage vers paraphrases FR/EN et scoring de similarité/ambiguïté. 4) Calcul des métriques ci-dessus; rapporter moyenne, médiane, variabilité.

Micro-cas

  • Instruction simple: « Ferme la porte » → [ACTION:fermer][OBJ:porte][AGENT:destinataire]
  • Question oui/non: « As-tu faim ? » → [INTERROGATIVE][ÉTAT:faim][AGENT:destinataire]
  • Contre-exemple ambigu: « Je vois l’homme avec le télescope » (attachement prépositionnel)

Pistes d’implémentation

  • Définir un petit inventaire Dhātu versionné (v0.1) dans un fichier YAML pour itérer.
  • Écrire un validateur d’encodage/décodage (tests unitaires) avec jeux de phrases jouets.
  • Incrémenter la couverture par domaines (objets domestiques, mouvements, interactions sociales de base).

Essayer (mini-banc d’essai)

  • Dossier: experiments/dhatu/
  • Lister: python experiments/dhatu/validator.py --list
  • Métriques: python experiments/dhatu/validator.py --metrics

Références

  • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379–423; 27(4), 623–656. DOI: 10.1002/j.1538-7305.1948.tb01338.x
  • Tishby, N., Pereira, F. C., & Bialek, W. (2000). The Information Bottleneck Method. arXiv:physics/0004057. DOI: 10.48550/arXiv.physics/0004057
  • Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the Dimensionality of Data with Neural Networks. Science, 313(5786), 504–507. DOI: 10.1126/science.1127647
  • Page « Références de recherche »: ../research/references.md