Universaux sémantiques (Dhātu)¶
Résumé, hypothèses, protocoles de validation, résultats et références.
Synthèse (draft)¶
- Problématique: identifier un noyau d’universaux sémantiques stables (Dhātu) exploitable pour stockage/communication/traitement.
- Contexte: consolidation post-vacances, remise en état CI/CD, recentrage sur le QUOI de la recherche.
- Cible v0: un inventaire minimal praticable (voir « Inventaire Dhātu v0.1 ») et un protocole reproductible.
Hypothèses (à préciser)¶
- Un ensemble réduit de primitives sémantiques peut encoder efficacement des concepts à large couverture.
- La trajectoire d’acquisition du langage chez l’enfant éclaire l’ordre d’émergence de ces universaux.
- Une représentation Dhātu correctement contrainte minimise l’ambiguïté tout en restant décodable sans contexte encyclopédique lourd.
Portée universelle: échantillonnage et couverture¶
- Échantillonnage stratifié (WALS/Glottolog): au moins 1 langue par grande famille (≥ 25 familles), couvrant aussi des isolats; équilibre géographique (Afrique, Eurasie, Océanie, Amériques, Papouasie, Australie).
- Priorité données: textes dirigés vers l’enfant (contes, dialogues parent‑enfant) pour ancrer les phénomènes minimaux d’abord.
- Inclure des profils structuraux contrastés:
- Langues signées (ASL, Langue des Signes Nicaraguayenne/NSL) et émergentes.
- Créoles/pidgins (Haïtien, Tok Pisin) et langues à SVC (Ewe, Yoruba).
- Ergativité (Basque, Dyirbal), split‑ergativité (Hindi‑Urdu).
- Polysynthèse et incorporation nominale (Inuktitut, Mohawk).
- Ordres marqués (OSV Hixkaryana), ordre libre (Warlpiri), alignements pragmatiques.
- Classificateurs et mesure (Mandarin, Yudja), classes nominales (Bantu).
- Évidentialité obligatoire (Quechua, Tariana); systèmes honorifiques (Japonais, Coréen).
- Idéophones riches (Siwu, Ewe); systèmes numériques atypiques (Oksapmin, Pirahã — avec prudence méthodologique).
- Jeux de données: WALS, APiCS (créoles), Universal Dependencies (arbres multi‑langues), Global Signbank (lexiques signés), Glottolog (métadonnées), TalkBank/CHILDES (développement).
- Échantillon JSON:
experiments/dhatu/typological_sample.json
(sources: CHILDES, African Storybook, Global Storybooks, UD, WALS).
Observations (journalisées)¶
- Stabilisation de l’écosystème et des workflows favorise l’itération scientifique (journaux 2025‑08‑30).
- Nécessité d’isoler l’infrastructure (COMMENT) de la recherche (QUOI) dans la documentation.
- Les confusions fréquentes portent sur les rôles (AGENT/PATIENT), les relations spatiales/possessives (REL/DE/SUR), et la portée de la négation/modale.
Protocole minimal de validation (v0)¶
- Couverture: cartographier un échantillon de 100 concepts fréquents (noms, verbes, relations) vers un set Dhātu minimal; mesurer le taux de concepts encodés sans ajout de primitive.
- Ambiguïté: pour chaque encodage, compter le nombre de décodages plausibles; objectif v0 ≤ 1.5 interprétation moyenne par entrée (avec contexte court).
- Réversibilité: décoder les représentations Dhātu vers des paraphrases FR/EN et évaluer l’équivalence sémantique par jugement humain ou LLM robuste (agreement ≥ 0,8).
- Parcimonie: pénaliser le nombre de primitives utilisées par concept (objectif médian ≤ 4 primitives/concept au v0).
- Stabilité: tester la robustesse à la paraphrase (10 variantes par phrase) et mesurer la variance des encodages.
Extension universelle (v0.1) - Échantillon typologique: 30 langues couvrant les profils ci‑dessus; 10 phrases minimales par phénomène (AAO, possession, spatial, quantif., négation, modalité, causation, temps/aspect, évidence, valence, comparaison, existence, part‑tout). - Traductions contrôlées: pour chaque test, obtenir 2 versions natives (ou sources publiées) pour limiter les biais de calque. - Équivalence sémantique: jugements par locuteurs ou évaluateurs spécialisés quand disponible (signées/ergatives/polysynthétiques).
Universaux candidats (liste testable v0)¶
- Participants et rôles: AGENT, PATIENT/THEME, RECIPIENT/BENEF.
- Événement/action, état, cause/causation; valence et transitivité; voice/opérations (causer, laisser, se‑, passif — comme dérivations, pas primitives).
- Négation (polaritée), modalité (possibilité, obligation), vérité/évidence (évidentialité comme attribut de source, non pas vérité elle‑même).
- Quantification: cardinalité (0,1,2,3…), totalité/partitif, approximatifs (≥, ≤, ~), distributif/collectif.
- Relations spatiales de base: DANS/INTERIEUR, SUR/CONTACT‑SUP, SOUS, PROXIMITÉ, CHEZ/LOCAL‑REF, TRAJECTOIRE (VERS/DEPUIS/À‑TRAVERS).
- Possession/lien: POSSESSION (HAVE/GEN) et relations génitives (appartenance, partie‑tout, type‑de) distinguées par REL‑sous‑types.
- Temps/aspect: AVANT/APRÈS/MAINTENANT; PERFECTIF/IMPERFECTIF; HABITUEL; PROGRESSIF.
- Comparaison et degré: PLUS/LE‑PLUS, MOINS/LE‑MOINS; égalité/identité.
- Existence et localisation: IL‑Y‑A/EXISTE; ÊTRE‑À (copule locative/attributive séparées au besoin).
- Partie‑tout/meronymie; identité/référence; types/classes (EST‑UN/TYPE‑DE).
Critère: tout phénomène morpho‑syntaxique doit pouvoir se paraphraser via combinaisons de ces primitives sémantiques, indépendamment de la réalisation de surface.
Micro-cas (sanity checks)¶
1) Agent-Action-Objet (AAO) - Entrée: « Le chat chasse la souris. » - Dhātu attendu: [AGENT:chat] [ACTION:chasser] [PATIENT:souris] [ASPECT:habituel?] - Tests: variation de temps (« chassera »), de négation (« ne chasse pas »), de modalité (« peut chasser »).
2) Possession et localisation - Entrée: « Le livre est sur la table de Marie. » - Dhātu attendu: [OBJ:livre] [REL:sur] [REF:table] [REL:de] [REF:Marie] - Tests: ambigüité de « de » (possession vs. composition), empilement de relations. - Décodage cible: « The book is on Marie’s table. » / « Le livre est sur la table appartenant à Marie. »
3) Quantification simple - Entrée: « Trois enfants courent. » - Dhātu attendu: [QUANT:3] [AGENT:enfant] [ACTION:courir] - Tests: accord, pluriel irrégulier, zéro/indéfini (« des enfants »). - Variante: « Au moins trois enfants courent. » → [QUANT:>=3] [...]
4) Négation et modalité - Entrée: « Il ne peut pas venir. » - Dhātu: [AGENT:il][MODALITY:PEUT][NEGATION][ACTION:venir] - Test: portée de NEGATION vs. MODALITY (« il peut ne pas venir »).
5) Évidentialité (source de l’information) - Entrée: « Il serait venu (à ce qu’on dit). » / Quechua (marque obligatoire de source) - Dhātu: [ACTION:venir][ASPECT:ACCOMPLI?][EVIDENCE:REPORTÉ] - Test: neutraliser l’ancrage morphologique local tout en conservant la source (visuel, inférentiel, rapporté).
6) Sérialisation verbale (événements chaînés) - Entrée (Ewe/Yoruba): « aller‑prendre‑venir » (aller prendre quelque chose et revenir) - Dhātu: [ACTION:aller][ACTION:prendre][ACTION:venir][CHAÎNAGE:SEQ] - Test: séquence ordonnée d’événements sans subordination morphologique.
7) Incorporation nominale (polysynthèse) - Entrée (Mohawk/Inuktitut): verbe+nom incorporé « poisson‑manger » - Dhātu: [ACTION:manger][PATIENT:poisson][LIAISON:INCORP] - Test: vérifier que l’incorporation n’ajoute pas de primitive sémantique.
Risques et limites¶
- Biais linguistiques (FR/EN) vs. universaux crosslinguistiques.
- Conflation sémantique entre relation lexicale et structure logique.
- Coût cognitif de décodage si la base de primitives s’étend trop.
- Effet « anglais-centrique » des corpus et des LLM évaluateurs.
Limitation proactive - Multiplier les langues non‑indo‑européennes et les langues signées; valider via WALS/APiCS/Signbank et littérature typologique.
Suivi et métriques¶
- Taux de couverture (%) sur listes de fréquence (SUBTLEX, Wikidata labels, WordNet synsets de base).
- Ambiguïté moyenne (décodages plausibles par encodage) sur un set de phrases tests.
- Taille moyenne de représentation (nombre de primitives par concept/phrase).
- Accord inter-évaluateurs (ou proxy LLM) sur la réversibilité.
- Stabilité inter-paraphrases (distance d’édition entre encodages; écart-type).
Couverture typologique - Taux de phénomènes couverts par famille/aire (cartes WALS/APiCS); détecter des « trous » (ex. évidentialité non couverte, SVC insuffisantes, etc.).
Sources (journaux)¶
- Récapitulatif complet: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-RECAPITULATIF-COMPLET-totoro-pid17771.md
- Session: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-session.md
- Hauru pid74498 session: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-hauru-pid74498-session.md
- CI stabilisation/merge: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-ci-stabilisation-merge.md
- Camping final: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-totoro-pid17771-camping-final.md
- Assimilation archives: https://github.com/stephanedenis/PaniniFS/blob/master/Copilotage/journal/2025-08-30-linux-pid0-assimilation-archives.md
Références externes (sélection)¶
- Haspelmath, M. (2007). Pre-established categories don't exist: Consequences for language description and typology. Linguistic Typology, 11(1). DOI: 10.1515/LINGTY.2007.011
- WALS — World Atlas of Language Structures. https://wals.info/
- Universal Dependencies (UD). https://universaldependencies.org/
- Page « Références de recherche »: ../research/references.md
- Evans, N., & Levinson, S. C. (2009). The myth of language universals. BBS. DOI: 10.1017/S0140525X0999094X
- Aikhenvald, A. Y. (2004). Evidentiality. Oxford University Press. ISBN: 978-0199204380
- APiCS — Atlas of Pidgin and Creole Language Structures. https://apics-online.info/
- Global Signbank (Radboud). https://signbank.science.ru.nl/
Notes pratiques - L’inventaire de travail: voir « Inventaire Dhātu v0.1 ». - Convention de nommage: MAJUSCULE pour rôles/opérateurs; minuscules pour lexèmes; REL peut être spécialisé (SUR/DANS/DE) selon le domaine. - Pour les alias anglais: maintenir un fichier EN miroir afin de satisfaire la gouvernance FR/EN tout en centralisant le contenu canonique.
Essayer (mini-banc d’essai)¶
- Dossier:
experiments/dhatu/
- Lister le corpus jouet:
python experiments/dhatu/validator.py --list
- Calculer des métriques brutes:
python experiments/dhatu/validator.py --metrics
- Lister l’échantillon typologique (child-directed-first):
python experiments/dhatu/validator.py --list-sample