Aller au contenu

Expériences Dhātu v0.1 et échantillon typologique (child-directed-first)

Cette page consolide les artefacts du dossier experiments/dhatu/ (v0.1) en une vue unifiée utile à la recherche et aux publications. Elle décrit les sources, l’échantillon typologique, les phénomènes visés, et des métriques reproductibles.

Objectif et portée

  • Cadrer un ensemble minimal de primitives (Dhātu) éprouvé sur un corpus jouet et des prompts enfant multilingues.
  • Construire un échantillon typologique équilibré “child-directed-first” pour des comparaisons interlangues.
  • Documenter des métriques simples et des liens vers les sources afin d’assurer traçabilité et reproductibilité.

Sources de données (références externes)

Ces sources couvrent des registres enfant/adulte et des familles variées (Indo‑européen, sino‑tibétain, afro‑asiatique, nigéro‑congolais, eskimo‑aléoute, etc.).

Échantillon typologique v0.1

Priorité: child‑directed, diversité morpho‑syntaxique. Langues et profils (extrait):

Prompts enfant: langues disponibles

Codes disponibles dans experiments/dhatu/prompts_child/:

arb, cmn, deu, en, eus, ewe, fr, hau, heb, hin, hun, iku, jpn, kor, nld, spa, swa, tur, yor, zul

Phénomènes couverts (agrégat)

Comptage (toutes langues enfant confondues) — top catégories:

  • spatial:in — 38
  • AAO — 20
  • possession — 20
  • quantification — 20
  • negation — 20
  • time:now — 20
  • event:sequence — 20
  • comparison:more — 20
  • existence — 20
  • spatial:on — 19
  • evidential:reported — 19
  • modality:possibility — 15
  • aspect:progressive — 12
  • modality:permission — 5
  • SVC — 3
  • plural — 2
  • aspect? — 2
  • SVC-like — 2
  • spatial:dans — 2
  • aspect:progressive? — 1
  • spatial:sur — 1
  • incorporation? — 1
  • evidential:inferential — 1
  • habitual? — 1

Remarque: ces catégories visent à éprouver des primitives Dhātu translingues (agent‑action‑objet (AAO), relations spatiales, polarité, quantification, modalité, aspect, séquentialité, possession, existence, classes nominales/SVC, (épi)‑evidentialité, etc.).

Synthèse par langue (auto-généré)

Synthèse phénomènes par langue (child prompts)

Lang Items Phénomènes distincts Top 5 Source
arb 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/arb.json
cmn 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/cmn.json
deu 10 12 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/deu.json
en 10 16 spatial:in (2), AAO (1), aspect? (1), possession (1), spatial:on (1) experiments/dhatu/prompts_child/en.json
eus 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/eus.json
ewe 10 13 SVC (2), spatial:in (2), AAO (1), possession (1), spatial:on (1) experiments/dhatu/prompts_child/ewe.json
fr 10 15 spatial:dans (2), AAO (1), aspect? (1), possession (1), spatial:sur (1) experiments/dhatu/prompts_child/fr.json
hau 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/hau.json
heb 10 12 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/heb.json
hin 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/hin.json
hun 10 12 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/hun.json
iku 10 14 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/iku.json
jpn 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/jpn.json
kor 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/kor.json
nld 10 12 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/nld.json
spa 10 12 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/spa.json
swa 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/swa.json
tur 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/tur.json
yor 10 15 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/yor.json
zul 10 13 spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) experiments/dhatu/prompts_child/zul.json

Métriques expérimentales (v0.1)

  • Corpus jouet (toy_corpus.json + gold_encodings.json):
  • phrases: 12
  • couvertes: 12 — taux = 1.0
  • primitives moyennes par encodage: 3.667
  • Prompts enfant (gold encodings enfants): fichier gold_encodings_child.json vide actuellement → métriques détaillées à venir (annotation en cours).

Reproductibilité (exécution locale)

Exécuter depuis la racine du dépôt:

  • Lister l’échantillon typologique et sources:
  • python3 experiments/dhatu/validator.py --list-sample
  • Langues disponibles (prompts enfant):
  • python3 experiments/dhatu/validator.py --list-child-langs
  • Comptage des phénomènes à travers toutes les langues enfant:
  • python3 experiments/dhatu/validator.py --phenomena
  • Métriques corpus jouet (couverture, longueur moyenne):
  • python3 experiments/dhatu/validator.py --metrics

Liens internes

  • Inventaire Dhātu v0.1: research/inventaire-dhatu-v0-1.md
  • Références de recherche: research/references.md

Langues et sources enfant (auto-généré)

Langues, volumes et sources enfant

Lang Nom Items Sources enfant (externe)
arb arb 10 العربية
cmn cmn 10 Mandarin corpora, 中文 (简体)
deu deu 10 German corpora, Deutsch
en en 10
eus eus 10
ewe ewe 10
fr fr 10
hau hau 10 Hausa
heb heb 10 Hebrew corpora, עברית
hin hin 10
hun hun 10 Hungarian corpora, Magyar
iku iku 10 ᐃᓄᒃᑎᑐᑦ (Inuktitut)
jpn jpn 10 Japanese corpora, 日本語
kor kor 10 Korean corpora, 한국어
nld nld 10 Dutch corpora
spa spa 10 Spanish corpora, Español
swa swa 10 Kiswahili
tur tur 10 Turkish corpora, Türkçe
yor yor 10 Yorùbá
zul zul 10 isiZulu

Dernière mise à jour: générée à partir des sources experiments/dhatu/ v0.1.