Expériences Dhātu v0.1 et échantillon typologique (child-directed-first)¶
Cette page consolide les artefacts du dossier experiments/dhatu/
(v0.1) en une vue unifiée utile à la recherche et aux publications. Elle décrit les sources, l’échantillon typologique, les phénomènes visés, et des métriques reproductibles.
Objectif et portée¶
- Cadrer un ensemble minimal de primitives (Dhātu) éprouvé sur un corpus jouet et des prompts enfant multilingues.
- Construire un échantillon typologique équilibré “child-directed-first” pour des comparaisons interlangues.
- Documenter des métriques simples et des liens vers les sources afin d’assurer traçabilité et reproductibilité.
Sources de données (références externes)¶
- CHILDES (TalkBank): https://childes.talkbank.org/
- WALS (World Atlas of Language Structures): https://wals.info/
- Universal Dependencies (UD): https://universaldependencies.org/
- African Storybook: https://www.africanstorybook.org/
- Global Storybooks: https://globalstorybooks.net/
- Storybooks Canada: https://storybookscanada.ca/
Ces sources couvrent des registres enfant/adulte et des familles variées (Indo‑européen, sino‑tibétain, afro‑asiatique, nigéro‑congolais, eskimo‑aléoute, etc.).
Échantillon typologique v0.1¶
Priorité: child‑directed, diversité morpho‑syntaxique. Langues et profils (extrait):
- English (eng) — Indo‑European > Germanic — SVO
- CHILDES: Brown/Providence → https://childes.talkbank.org/access/Eng-NA/
- GlobalStorybooks: English → https://globalstorybooks.net/collections/english/
- French (fra) — Indo‑European > Romance — SVO
- CHILDES: French → https://childes.talkbank.org/access/French/
- GlobalStorybooks: Français → https://globalstorybooks.net/collections/french/
- Spanish (spa) — Indo‑European > Romance — SVO
- CHILDES: Spanish → https://childes.talkbank.org/access/Spanish/
- GlobalStorybooks: Español → https://globalstorybooks.net/collections/spanish/
- German (deu) — Indo‑European > Germanic — SVO, V2
- CHILDES: German → https://childes.talkbank.org/access/German/
- GlobalStorybooks: Deutsch → https://globalstorybooks.net/collections/german/
- Dutch (nld) — Indo‑European > Germanic — SVO, V2
- CHILDES: Dutch → https://childes.talkbank.org/access/Dutch/
- Italian (ita) — Indo‑European > Romance — SVO
- CHILDES: Italian → https://childes.talkbank.org/access/Italian/
- GlobalStorybooks: Italiano → https://globalstorybooks.net/collections/italian/
- Portuguese (por) — Indo‑European > Romance — SVO
- CHILDES: Portuguese → https://childes.talkbank.org/access/Portuguese/
- GlobalStorybooks: Português → https://globalstorybooks.net/collections/portuguese/
- Mandarin Chinese (cmn) — Sino‑Tibetan — SVO, classificateurs
- CHILDES: Mandarin → https://childes.talkbank.org/access/Mandarin/
- GlobalStorybooks: 中文 (简体) → https://globalstorybooks.net/collections/chinese-simplified/
- Japanese (jpn) — Japonic — SOV, honorifiques
- CHILDES: Japanese → https://childes.talkbank.org/access/Japanese/
- GlobalStorybooks: 日本語 → https://globalstorybooks.net/collections/japanese/
- Korean (kor) — Koreanic — SOV, honorifiques
- CHILDES: Korean → https://childes.talkbank.org/access/Korean/
- GlobalStorybooks: 한국어 → https://globalstorybooks.net/collections/korean/
- Turkish (tur) — Turkic — SOV, agglutinant
- CHILDES: Turkish → https://childes.talkbank.org/access/Turkish/
- GlobalStorybooks: Türkçe → https://globalstorybooks.net/collections/turkish/
- Hungarian (hun) — Uralic — agglutinant
- CHILDES: Hungarian → https://childes.talkbank.org/access/Hungarian/
- GlobalStorybooks: Magyar → https://globalstorybooks.net/collections/hungarian/
- Hebrew (heb) — Afro‑Asiatic > Semitic — schèmes racinaires
- CHILDES: Hebrew → https://childes.talkbank.org/access/Hebrew/
- GlobalStorybooks: עברית → https://globalstorybooks.net/collections/hebrew/
- Arabic (arb) — Afro‑Asiatic > Semitic — VSO/SVO, schèmes racinaires
- GlobalStorybooks: العربية → https://globalstorybooks.net/collections/arabic/
- Swahili (swa) — Niger‑Congo > Bantu — SVO, classes nominales
- AfricanStorybook: Kiswahili → https://www.africanstorybook.org/language/kiswahili
- Yoruba (yor) — Niger‑Congo — SVO, SVC
- AfricanStorybook: Yorùbá → https://www.africanstorybook.org/language/yoruba
- Hausa (hau) — Afro‑Asiatic > Chadic — SVO
- AfricanStorybook: Hausa → https://www.africanstorybook.org/language/hausa
- Zulu (zul) — Niger‑Congo > Bantu — SVO, classes nominales
- AfricanStorybook: isiZulu → https://www.africanstorybook.org/language/isizulu
- Inuktitut (iku) — Eskimo–Aleut — polysynthétique, incorporation
- StorybooksCanada: ᐃᓄᒃᑎᑐᑦ → https://storybookscanada.ca/?lang=iu
Prompts enfant: langues disponibles¶
Codes disponibles dans experiments/dhatu/prompts_child/
:
arb, cmn, deu, en, eus, ewe, fr, hau, heb, hin, hun, iku, jpn, kor, nld, spa, swa, tur, yor, zul
Phénomènes couverts (agrégat)¶
Comptage (toutes langues enfant confondues) — top catégories:
- spatial:in — 38
- AAO — 20
- possession — 20
- quantification — 20
- negation — 20
- time:now — 20
- event:sequence — 20
- comparison:more — 20
- existence — 20
- spatial:on — 19
- evidential:reported — 19
- modality:possibility — 15
- aspect:progressive — 12
- modality:permission — 5
- SVC — 3
- plural — 2
- aspect? — 2
- SVC-like — 2
- spatial:dans — 2
- aspect:progressive? — 1
- spatial:sur — 1
- incorporation? — 1
- evidential:inferential — 1
- habitual? — 1
Remarque: ces catégories visent à éprouver des primitives Dhātu translingues (agent‑action‑objet (AAO), relations spatiales, polarité, quantification, modalité, aspect, séquentialité, possession, existence, classes nominales/SVC, (épi)‑evidentialité, etc.).
Synthèse par langue (auto-généré)¶
Synthèse phénomènes par langue (child prompts)¶
Lang | Items | Phénomènes distincts | Top 5 | Source |
---|---|---|---|---|
arb |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/arb.json |
cmn |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/cmn.json |
deu |
10 | 12 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/deu.json |
en |
10 | 16 | spatial:in (2), AAO (1), aspect? (1), possession (1), spatial:on (1) | experiments/dhatu/prompts_child/en.json |
eus |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/eus.json |
ewe |
10 | 13 | SVC (2), spatial:in (2), AAO (1), possession (1), spatial:on (1) | experiments/dhatu/prompts_child/ewe.json |
fr |
10 | 15 | spatial:dans (2), AAO (1), aspect? (1), possession (1), spatial:sur (1) | experiments/dhatu/prompts_child/fr.json |
hau |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/hau.json |
heb |
10 | 12 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/heb.json |
hin |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/hin.json |
hun |
10 | 12 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/hun.json |
iku |
10 | 14 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/iku.json |
jpn |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/jpn.json |
kor |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/kor.json |
nld |
10 | 12 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/nld.json |
spa |
10 | 12 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/spa.json |
swa |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/swa.json |
tur |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/tur.json |
yor |
10 | 15 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/yor.json |
zul |
10 | 13 | spatial:in (2), AAO (1), possession (1), spatial:on (1), quantification (1) | experiments/dhatu/prompts_child/zul.json |
Métriques expérimentales (v0.1)¶
- Corpus jouet (
toy_corpus.json
+gold_encodings.json
): - phrases: 12
- couvertes: 12 — taux = 1.0
- primitives moyennes par encodage: 3.667
- Prompts enfant (gold encodings enfants): fichier
gold_encodings_child.json
vide actuellement → métriques détaillées à venir (annotation en cours).
Reproductibilité (exécution locale)¶
Exécuter depuis la racine du dépôt:
- Lister l’échantillon typologique et sources:
- python3 experiments/dhatu/validator.py --list-sample
- Langues disponibles (prompts enfant):
- python3 experiments/dhatu/validator.py --list-child-langs
- Comptage des phénomènes à travers toutes les langues enfant:
- python3 experiments/dhatu/validator.py --phenomena
- Métriques corpus jouet (couverture, longueur moyenne):
- python3 experiments/dhatu/validator.py --metrics
Liens internes¶
- Inventaire Dhātu v0.1:
research/inventaire-dhatu-v0-1.md
- Références de recherche:
research/references.md
Langues et sources enfant (auto-généré)¶
Langues, volumes et sources enfant¶
Lang | Nom | Items | Sources enfant (externe) |
---|---|---|---|
arb |
arb | 10 | العربية |
cmn |
cmn | 10 | Mandarin corpora, 中文 (简体) |
deu |
deu | 10 | German corpora, Deutsch |
en |
en | 10 | |
eus |
eus | 10 | |
ewe |
ewe | 10 | |
fr |
fr | 10 | |
hau |
hau | 10 | Hausa |
heb |
heb | 10 | Hebrew corpora, עברית |
hin |
hin | 10 | |
hun |
hun | 10 | Hungarian corpora, Magyar |
iku |
iku | 10 | ᐃᓄᒃᑎᑐᑦ (Inuktitut) |
jpn |
jpn | 10 | Japanese corpora, 日本語 |
kor |
kor | 10 | Korean corpora, 한국어 |
nld |
nld | 10 | Dutch corpora |
spa |
spa | 10 | Spanish corpora, Español |
swa |
swa | 10 | Kiswahili |
tur |
tur | 10 | Turkish corpora, Türkçe |
yor |
yor | 10 | Yorùbá |
zul |
zul | 10 | isiZulu |
Dernière mise à jour: générée à partir des sources experiments/dhatu/
v0.1.