Résultats de couverture lexicale — Moteur PaniniFS¶

Cette page documente les métriques de couverture lexicale du moteur sémantique PaniniFS sur deux corpus : le corpus Gutenberg (textes classiques) et le corpus Wikipédia.

Métrique

La couverture lexicale mesure la proportion de mots de contenu (après suppression des mots fonctionnels) dont au moins un atome sémantique peut être assigné sans ajout de nouvelle primitive.

État global — corpus Gutenberg élargi (v4.8.16)¶

62 fichiers · 12 langues · ~5.8M mots (état : février 2026)

Langue	Code	Couverture	Famille	Écriture
Anglais	`en`	81.4%	Indo-européen/Germanique	Latin
Allemand	`de`	81.4%	Indo-européen/Germanique	Latin
Français	`fr`	79.4%	Indo-européen/Roman	Latin
Espéranto	`eo`	73.2%	Construit	Latin
Japonais	`ja`	74.1%	Japonique	CJK
Chinois	`zh`	76.6%	Sino-tibétain	CJK
Italien	`it`	71.1%	Indo-européen/Roman	Latin
Finnois	`fi`	71.7%	Ouralique	Latin
Espagnol	`es`	68.7%	Indo-européen/Roman	Latin
Russe	`ru`	56.3%	Indo-européen/Slave	Cyrillique
Néerlandais	`nl`	55.9%	Indo-européen/Germanique	Latin
Sanskrit	`sa`	10.7%	Indo-européen/Indique	IAST translittéré
Global	—	76.8%	—	—

Note : Les scores sur corpus élargi (62 fichiers, textes difficiles dont Dante XIVe s., orthographe russe pré-1918, orthographe néerlandaise pré-1947) sont inférieurs aux scores sur le corpus original (11 fichiers, textes modernes), qui montraient 7/7 langues EU ≥ 90%.

Corpus Gutenberg original — 7 langues européennes (v4.8.11)¶

11 fichiers · 7 langues · corpus classique calibré

Langue	Couverture	Statut
Anglais	94.4%	🟢
Espéranto	93.2%	🟢
Allemand	91.1%	🟢
Finnois	90.6%	🟢
Espagnol	90.1%	🟢
Français	90.1%	🟢
Italien	90.1%	🟢
Global	91.2%	🎯

Milestone : 7/7 langues européennes ≥ 90%, atteint en v4.8.11 (21 février 2026).

Corpus Wikipédia (v4.7 — Wikipedia Audit)¶

973 articles · 14 langues · 2.2M mots

34/34 atomes couverts sur toutes les langues = 100% de présence atomique
Similarité cosinus cross-langue (FR↔ZH = 0.904, EN↔FR = 0.93)
Les 14 langues incluent : EN, FR, DE, ES, IT, FI, EO, PT, NL, JA, ZH, HI, SA, AR

Progression version par version — corpus EU original¶

Évolution sur le corpus Gutenberg EU original (11 fichiers), de v4.8.2 à v4.8.11 :

Version	Nouvelles entrées	Gain global	Couverture	Milestone
v4.8.2	base	—	85.1%
v4.8.3	771	+2.3pp	87.4%
v4.8.4	584	+1.4pp	88.8%
v4.8.5	corrections algo	+0.2pp	89.0%
v4.8.6	400	+0.4pp	89.4%
v4.8.7	307	+0.7pp	90.1%	🎯 90% global
v4.8.8	136	+0.4pp	90.5%	FR ≥ 90%
v4.8.9	113	+0.3pp	90.8%
v4.8.10	110	+0.2pp	91.0%
v4.8.11	124	+0.2pp	91.2%	🎯 7/7 EU ≥ 90%
Total	~2 550	+6.1pp	91.2%

Percées multilingues — corpus élargi (v4.8.12 → v4.8.16)¶

Après extension à 62 fichiers incluant langues non-européennes :

Japonais : 18.8% → 74.1% (+55.3pp)¶

Fichier	Contenu	Avant	Après
pg1982	Rashomon (Akutagawa)	18.8%	74.0%
pg31617	Shisei (Tanizaki)	—	71.9%
pg31757	Omedetaki hito (Mushanokoji)	—	78.4%

Techniques : tokenisation kanji-only, suppression furigana 《》, OpenCC kyūjitai → simplifié.

Chinois : 33.8% → 73.9% (+40.1pp)¶

Techniques : OpenCC traditionnel→simplifié, filtre ponctuation CJK, 471 entrées (347 mots-clés, 64 stop words, 60 noms propres).

Russe : 16.5% → 56.3% (+39.8pp total)¶

Fichier	Contenu	Avant	Après
pg16527	Texte commercial	—	64.4%
pg14741	Derjavine, odes spirituelles	21.8%	48.9%
pg30774	Voyageurs en Moscovie (pré-réforme 1918)	13.6%	41.8%

Techniques : stemmer Snowball russe, normaliseur orthographe pré-1918 (ъ, ѣ→е, і→и), 450 mots-clés, 250 stop words.

Néerlandais : 28.4% → 55.9% (+27.5pp total)¶

Fichier	Contenu	Avant	Après
pg17525	Buysse, prose flamande	41.7%	52.5%
pg18066	Columbus, exploration	37.9%	56.8%

Techniques : stemmer Snowball néerlandais, table 48 paires orthographe pré-1947 (zoo→zo, groote→grote), 350 mots-clés, 180 stop words.

Résultats notables par fichier (corpus EU élargi, v4.8.15)¶

Fichier	Langue	Contenu	Couverture
pg1232	EN	The Prince (Machiavel)	83.6%
pg2407	DE	Also Sprach Zarathustra	89.1%
pg2000	ES	Don Quijote	86.4%
pg17989	FR	De la Terre à la Lune (Verne)	90.1%
pg1012	IT	Divina Commedia (Dante, XIVe s.)	~81%
pg16328	EN	Beowulf (poésie ancienne)	81.6%
pg74	EN	Tom Sawyer (Twain)	83.6%
pg5185	EN	Kalevala EN	80.9%

Effets de bord croisés (spillover)¶

La validation de v4.8.14 a révélé des gains non ciblés dus aux partages kanji/hanzi :

Langue	Avant v4.8.14	Après	Δ
Espéranto	67.3%	73.2%	+5.9pp
Finnois	66.0%	71.7%	+5.7pp
Allemand	77.8%	80.6%	+2.8pp
Chinois	73.9%	76.6%	+2.7pp
Français	75.8%	78.4%	+2.6pp

Insight clé : les kanji japonais partagent les caractères hanzi chinois ; une couverture acquise pour l'une bénéficie automatiquement à l'autre, confirmant que l'atome sémantique est indépendant de l'écriture.

Infrastructure et reproductibilité¶

Composant	Description
Moteur	`seven_layers_engine.py` — 3 320 lignes, 14 langues, 34 atomes
Lemmatiseur finnois	`voikko` — formes fléchies, participes passés
Stemmers	Snowball pour EN/FR/DE/ES/IT/FI/EO/RU/NL (9 langues)
Normaliseur	`text_normalizer.py` — NFC, BCP 47, NFKC CJK, époque
Normalisation russe	`normalize_prereform_ru()` — orthographe pré-1918
Normalisation CJK	OpenCC `t2s` (traditionnel→simplifié)
Normalisation NL	Table 48 paires orthographe pré-1947
Corpus Dolt	3 bases (~215 Mo), schéma v3, optimisation ×877

Voir aussi¶

Atomes universaux (34) — tableau complet
Universaux sémantiques — protocole de validation
Cadre Dhātu — vue d'ensemble
Avancement & feuille de route