Aller au contenu

Quoi de neuf — Février 2026

Synthèse des avancées majeures de la session de recherche de février 2026.

🎯 Couverture lexicale : 7/7 langues européennes ≥ 90%

Résultat validé sur le corpus Gutenberg (37 textes) et Wikipédia (973 articles) :

Langue Couverture
Anglais 94.4%
Espéranto 93.2%
Allemand 91.1%
Finnois 90.6%
Espagnol 90.1%
Français 90.1%
Italien 90.1%

🔥 Percées multilingues majeures

Japonais : 18.8% → 74.1% (+55.3pp)

  • Tokenisation kanji-only (suppression des furigana 《》)
  • Normalisation OpenCC kyūjitai (旧字体 → formes modernes)
  • Insight : l'atome sémantique traverse les écritures — les kanji japonais partagent les caractères hanzi chinois

Chinois : 33.8% → 73.9% (+40.1pp)

  • OpenCC traditionnel→simplifié
  • 471 nouvelles entrées (347 mots-clés, 64 stop words, 60 noms propres)

Russe : 16.5% → 56.3% (+39.8pp total)

  • Stemmer Snowball russe activé
  • Normaliseur orthographe pré-réforme 1918 : ъ final, ѣ→е, і→и, ѳ→ф
  • 450 mots-clés, 250 stop words

Néerlandais : 28.4% → 55.9% (+27.5pp total)

  • Stemmer Snowball néerlandais activé
  • Table 48 paires orthographe pré-1947 (zoo→zo, groote→grote, schoone→schone…)
  • 350 mots-clés, 180 stop words

📊 État global (v4.8.16)

  • 14 langues, 62 textes Gutenberg + 973 articles Wikipédia
  • Couverture globale : 76.8% (~8M mots)
  • 7/7 langues EU ≥ 90%, 12/14 langues ≥ 55%

🦀 PaniniWeb (Rust v0.1)

Nouvelle couche d'architecture décentralisée :

  • 4 crates workspace, 71 tests
  • Persistence JSON (ChainSnapshot), bridge Dolt (SQL+CSV export)
  • Réseau P2P : libp2p mDNS + Gossipsub + Kademlia + Identify
  • panini:// URI scheme — web sémantique décentralisé

📥 Corpus Wikipédia

  • 14 langues, 63.6 GB compressé (~65M articles disponibles)
  • 973 articles ingérés, 2.2M mots, 34/34 atomes = 100%

🔬 Infrastructure

  • text_normalizer.py : NFC, BCP 47, détection d'époque, 5 écritures
  • Normes ISO 639 / ISO 15924 / BCP 47 / Unicode CLDR auditées sur 14 langues
  • Dolt : 3 bases (~215 Mo), schéma v3, optimisation ×877 (de 3.9h → 16s)

Découvertes

  • Baby sign foundation — validation des primitives gestuelles pré-linguistiques
  • Dhātu core set — 7 opérateurs informationnels (COMM, ITER, TRANS, DECIDE, LOCATE, GROUP, SEQ)
  • Révision atomes conceptuels — 34 primitives universelles validées

Voir aussi