Pāṇini File System¶
Plateforme de traitement et stockage d'information métalinguistique. Un modèle sémantique universel de 34 atomes, validé sur 14 langues et ~8 millions de mots.
🔬 Le modèle principal — 34 atomes universels¶
Le cœur de PaniniFS est un vocabulaire sémantique minimal de 34 atomes répartis en 4 catégories ontologiques et 6 couches d'abstraction. Ces atomes permettent d'encoder l'essentiel des concepts humains dans n'importe quelle langue.
Les 4 catégories ontologiques¶
Identifiants canoniques
Les noms d'atomes sont des identifiants canoniques en MAJUSCULES, indépendants de la langue. La plupart sont définis en français ; les axes émotionnels (SEEKING, FEAR, CARE…) utilisent les noms anglais de la nomenclature Panksepp.
| Catégorie | Sanskrit | Atomes — identifiants canoniques (sélection) |
|---|---|---|
| PROCESSUS | kriyā | MOUVEMENT, COGNITION, COMMUNICATION, CRÉATION, SEEKING, FEAR, CARE, GRIEF… |
| RELATION | sambandha | RELATION, STRUCTURE, INVARIANCE, DOMINATION, ORDRE… |
| QUALITÉ | guṇa | BON, GRAND, VRAI, INTENSE, ANCIEN, MESURE, PERCEPTION… |
| ENTITÉ | dravya | CHOSE, AGENT, CORPS, LIEU, MATIÈRE, EXISTENCE… |
→ Tableau complet des 34 atomes
Les 7 opérateurs dhātu informationnels¶
En complément, 7 opérateurs dhātu encodent les flux d'information à haut niveau :
COMM · ITER · TRANS · DECIDE · LOCATE · GROUP · SEQ
📊 Résultats validés — février 2026¶
7/7 langues européennes ≥ 90% de couverture lexicale
Corpus Gutenberg original (11 fichiers, textes modernes) :
| Langue | Couverture |
|---|---|
| Anglais | 94.4% |
| Espéranto | 93.2% |
| Allemand | 91.1% |
| Finnois | 90.6% |
| Espagnol | 90.1% |
| Français | 90.1% |
| Italien | 90.1% |
Percées multilingues majeures
| Langue | Avant | Après | Gain | Technique clé |
|---|---|---|---|---|
| 🇯🇵 Japonais | 18.8% | 74.1% | +55pp | Tokenisation kanji-only + suppression furigana |
| 🇨🇳 Chinois | 33.8% | 73.9% | +40pp | OpenCC traditionnel→simplifié |
| 🇷🇺 Russe | 16.5% | 56.3% | +40pp | Stemmer Snowball + normalisation pré-1918 |
| 🇳🇱 Néerlandais | 28.4% | 55.9% | +28pp | Normalisation orthographe pré-1947 |
Couverture globale
76.8% sur 62 textes Gutenberg + 973 articles Wikipédia (~8M mots, 14 langues). Présence des 34/34 atomes = 100% sur le corpus Wikipédia multilingue.
→ Résultats détaillés de couverture · Quoi de neuf
🔑 Découverte clé¶
L'atome sémantique est indépendant de l'écriture. Les kanji japonais partagent les mêmes caractères que les hanzi chinois — une couverture acquise pour le chinois bénéficie directement au japonais. Cela confirme que les 34 atomes dhātu sont de véritables universaux conceptuels, au-delà des systèmes d'écriture.
🦀 PaniniWeb — Architecture décentralisée (Rust v0.1)¶
- 4 crates workspace :
panini-core,panini-net,panini-api,panini-cli - 71 tests (58 core + 11 net + 2 doc)
- Réseau P2P : libp2p avec mDNS, Gossipsub, Kademlia
- Schéma URI
panini://— web sémantique décentralisé
🌍 Vision sociale et éthique¶
Ce projet place la société avant la technique. Objectif : rendre l'information réellement utile, accessible et traçable pour tous.
- Inclusion et accessibilité par défaut
- Attribution et provenance des idées (mémoire collective)
- Gouvernance ouverte, alignée avec la Déclaration de Montréal
Navigation rapide¶
| Section | Description |
|---|---|
| Recherche | Vue d'ensemble des axes de recherche |
| Atomes universaux (34) | Tableau complet avec NSM, Jackendoff, dhātu |
| Résultats de couverture | Métriques détaillées par langue et corpus |
| Cadre Dhātu | Les 7 opérateurs + 34 atomes |
| Avancement & feuille de route | État du projet et roadmap |
| Livre | Documentation complète |
Me retrouver¶
- GitHub: stephanedenis
- LinkedIn: neuronspikes
- Publications (Medium/Leanpub): Publications
- Le site est bilingue FR/EN — menu de langue en haut à droite