Le Dataset Doctrine Militaire NATO et Armée Française est un corpus de recherche documentaire visuelle comprenant 377 documents totalisant 29 271 images de pages avec des requêtes bilingues générées par IA dans un format parquet de 12,93 Go. Il est conçu pour la recherche documentaire et le question-réponse visuel (VQA) dans le domaine militaire.
Ce dataset doctrine militaire rassemble des publications officielles issues de sources multiples : NATO, Ministère des Armées (FR), IRSEM, ONU et COEMED. Il couvre l’ensemble du spectre doctrinal, du niveau stratégique au niveau technique.
Chaque image de page est associée à des requêtes générées par IA en français et en anglais, créant 58 542 lignes au total (chaque page apparaît deux fois—une fois par langue). Cette structure rend le dataset particulièrement adapté à la recherche documentaire multilingue et au question-réponse visuel.
Combien de documents contient ce corpus militaire français ?
Le dataset contient exactement 377 documents représentant 29 271 images de pages uniques pour un poids total de 12,93 Go au format parquet.
| Métrique | Valeur |
|---|---|
| Nombre total de documents | 377 |
| Images de pages uniques | 29 271 |
| Nombre total de lignes | 58 542 (chaque page × 2 langues) |
| Taille totale | 12,93 Go (parquet avec images) |
| Split train | 53 114 lignes (341 documents, 26 557 pages) |
| Split test | 5 428 lignes (36 documents, 2 714 pages) |
| Langues | Requêtes bilingues (FR + EN par page) |
| Documents français | 192 (50,9 %) |
| Documents NATO | 185 (49,1 %) |
| Pages françaises | 19 782 |
| Pages NATO | 9 489 |
| Catégories françaises | 12 |
| Catégories NATO | 4 |
Ce volume de données permet l’entraînement de modèles de recherche documentaire visuelle et de question-réponse visuel dans le domaine de la défense.
Comment les documents sont-ils répartis par langue ?
Les documents français sont légèrement plus nombreux avec 192 (50,9 %) contre 185 pour NATO (49,1 %). Cependant, les pages françaises représentent 67,6 % du nombre total de pages.
| Source | Documents | Pages | Lignes | % des docs |
|---|---|---|---|---|
| Français | 192 | 19 782 | 39 564 | 50,9 % |
| NATO | 185 | 9 489 | 18 978 | 49,1 % |
| Total | 377 | 29 271 | 58 542 | 100 % |
Le document français moyen est plus volumineux (103 pages) que le document NATO moyen (51 pages). Note : « bilingue » fait référence aux requêtes générées par IA—chaque image de page dispose d’une requête française et d’une requête anglaise, quelle que soit la langue d’origine du document source.
Quelles sont les 12 catégories de documents français ?
Les 192 documents français sont organisés en 12 catégories couvrant l’intégralité du spectre doctrinal de l’Armée Française. La catégorie la plus volumineuse est celle des Textes Toutes Armes (TTA) avec 6 370 pages réparties sur 33 documents.
| Catégorie | Description | Docs | Pages | Lignes |
|---|---|---|---|---|
| tta | Textes Toutes Armes | 33 | 6 370 | 12 740 |
| lexicons | Glossaires, AAP-06/15 | 21 | 3 477 | 6 954 |
| tactical | Manuels tactiques INF, GTIA | 20 | 2 792 | 5 584 |
| strategic | Livres blancs, revues stratégiques | 19 | 1 615 | 3 230 |
| pia | Publications Interarmées | 25 | 1 608 | 3 216 |
| dia | Doctrine Interarmées | 23 | 1 273 | 2 546 |
| irsem | Recherche stratégique | 22 | 926 | 1 852 |
| medot | Méthodologie décision opérationnelle | 12 | 527 | 1 054 |
| un_manuals | Manuels ONU maintien de la paix (FR) | 4 | 428 | 856 |
| cahiers_pensee | Cahiers Pensée Mili-Terre | 7 | 407 | 814 |
| ft | FT/RFT Forces Terrestres | 5 | 352 | 704 |
| modern | Systèmes modernes | 1 | 7 | 14 |
| Total | 192 | 19 782 | 39 564 |
Les publications doctrine armée française les plus denses sont les TTA, avec une moyenne de 193 pages par document. Ces textes réglementaires constituent le socle de la formation militaire française.
Les lexicons (glossaires AAP-06 et AAP-15) occupent la deuxième place avec 3 477 pages. Ils sont essentiels pour l’extraction d’entités et la normalisation terminologique dans les modèles d’IA.
Quelles catégories composent la partie NATO du dataset ?
La composante NATO du dataset se structure en 4 catégories regroupant 185 documents pour 9 489 pages. La catégorie AJP (Allied Joint Publications) est la plus volumineuse avec 4 188 pages.
| Catégorie | Description | Docs | Pages | Lignes |
|---|---|---|---|---|
| ajp | Allied Joint Publications | 47 | 4 188 | 8 376 |
| amedp | Allied Medical Publications | 93 | 3 759 | 7 518 |
| ajmedp | Allied Joint Medical Publications | 20 | 1 088 | 2 176 |
| other | Autres publications NATO | 25 | 454 | 908 |
| Total | 185 | 9 489 | 18 978 |
Le AJP dataset NATO comprend 47 Allied Joint Publications totalisant 4 188 pages. Ces documents constituent le cadre doctrinal d’interopérabilité de l’OTAN et incluent les séries AJP-01 (stratégie), AJP-3 (opérations), AJP-4 (logistique) et AJP-5 (planification).
Les 93 publications médicales alliées (AMEDP) et les 20 publications médicales interarmées alliées (AJMEDP) offrent ensemble 4 847 pages de doctrine médicale militaire. Ce volume est unique pour l’entraînement de modèles spécialisés en santé militaire.
Quels domaines opérationnels sont couverts ?
Le dataset couvre plusieurs domaines opérationnels à travers les documents français et NATO :
- Services médicaux et de santé : 113 publications médicales NATO (AMEDP + AJMEDP) plus la doctrine médicale française
- Opérations interarmées : Série AJP et doctrine interarmées française DIA/PIA (70+ documents)
- Opérations tactiques : Manuels TTA et publications tactiques INF (53 documents)
- Planification stratégique : Recherche IRSEM et revues stratégiques (41 documents)
- Terminologie et standards : Lexiques et glossaires (21 documents)
La partie NATO est particulièrement forte en doctrine médicale, avec 113 documents couvrant la protection de la santé des forces, les contre-mesures NRBC et les procédures médicales alliées. La partie française excelle en doctrine tactique et opérationnelle, les catégories TTA et tactical fournissant à elles seules plus de 9 000 images de pages.
Quelle est la couverture temporelle du corpus ?
Le dataset contient principalement de la doctrine militaire moderne, avec la majorité des documents des années 2010 et 2020. Le corpus reflète les accords de standardisation NATO actuels et la pensée militaire française contemporaine.
Caractéristiques temporelles clés :
- Dominance de l’ère moderne : La plupart des documents reflètent la doctrine post-2010, garantissant la pertinence pour les concepts militaires actuels incluant les opérations cyber, les opérations multi-domaines et les menaces hybrides
- Doctrine vivante : Les publications NATO AJP et les documents français DIA/PIA sont régulièrement mis à jour, et ce dataset capture les éditions récentes
- Profondeur historique : Certains textes fondamentaux et lexiques ont leurs racines dans les efforts de standardisation NATO antérieurs
La forte pondération vers la doctrine actuelle garantit que les modèles d’IA entraînés sur ces données apprennent les concepts militaires les plus pertinents et à jour.
Quels sont les documents les plus volumineux ?
Le document le plus volumineux du dataset est Tactique Théorique du Général Michel Yakovleff avec 701 pages (669 pages extraites après filtrage des pages blanches). Ce manuel de référence en tactique est l’un des ouvrages les plus cités dans l’éducation militaire française.
La catégorie TTA (Textes Toutes Armes) contient les documents les plus denses, plusieurs dépassant 400 pages. Ces manuels toutes armes constituent le socle de la formation des forces terrestres françaises et comprennent :
- Des documents de formation centraux utilisés dans toute l’Armée française
- Des références tactiques et opérationnelles complètes
- Des procédures standardisées pour les opérations toutes armes
L’INF 202 (Manuel d’Emploi de la Section d’Infanterie) et le TTA 150 (Connaissances Générales) sont des exemples de documents de formation centraux dont l’inclusion rend ce dataset directement représentatif des textes que le personnel militaire français étudie au cours de sa carrière.
Comment est distribuée la taille des documents ?
Le dataset contient 377 documents avec une moyenne d’environ 78 pages par document. Les tailles de documents varient de références d’une seule page jusqu’à des manuels complets de 701 pages.
| Statistique | Valeur (pages) |
|---|---|
| Total documents | 377 |
| Total pages | 29 271 |
| Moyenne pages/doc | 78 |
| Maximum | 701 |
Le document le plus volumineux est Tactique Théorique du Général Yakovleff avec 701 pages (669 extraites). Les tailles de documents varient considérablement selon la catégorie—les documents TTA font en moyenne 193 pages tandis que les publications médicales (AMEDP) font en moyenne 40 pages.
La diversité des tailles de documents rend ce dataset adapté à diverses tâches de ML : les documents plus courts conviennent aux modèles avec des fenêtres de contexte limitées, tandis que les documents plus longs fournissent du matériel dense pour les pipelines de génération augmentée par la recherche (RAG).
Comment ce dataset se positionne-t-il par rapport aux alternatives ?
Ce dataset doctrine NATO se distingue par trois caractéristiques rarement réunies dans les datasets de défense : images de pages visuelles, requêtes bilingues et diversité des sources institutionnelles.
La plupart des corpus militaires NLP existants sont en texte seul et monolingues. Ce dataset fournit des images de pages avec des requêtes bilingues, permettant la recherche multimodale et multilingue.
| Caractéristique | Ce dataset | Corpus militaires typiques |
|---|---|---|
| Format | Images de pages + requêtes | Texte seul |
| Langues | Requêtes bilingues (FR + EN) | Monolingue (EN seul) |
| Documents | 377 | 50-200 |
| Images de pages | 29 271 | N/A |
| Total lignes | 58 542 | 5 000-15 000 |
| Niveaux doctrinaux | 4 (Stratégique à Technique) | 1-2 |
| Taille | 12,93 Go | < 500 Mo |
| Split train/test | Oui (90/10 par document) | Souvent absent |
La structure de requêtes bilingues est particulièrement précieuse. Elle permet la recherche de recherche multilingue : un modèle peut-il retrouver des documents militaires français en utilisant des requêtes en anglais ? Cela ouvre des pistes de recherche que les datasets monolingues ou en texte seul ne peuvent pas supporter.
Pour les chercheurs construisant des systèmes d’IA de défense, ce dataset fournit à la fois des capacités de compréhension documentaire visuelle et des benchmarks de recherche multilingue.
Quels sont les cas d’usage pour l’IA et le Machine Learning ?
Ce dataset de doctrine militaire est conçu pour la compréhension documentaire visuelle et les tâches de recherche. Ses images de pages avec requêtes bilingues le rendent particulièrement adapté aux applications d’IA multimodales.
1. Recherche documentaire visuelle
Le cas d’usage principal : étant donnée une requête textuelle, retrouver l’image de page la plus pertinente. Avec 58 542 paires requête-image (29 271 pages × 2 langues), le dataset permet l’entraînement et l’évaluation de modèles de recherche vision-langage dans le domaine militaire.
2. Question-réponse visuel (VQA)
Chaque image de page est associée à des requêtes générées par IA décrivant le contenu de la page. Cette structure supporte l’entraînement de modèles VQA capables de répondre à des questions sur des documents de doctrine militaire en se basant sur leur apparence visuelle.
3. Recherche documentaire multilingue
Chaque page dispose de requêtes en français et en anglais, permettant la recherche sur la recherche multilingue : retrouver des documents militaires français en utilisant des requêtes en anglais, ou vice versa.
4. Compréhension de la mise en page documentaire
Les images de pages préservent la structure visuelle des documents militaires—tableaux, diagrammes, formatage hiérarchique et mises en page multi-colonnes. Cela supporte la recherche sur l’analyse de mise en page documentaire et l’extraction de structure.
5. Embeddings du domaine militaire
Le dataset peut entraîner des modèles d’embeddings spécialisés qui comprennent la terminologie et les concepts militaires. Les 16 catégories de documents fournissent un clustering naturel pour l’évaluation.
6. Systèmes RAG pour le question-réponse militaire
L’organisation du dataset en catégories doctrinales claires le rend adapté à la construction de systèmes de génération augmentée par la recherche (RAG). Les requêtes bilingues permettent des pipelines RAG multilingues.
Quelle méthodologie a été utilisée pour construire ce dataset ?
Le dataset a été construit en deux étapes : collecte des PDFs et conversion en parquet.
Étape 1 : Collecte des PDFs
Les PDFs source ont été collectés depuis des sites institutionnels utilisant Python 3 avec Requests et BeautifulSoup4. Chaque PDF a été validé par vérification des magic bytes.
Les sources françaises incluent defense.gouv.fr/cicde, c-dec.terre.defense.gouv.fr, irsem.fr et asso-minerve.fr. Les sources NATO incluent gov.uk et coemed.org. Les documents de maintien de la paix ONU ont également été inclus.
Étape 2 : Conversion en parquet
Les PDFs collectés ont été convertis en format parquet compatible Hugging Face :
- Rendu des pages : Chaque page PDF a été convertie en image JPEG
- Génération de requêtes : Des requêtes générées par IA ont été créées pour chaque page en français et en anglais
- Duplication bilingue : Chaque page apparaît deux fois dans le dataset (une fois avec
language=fr, une fois aveclanguage=en) - Split train/test : Les documents ont été divisés 90/10 par document (pas par page), résultant en 341 documents d’entraînement et 36 documents de test
Les fichiers parquet finaux totalisent 12,93 Go (11,87 Go train + 1,06 Go test), avec les images de pages stockées en binaire JPEG dans la colonne image.
Niveaux doctrinaux : du stratégique au technique
Le dataset couvre 4 niveaux doctrinaux complets, permettant une compréhension globale de la hiérarchie documentaire militaire.
| Niveau doctrinal | Documents clés | Nombre de docs |
|---|---|---|
| Stratégique | Strategic (19), IRSEM (22), AJP-01, AJP-5 | 41+ |
| Opérationnel | DIA (23), PIA (25), FT (5), AJP-3, AJP-4 | 53+ |
| Tactique | TTA (33), Tactical (20), MEDOT (12), série ATP | 65+ |
| Technique | Lexicons (21), AAP-06, AAP-15 | 21+ |
Le niveau stratégique comprend les livres blancs français et la recherche IRSEM. Le niveau opérationnel associe la doctrine interarmées française (DIA/PIA) aux AJP-3 et AJP-4 de l’OTAN. Le niveau tactique comprend les manuels TTA et les publications tactiques INF. Le niveau technique fournit la terminologie standardisée à travers les lexiques et glossaires.
Citation
Dataset Doctrine Militaire NATO & Armee Francaise (2026)
Sources : NATO, Ministere des Armees (FR), IRSEM, UN Peacekeeping
377 documents, 29 271 images de pages, 58 542 lignes avec requetes bilingues