Retour au blog
Benchmarks

Dataset Doctrine Militaire NATO & Armée Française : 377 Documents et 29 271 Pages pour la Recherche Documentaire Visuelle

Racine AI

Le Dataset Doctrine Militaire NATO et Armée Française est un corpus de recherche documentaire visuelle comprenant 377 documents totalisant 29 271 images de pages avec des requêtes bilingues générées par IA dans un format parquet de 12,93 Go. Il est conçu pour la recherche documentaire et le question-réponse visuel (VQA) dans le domaine militaire.

Ce dataset doctrine militaire rassemble des publications officielles issues de sources multiples : NATO, Ministère des Armées (FR), IRSEM, ONU et COEMED. Il couvre l’ensemble du spectre doctrinal, du niveau stratégique au niveau technique.

Chaque image de page est associée à des requêtes générées par IA en français et en anglais, créant 58 542 lignes au total (chaque page apparaît deux fois—une fois par langue). Cette structure rend le dataset particulièrement adapté à la recherche documentaire multilingue et au question-réponse visuel.

Combien de documents contient ce corpus militaire français ?

Le dataset contient exactement 377 documents représentant 29 271 images de pages uniques pour un poids total de 12,93 Go au format parquet.

MétriqueValeur
Nombre total de documents377
Images de pages uniques29 271
Nombre total de lignes58 542 (chaque page × 2 langues)
Taille totale12,93 Go (parquet avec images)
Split train53 114 lignes (341 documents, 26 557 pages)
Split test5 428 lignes (36 documents, 2 714 pages)
LanguesRequêtes bilingues (FR + EN par page)
Documents français192 (50,9 %)
Documents NATO185 (49,1 %)
Pages françaises19 782
Pages NATO9 489
Catégories françaises12
Catégories NATO4

Ce volume de données permet l’entraînement de modèles de recherche documentaire visuelle et de question-réponse visuel dans le domaine de la défense.

Comment les documents sont-ils répartis par langue ?

Les documents français sont légèrement plus nombreux avec 192 (50,9 %) contre 185 pour NATO (49,1 %). Cependant, les pages françaises représentent 67,6 % du nombre total de pages.

SourceDocumentsPagesLignes% des docs
Français19219 78239 56450,9 %
NATO1859 48918 97849,1 %
Total37729 27158 542100 %

Le document français moyen est plus volumineux (103 pages) que le document NATO moyen (51 pages). Note : « bilingue » fait référence aux requêtes générées par IA—chaque image de page dispose d’une requête française et d’une requête anglaise, quelle que soit la langue d’origine du document source.

Quelles sont les 12 catégories de documents français ?

Les 192 documents français sont organisés en 12 catégories couvrant l’intégralité du spectre doctrinal de l’Armée Française. La catégorie la plus volumineuse est celle des Textes Toutes Armes (TTA) avec 6 370 pages réparties sur 33 documents.

CatégorieDescriptionDocsPagesLignes
ttaTextes Toutes Armes336 37012 740
lexiconsGlossaires, AAP-06/15213 4776 954
tacticalManuels tactiques INF, GTIA202 7925 584
strategicLivres blancs, revues stratégiques191 6153 230
piaPublications Interarmées251 6083 216
diaDoctrine Interarmées231 2732 546
irsemRecherche stratégique229261 852
medotMéthodologie décision opérationnelle125271 054
un_manualsManuels ONU maintien de la paix (FR)4428856
cahiers_penseeCahiers Pensée Mili-Terre7407814
ftFT/RFT Forces Terrestres5352704
modernSystèmes modernes1714
Total19219 78239 564

Les publications doctrine armée française les plus denses sont les TTA, avec une moyenne de 193 pages par document. Ces textes réglementaires constituent le socle de la formation militaire française.

Les lexicons (glossaires AAP-06 et AAP-15) occupent la deuxième place avec 3 477 pages. Ils sont essentiels pour l’extraction d’entités et la normalisation terminologique dans les modèles d’IA.

Quelles catégories composent la partie NATO du dataset ?

La composante NATO du dataset se structure en 4 catégories regroupant 185 documents pour 9 489 pages. La catégorie AJP (Allied Joint Publications) est la plus volumineuse avec 4 188 pages.

CatégorieDescriptionDocsPagesLignes
ajpAllied Joint Publications474 1888 376
amedpAllied Medical Publications933 7597 518
ajmedpAllied Joint Medical Publications201 0882 176
otherAutres publications NATO25454908
Total1859 48918 978

Le AJP dataset NATO comprend 47 Allied Joint Publications totalisant 4 188 pages. Ces documents constituent le cadre doctrinal d’interopérabilité de l’OTAN et incluent les séries AJP-01 (stratégie), AJP-3 (opérations), AJP-4 (logistique) et AJP-5 (planification).

Les 93 publications médicales alliées (AMEDP) et les 20 publications médicales interarmées alliées (AJMEDP) offrent ensemble 4 847 pages de doctrine médicale militaire. Ce volume est unique pour l’entraînement de modèles spécialisés en santé militaire.

Quels domaines opérationnels sont couverts ?

Le dataset couvre plusieurs domaines opérationnels à travers les documents français et NATO :

  • Services médicaux et de santé : 113 publications médicales NATO (AMEDP + AJMEDP) plus la doctrine médicale française
  • Opérations interarmées : Série AJP et doctrine interarmées française DIA/PIA (70+ documents)
  • Opérations tactiques : Manuels TTA et publications tactiques INF (53 documents)
  • Planification stratégique : Recherche IRSEM et revues stratégiques (41 documents)
  • Terminologie et standards : Lexiques et glossaires (21 documents)

La partie NATO est particulièrement forte en doctrine médicale, avec 113 documents couvrant la protection de la santé des forces, les contre-mesures NRBC et les procédures médicales alliées. La partie française excelle en doctrine tactique et opérationnelle, les catégories TTA et tactical fournissant à elles seules plus de 9 000 images de pages.

Quelle est la couverture temporelle du corpus ?

Le dataset contient principalement de la doctrine militaire moderne, avec la majorité des documents des années 2010 et 2020. Le corpus reflète les accords de standardisation NATO actuels et la pensée militaire française contemporaine.

Caractéristiques temporelles clés :

  • Dominance de l’ère moderne : La plupart des documents reflètent la doctrine post-2010, garantissant la pertinence pour les concepts militaires actuels incluant les opérations cyber, les opérations multi-domaines et les menaces hybrides
  • Doctrine vivante : Les publications NATO AJP et les documents français DIA/PIA sont régulièrement mis à jour, et ce dataset capture les éditions récentes
  • Profondeur historique : Certains textes fondamentaux et lexiques ont leurs racines dans les efforts de standardisation NATO antérieurs

La forte pondération vers la doctrine actuelle garantit que les modèles d’IA entraînés sur ces données apprennent les concepts militaires les plus pertinents et à jour.

Quels sont les documents les plus volumineux ?

Le document le plus volumineux du dataset est Tactique Théorique du Général Michel Yakovleff avec 701 pages (669 pages extraites après filtrage des pages blanches). Ce manuel de référence en tactique est l’un des ouvrages les plus cités dans l’éducation militaire française.

La catégorie TTA (Textes Toutes Armes) contient les documents les plus denses, plusieurs dépassant 400 pages. Ces manuels toutes armes constituent le socle de la formation des forces terrestres françaises et comprennent :

  • Des documents de formation centraux utilisés dans toute l’Armée française
  • Des références tactiques et opérationnelles complètes
  • Des procédures standardisées pour les opérations toutes armes

L’INF 202 (Manuel d’Emploi de la Section d’Infanterie) et le TTA 150 (Connaissances Générales) sont des exemples de documents de formation centraux dont l’inclusion rend ce dataset directement représentatif des textes que le personnel militaire français étudie au cours de sa carrière.

Comment est distribuée la taille des documents ?

Le dataset contient 377 documents avec une moyenne d’environ 78 pages par document. Les tailles de documents varient de références d’une seule page jusqu’à des manuels complets de 701 pages.

StatistiqueValeur (pages)
Total documents377
Total pages29 271
Moyenne pages/doc78
Maximum701

Le document le plus volumineux est Tactique Théorique du Général Yakovleff avec 701 pages (669 extraites). Les tailles de documents varient considérablement selon la catégorie—les documents TTA font en moyenne 193 pages tandis que les publications médicales (AMEDP) font en moyenne 40 pages.

La diversité des tailles de documents rend ce dataset adapté à diverses tâches de ML : les documents plus courts conviennent aux modèles avec des fenêtres de contexte limitées, tandis que les documents plus longs fournissent du matériel dense pour les pipelines de génération augmentée par la recherche (RAG).

Comment ce dataset se positionne-t-il par rapport aux alternatives ?

Ce dataset doctrine NATO se distingue par trois caractéristiques rarement réunies dans les datasets de défense : images de pages visuelles, requêtes bilingues et diversité des sources institutionnelles.

La plupart des corpus militaires NLP existants sont en texte seul et monolingues. Ce dataset fournit des images de pages avec des requêtes bilingues, permettant la recherche multimodale et multilingue.

CaractéristiqueCe datasetCorpus militaires typiques
FormatImages de pages + requêtesTexte seul
LanguesRequêtes bilingues (FR + EN)Monolingue (EN seul)
Documents37750-200
Images de pages29 271N/A
Total lignes58 5425 000-15 000
Niveaux doctrinaux4 (Stratégique à Technique)1-2
Taille12,93 Go< 500 Mo
Split train/testOui (90/10 par document)Souvent absent

La structure de requêtes bilingues est particulièrement précieuse. Elle permet la recherche de recherche multilingue : un modèle peut-il retrouver des documents militaires français en utilisant des requêtes en anglais ? Cela ouvre des pistes de recherche que les datasets monolingues ou en texte seul ne peuvent pas supporter.

Pour les chercheurs construisant des systèmes d’IA de défense, ce dataset fournit à la fois des capacités de compréhension documentaire visuelle et des benchmarks de recherche multilingue.

Quels sont les cas d’usage pour l’IA et le Machine Learning ?

Ce dataset de doctrine militaire est conçu pour la compréhension documentaire visuelle et les tâches de recherche. Ses images de pages avec requêtes bilingues le rendent particulièrement adapté aux applications d’IA multimodales.

1. Recherche documentaire visuelle

Le cas d’usage principal : étant donnée une requête textuelle, retrouver l’image de page la plus pertinente. Avec 58 542 paires requête-image (29 271 pages × 2 langues), le dataset permet l’entraînement et l’évaluation de modèles de recherche vision-langage dans le domaine militaire.

2. Question-réponse visuel (VQA)

Chaque image de page est associée à des requêtes générées par IA décrivant le contenu de la page. Cette structure supporte l’entraînement de modèles VQA capables de répondre à des questions sur des documents de doctrine militaire en se basant sur leur apparence visuelle.

3. Recherche documentaire multilingue

Chaque page dispose de requêtes en français et en anglais, permettant la recherche sur la recherche multilingue : retrouver des documents militaires français en utilisant des requêtes en anglais, ou vice versa.

4. Compréhension de la mise en page documentaire

Les images de pages préservent la structure visuelle des documents militaires—tableaux, diagrammes, formatage hiérarchique et mises en page multi-colonnes. Cela supporte la recherche sur l’analyse de mise en page documentaire et l’extraction de structure.

5. Embeddings du domaine militaire

Le dataset peut entraîner des modèles d’embeddings spécialisés qui comprennent la terminologie et les concepts militaires. Les 16 catégories de documents fournissent un clustering naturel pour l’évaluation.

6. Systèmes RAG pour le question-réponse militaire

L’organisation du dataset en catégories doctrinales claires le rend adapté à la construction de systèmes de génération augmentée par la recherche (RAG). Les requêtes bilingues permettent des pipelines RAG multilingues.

Quelle méthodologie a été utilisée pour construire ce dataset ?

Le dataset a été construit en deux étapes : collecte des PDFs et conversion en parquet.

Étape 1 : Collecte des PDFs

Les PDFs source ont été collectés depuis des sites institutionnels utilisant Python 3 avec Requests et BeautifulSoup4. Chaque PDF a été validé par vérification des magic bytes.

Les sources françaises incluent defense.gouv.fr/cicde, c-dec.terre.defense.gouv.fr, irsem.fr et asso-minerve.fr. Les sources NATO incluent gov.uk et coemed.org. Les documents de maintien de la paix ONU ont également été inclus.

Étape 2 : Conversion en parquet

Les PDFs collectés ont été convertis en format parquet compatible Hugging Face :

  1. Rendu des pages : Chaque page PDF a été convertie en image JPEG
  2. Génération de requêtes : Des requêtes générées par IA ont été créées pour chaque page en français et en anglais
  3. Duplication bilingue : Chaque page apparaît deux fois dans le dataset (une fois avec language=fr, une fois avec language=en)
  4. Split train/test : Les documents ont été divisés 90/10 par document (pas par page), résultant en 341 documents d’entraînement et 36 documents de test

Les fichiers parquet finaux totalisent 12,93 Go (11,87 Go train + 1,06 Go test), avec les images de pages stockées en binaire JPEG dans la colonne image.

Niveaux doctrinaux : du stratégique au technique

Le dataset couvre 4 niveaux doctrinaux complets, permettant une compréhension globale de la hiérarchie documentaire militaire.

Niveau doctrinalDocuments clésNombre de docs
StratégiqueStrategic (19), IRSEM (22), AJP-01, AJP-541+
OpérationnelDIA (23), PIA (25), FT (5), AJP-3, AJP-453+
TactiqueTTA (33), Tactical (20), MEDOT (12), série ATP65+
TechniqueLexicons (21), AAP-06, AAP-1521+

Le niveau stratégique comprend les livres blancs français et la recherche IRSEM. Le niveau opérationnel associe la doctrine interarmées française (DIA/PIA) aux AJP-3 et AJP-4 de l’OTAN. Le niveau tactique comprend les manuels TTA et les publications tactiques INF. Le niveau technique fournit la terminologie standardisée à travers les lexiques et glossaires.

Citation

Dataset Doctrine Militaire NATO & Armee Francaise (2026)
Sources : NATO, Ministere des Armees (FR), IRSEM, UN Peacekeeping
377 documents, 29 271 images de pages, 58 542 lignes avec requetes bilingues

Newsletter technique

1 article par mois sur l'IA documentaire. Pas de spam.

1 + 5 =

On nous demande souvent

Combien de documents contient le dataset ?

Le dataset contient **377 documents** totalisant **29 271 images de pages uniques** et **58 542 lignes** (chaque page apparaît deux fois, une fois par langue). Les fichiers parquet totalisent **12,93 Go**.

Quel est le format du dataset ?

Le dataset est fourni au **format parquet Hugging Face** avec deux splits : train (53 114 lignes, 341 documents) et test (5 428 lignes, 36 documents). Chaque ligne contient une image de page (binaire JPEG) et des requêtes bilingues.

Quelles langues sont couvertes ?

Le dataset a des **requêtes bilingues** — chaque image de page a une requête française (`query_fr`) et une requête anglaise (`query_en`). Les documents source sont 192 documents français et 185 documents NATO (anglais).

Quel est le schéma ?

Le dataset a 14 colonnes : `id`, `doc_id`, `page_num`, `total_pages`, `folder`, `subfolder`, `filename`, `source_path`, `query_fr`, `query_en`, `language`, `query`, `created_at`, et `image` (binaire JPEG).

Quelles publications NATO sont incluses ?

La partie NATO comprend **47 Allied Joint Publications (AJP)**, **93 Allied Medical Publications (AMEDP)**, **20 Allied Joint Medical Publications (AJMEDP)**, et **25 autres standards NATO**. Les séries clés incluent AJP-01, AJP-3, AJP-4 et AJP-5.

Quelles catégories de doctrine militaire française sont incluses ?

La partie française a **12 catégories** : TTA (33 docs), lexicons (21 docs), tactical (20 docs), PIA (25 docs), strategic (19 docs), DIA (23 docs), IRSEM (22 docs), MEDOT (12 docs), UN manuals (4 docs), cahiers_pensee (7 docs), FT (5 docs), et modern (1 doc).

Comment charger ce dataset ?

Utilisez la bibliothèque Hugging Face datasets : `from datasets import load_dataset; ds = load_dataset("parquet", data_dir="data/")`. Le split train contient 53 114 lignes et le split test 5 428 lignes.

Quels sont les meilleurs cas d'usage ?

Le dataset est conçu pour la **recherche documentaire visuelle** et le **question-réponse visuel (VQA)**. Étant donnée une requête textuelle, retrouver l'image de page la plus pertinente. Les requêtes bilingues permettent également la **recherche multilingue**.

Discutons de

Votre Projet.

IA Documents, automatisation legacy, inspection terrain. Nous deployons des solutions qui passent en production.

Decrivez votre projet et recevez une reponse sous 48h.

Nous contacter