Benchmarks

Dataset Doctrine Militaire NATO & Armée Française : 377 Documents et 29 271 Pages pour la Recherche Documentaire Visuelle

Q: Combien de documents contient le dataset ?

Le dataset contient **377 documents** totalisant **29 271 images de pages uniques** et **58 542 lignes** (chaque page apparaît deux fois, une fois par langue). Les fichiers parquet totalisent **12,93 Go**.

Q: Quel est le format du dataset ?

Le dataset est fourni au **format parquet Hugging Face** avec deux splits : train (53 114 lignes, 341 documents) et test (5 428 lignes, 36 documents). Chaque ligne contient une image de page (binaire JPEG) et des requêtes bilingues.

Q: Quelles langues sont couvertes ?

Le dataset a des **requêtes bilingues** — chaque image de page a une requête française (`query_fr`) et une requête anglaise (`query_en`). Les documents source sont 192 documents français et 185 documents NATO (anglais).

Q: Quel est le schéma ?

Le dataset a 14 colonnes : `id`, `doc_id`, `page_num`, `total_pages`, `folder`, `subfolder`, `filename`, `source_path`, `query_fr`, `query_en`, `language`, `query`, `created_at`, et `image` (binaire JPEG).

Q: Quelles publications NATO sont incluses ?

La partie NATO comprend **47 Allied Joint Publications (AJP)**, **93 Allied Medical Publications (AMEDP)**, **20 Allied Joint Medical Publications (AJMEDP)**, et **25 autres standards NATO**. Les séries clés incluent AJP-01, AJP-3, AJP-4 et AJP-5.

Q: Quelles catégories de doctrine militaire française sont incluses ?

La partie française a **12 catégories** : TTA (33 docs), lexicons (21 docs), tactical (20 docs), PIA (25 docs), strategic (19 docs), DIA (23 docs), IRSEM (22 docs), MEDOT (12 docs), UN manuals (4 docs), cahiers_pensee (7 docs), FT (5 docs), et modern (1 doc).

Q: Comment charger ce dataset ?

Utilisez la bibliothèque Hugging Face datasets : `from datasets import load_dataset; ds = load_dataset("parquet", data_dir="data/")`. Le split train contient 53 114 lignes et le split test 5 428 lignes.

Q: Quels sont les meilleurs cas d'usage ?

Le dataset est conçu pour la **recherche documentaire visuelle** et le **question-réponse visuel (VQA)**. Étant donnée une requête textuelle, retrouver l'image de page la plus pertinente. Les requêtes bilingues permettent également la **recherche multilingue**.

Racine AI 12 février 2026

Le Dataset Doctrine Militaire NATO et Armée Française est un corpus de recherche documentaire visuelle comprenant 377 documents totalisant 29 271 images de pages avec des requêtes bilingues générées par IA dans un format parquet de 12,93 Go. Il est conçu pour la recherche documentaire et le question-réponse visuel (VQA) dans le domaine militaire.

Ce dataset doctrine militaire rassemble des publications officielles issues de sources multiples : NATO, Ministère des Armées (FR), IRSEM, ONU et COEMED. Il couvre l’ensemble du spectre doctrinal, du niveau stratégique au niveau technique.

Chaque image de page est associée à des requêtes générées par IA en français et en anglais, créant 58 542 lignes au total (chaque page apparaît deux fois—une fois par langue). Cette structure rend le dataset particulièrement adapté à la recherche documentaire multilingue et au question-réponse visuel.

Combien de documents contient ce corpus militaire français ?

Le dataset contient exactement 377 documents représentant 29 271 images de pages uniques pour un poids total de 12,93 Go au format parquet.

Métrique	Valeur
Nombre total de documents	377
Images de pages uniques	29 271
Nombre total de lignes	58 542 (chaque page × 2 langues)
Taille totale	12,93 Go (parquet avec images)
Split train	53 114 lignes (341 documents, 26 557 pages)
Split test	5 428 lignes (36 documents, 2 714 pages)
Langues	Requêtes bilingues (FR + EN par page)
Documents français	192 (50,9 %)
Documents NATO	185 (49,1 %)
Pages françaises	19 782
Pages NATO	9 489
Catégories françaises	12
Catégories NATO	4

Ce volume de données permet l’entraînement de modèles de recherche documentaire visuelle et de question-réponse visuel dans le domaine de la défense.

Comment les documents sont-ils répartis par langue ?

Les documents français sont légèrement plus nombreux avec 192 (50,9 %) contre 185 pour NATO (49,1 %). Cependant, les pages françaises représentent 67,6 % du nombre total de pages.

Source	Documents	Pages	Lignes	% des docs
Français	192	19 782	39 564	50,9 %
NATO	185	9 489	18 978	49,1 %
Total	377	29 271	58 542	100 %

Le document français moyen est plus volumineux (103 pages) que le document NATO moyen (51 pages). Note : « bilingue » fait référence aux requêtes générées par IA—chaque image de page dispose d’une requête française et d’une requête anglaise, quelle que soit la langue d’origine du document source.

Quelles sont les 12 catégories de documents français ?

Les 192 documents français sont organisés en 12 catégories couvrant l’intégralité du spectre doctrinal de l’Armée Française. La catégorie la plus volumineuse est celle des Textes Toutes Armes (TTA) avec 6 370 pages réparties sur 33 documents.

Catégorie	Description	Docs	Pages	Lignes
tta	Textes Toutes Armes	33	6 370	12 740
lexicons	Glossaires, AAP-06/15	21	3 477	6 954
tactical	Manuels tactiques INF, GTIA	20	2 792	5 584
strategic	Livres blancs, revues stratégiques	19	1 615	3 230
pia	Publications Interarmées	25	1 608	3 216
dia	Doctrine Interarmées	23	1 273	2 546
irsem	Recherche stratégique	22	926	1 852
medot	Méthodologie décision opérationnelle	12	527	1 054
un_manuals	Manuels ONU maintien de la paix (FR)	4	428	856
cahiers_pensee	Cahiers Pensée Mili-Terre	7	407	814
ft	FT/RFT Forces Terrestres	5	352	704
modern	Systèmes modernes	1	7	14
Total		192	19 782	39 564

Les publications doctrine armée française les plus denses sont les TTA, avec une moyenne de 193 pages par document. Ces textes réglementaires constituent le socle de la formation militaire française.

Les lexicons (glossaires AAP-06 et AAP-15) occupent la deuxième place avec 3 477 pages. Ils sont essentiels pour l’extraction d’entités et la normalisation terminologique dans les modèles d’IA.

Quelles catégories composent la partie NATO du dataset ?

La composante NATO du dataset se structure en 4 catégories regroupant 185 documents pour 9 489 pages. La catégorie AJP (Allied Joint Publications) est la plus volumineuse avec 4 188 pages.

Catégorie	Description	Docs	Pages	Lignes
ajp	Allied Joint Publications	47	4 188	8 376
amedp	Allied Medical Publications	93	3 759	7 518
ajmedp	Allied Joint Medical Publications	20	1 088	2 176
other	Autres publications NATO	25	454	908
Total		185	9 489	18 978

Le AJP dataset NATO comprend 47 Allied Joint Publications totalisant 4 188 pages. Ces documents constituent le cadre doctrinal d’interopérabilité de l’OTAN et incluent les séries AJP-01 (stratégie), AJP-3 (opérations), AJP-4 (logistique) et AJP-5 (planification).

Les 93 publications médicales alliées (AMEDP) et les 20 publications médicales interarmées alliées (AJMEDP) offrent ensemble 4 847 pages de doctrine médicale militaire. Ce volume est unique pour l’entraînement de modèles spécialisés en santé militaire.

Quels domaines opérationnels sont couverts ?

Le dataset couvre plusieurs domaines opérationnels à travers les documents français et NATO :

Services médicaux et de santé : 113 publications médicales NATO (AMEDP + AJMEDP) plus la doctrine médicale française
Opérations interarmées : Série AJP et doctrine interarmées française DIA/PIA (70+ documents)
Opérations tactiques : Manuels TTA et publications tactiques INF (53 documents)
Planification stratégique : Recherche IRSEM et revues stratégiques (41 documents)
Terminologie et standards : Lexiques et glossaires (21 documents)

La partie NATO est particulièrement forte en doctrine médicale, avec 113 documents couvrant la protection de la santé des forces, les contre-mesures NRBC et les procédures médicales alliées. La partie française excelle en doctrine tactique et opérationnelle, les catégories TTA et tactical fournissant à elles seules plus de 9 000 images de pages.

Quelle est la couverture temporelle du corpus ?

Le dataset contient principalement de la doctrine militaire moderne, avec la majorité des documents des années 2010 et 2020. Le corpus reflète les accords de standardisation NATO actuels et la pensée militaire française contemporaine.

Caractéristiques temporelles clés :

Dominance de l’ère moderne : La plupart des documents reflètent la doctrine post-2010, garantissant la pertinence pour les concepts militaires actuels incluant les opérations cyber, les opérations multi-domaines et les menaces hybrides
Doctrine vivante : Les publications NATO AJP et les documents français DIA/PIA sont régulièrement mis à jour, et ce dataset capture les éditions récentes
Profondeur historique : Certains textes fondamentaux et lexiques ont leurs racines dans les efforts de standardisation NATO antérieurs

La forte pondération vers la doctrine actuelle garantit que les modèles d’IA entraînés sur ces données apprennent les concepts militaires les plus pertinents et à jour.

Quels sont les documents les plus volumineux ?

Le document le plus volumineux du dataset est Tactique Théorique du Général Michel Yakovleff avec 701 pages (669 pages extraites après filtrage des pages blanches). Ce manuel de référence en tactique est l’un des ouvrages les plus cités dans l’éducation militaire française.

La catégorie TTA (Textes Toutes Armes) contient les documents les plus denses, plusieurs dépassant 400 pages. Ces manuels toutes armes constituent le socle de la formation des forces terrestres françaises et comprennent :

Des documents de formation centraux utilisés dans toute l’Armée française
Des références tactiques et opérationnelles complètes
Des procédures standardisées pour les opérations toutes armes

L’INF 202 (Manuel d’Emploi de la Section d’Infanterie) et le TTA 150 (Connaissances Générales) sont des exemples de documents de formation centraux dont l’inclusion rend ce dataset directement représentatif des textes que le personnel militaire français étudie au cours de sa carrière.

Comment est distribuée la taille des documents ?

Le dataset contient 377 documents avec une moyenne d’environ 78 pages par document. Les tailles de documents varient de références d’une seule page jusqu’à des manuels complets de 701 pages.

Statistique	Valeur (pages)
Total documents	377
Total pages	29 271
Moyenne pages/doc	78
Maximum	701

Le document le plus volumineux est Tactique Théorique du Général Yakovleff avec 701 pages (669 extraites). Les tailles de documents varient considérablement selon la catégorie—les documents TTA font en moyenne 193 pages tandis que les publications médicales (AMEDP) font en moyenne 40 pages.

La diversité des tailles de documents rend ce dataset adapté à diverses tâches de ML : les documents plus courts conviennent aux modèles avec des fenêtres de contexte limitées, tandis que les documents plus longs fournissent du matériel dense pour les pipelines de génération augmentée par la recherche (RAG).

Comment ce dataset se positionne-t-il par rapport aux alternatives ?

Ce dataset doctrine NATO se distingue par trois caractéristiques rarement réunies dans les datasets de défense : images de pages visuelles, requêtes bilingues et diversité des sources institutionnelles.

La plupart des corpus militaires NLP existants sont en texte seul et monolingues. Ce dataset fournit des images de pages avec des requêtes bilingues, permettant la recherche multimodale et multilingue.

Caractéristique	Ce dataset	Corpus militaires typiques
Format	Images de pages + requêtes	Texte seul
Langues	Requêtes bilingues (FR + EN)	Monolingue (EN seul)
Documents	377	50-200
Images de pages	29 271	N/A
Total lignes	58 542	5 000-15 000
Niveaux doctrinaux	4 (Stratégique à Technique)	1-2
Taille	12,93 Go	< 500 Mo
Split train/test	Oui (90/10 par document)	Souvent absent

La structure de requêtes bilingues est particulièrement précieuse. Elle permet la recherche de recherche multilingue : un modèle peut-il retrouver des documents militaires français en utilisant des requêtes en anglais ? Cela ouvre des pistes de recherche que les datasets monolingues ou en texte seul ne peuvent pas supporter.

Pour les chercheurs construisant des systèmes d’IA de défense, ce dataset fournit à la fois des capacités de compréhension documentaire visuelle et des benchmarks de recherche multilingue.

Quels sont les cas d’usage pour l’IA et le Machine Learning ?

Ce dataset de doctrine militaire est conçu pour la compréhension documentaire visuelle et les tâches de recherche. Ses images de pages avec requêtes bilingues le rendent particulièrement adapté aux applications d’IA multimodales.

1. Recherche documentaire visuelle

Le cas d’usage principal : étant donnée une requête textuelle, retrouver l’image de page la plus pertinente. Avec 58 542 paires requête-image (29 271 pages × 2 langues), le dataset permet l’entraînement et l’évaluation de modèles de recherche vision-langage dans le domaine militaire.

2. Question-réponse visuel (VQA)

Chaque image de page est associée à des requêtes générées par IA décrivant le contenu de la page. Cette structure supporte l’entraînement de modèles VQA capables de répondre à des questions sur des documents de doctrine militaire en se basant sur leur apparence visuelle.

3. Recherche documentaire multilingue

Chaque page dispose de requêtes en français et en anglais, permettant la recherche sur la recherche multilingue : retrouver des documents militaires français en utilisant des requêtes en anglais, ou vice versa.

4. Compréhension de la mise en page documentaire

Les images de pages préservent la structure visuelle des documents militaires—tableaux, diagrammes, formatage hiérarchique et mises en page multi-colonnes. Cela supporte la recherche sur l’analyse de mise en page documentaire et l’extraction de structure.

5. Embeddings du domaine militaire

Le dataset peut entraîner des modèles d’embeddings spécialisés qui comprennent la terminologie et les concepts militaires. Les 16 catégories de documents fournissent un clustering naturel pour l’évaluation.

6. Systèmes RAG pour le question-réponse militaire

L’organisation du dataset en catégories doctrinales claires le rend adapté à la construction de systèmes de génération augmentée par la recherche (RAG). Les requêtes bilingues permettent des pipelines RAG multilingues.

Quelle méthodologie a été utilisée pour construire ce dataset ?

Le dataset a été construit en deux étapes : collecte des PDFs et conversion en parquet.

Étape 1 : Collecte des PDFs

Les PDFs source ont été collectés depuis des sites institutionnels utilisant Python 3 avec Requests et BeautifulSoup4. Chaque PDF a été validé par vérification des magic bytes.

Les sources françaises incluent defense.gouv.fr/cicde, c-dec.terre.defense.gouv.fr, irsem.fr et asso-minerve.fr. Les sources NATO incluent gov.uk et coemed.org. Les documents de maintien de la paix ONU ont également été inclus.

Étape 2 : Conversion en parquet

Les PDFs collectés ont été convertis en format parquet compatible Hugging Face :

Rendu des pages : Chaque page PDF a été convertie en image JPEG
Génération de requêtes : Des requêtes générées par IA ont été créées pour chaque page en français et en anglais
Duplication bilingue : Chaque page apparaît deux fois dans le dataset (une fois avec language=fr, une fois avec language=en)
Split train/test : Les documents ont été divisés 90/10 par document (pas par page), résultant en 341 documents d’entraînement et 36 documents de test

Les fichiers parquet finaux totalisent 12,93 Go (11,87 Go train + 1,06 Go test), avec les images de pages stockées en binaire JPEG dans la colonne image.

Niveaux doctrinaux : du stratégique au technique

Le dataset couvre 4 niveaux doctrinaux complets, permettant une compréhension globale de la hiérarchie documentaire militaire.

Niveau doctrinal	Documents clés	Nombre de docs
Stratégique	Strategic (19), IRSEM (22), AJP-01, AJP-5	41+
Opérationnel	DIA (23), PIA (25), FT (5), AJP-3, AJP-4	53+
Tactique	TTA (33), Tactical (20), MEDOT (12), série ATP	65+
Technique	Lexicons (21), AAP-06, AAP-15	21+

Le niveau stratégique comprend les livres blancs français et la recherche IRSEM. Le niveau opérationnel associe la doctrine interarmées française (DIA/PIA) aux AJP-3 et AJP-4 de l’OTAN. Le niveau tactique comprend les manuels TTA et les publications tactiques INF. Le niveau technique fournit la terminologie standardisée à travers les lexiques et glossaires.

Citation

Dataset Doctrine Militaire NATO & Armee Francaise (2026)
Sources : NATO, Ministere des Armees (FR), IRSEM, UN Peacekeeping
377 documents, 29 271 images de pages, 58 542 lignes avec requetes bilingues

Newsletter technique

1 article par mois sur l'IA documentaire. Pas de spam.

Sources

On nous demande souvent

Combien de documents contient le dataset ?

Le dataset contient **377 documents** totalisant **29 271 images de pages uniques** et **58 542 lignes** (chaque page apparaît deux fois, une fois par langue). Les fichiers parquet totalisent **12,93 Go**.

Quel est le format du dataset ?

Le dataset est fourni au **format parquet Hugging Face** avec deux splits : train (53 114 lignes, 341 documents) et test (5 428 lignes, 36 documents). Chaque ligne contient une image de page (binaire JPEG) et des requêtes bilingues.

Quelles langues sont couvertes ?

Le dataset a des **requêtes bilingues** — chaque image de page a une requête française (`query_fr`) et une requête anglaise (`query_en`). Les documents source sont 192 documents français et 185 documents NATO (anglais).

Quel est le schéma ?

Le dataset a 14 colonnes : `id`, `doc_id`, `page_num`, `total_pages`, `folder`, `subfolder`, `filename`, `source_path`, `query_fr`, `query_en`, `language`, `query`, `created_at`, et `image` (binaire JPEG).

Quelles publications NATO sont incluses ?

La partie NATO comprend **47 Allied Joint Publications (AJP)**, **93 Allied Medical Publications (AMEDP)**, **20 Allied Joint Medical Publications (AJMEDP)**, et **25 autres standards NATO**. Les séries clés incluent AJP-01, AJP-3, AJP-4 et AJP-5.

Quelles catégories de doctrine militaire française sont incluses ?

La partie française a **12 catégories** : TTA (33 docs), lexicons (21 docs), tactical (20 docs), PIA (25 docs), strategic (19 docs), DIA (23 docs), IRSEM (22 docs), MEDOT (12 docs), UN manuals (4 docs), cahiers_pensee (7 docs), FT (5 docs), et modern (1 doc).

Comment charger ce dataset ?

Utilisez la bibliothèque Hugging Face datasets : `from datasets import load_dataset; ds = load_dataset("parquet", data_dir="data/")`. Le split train contient 53 114 lignes et le split test 5 428 lignes.

Quels sont les meilleurs cas d'usage ?

Le dataset est conçu pour la **recherche documentaire visuelle** et le **question-réponse visuel (VQA)**. Étant donnée une requête textuelle, retrouver l'image de page la plus pertinente. Les requêtes bilingues permettent également la **recherche multilingue**.

Discutons de

Votre Projet.

IA Documents, automatisation legacy, inspection terrain. Nous deployons des solutions qui passent en production.

Email contact@racine.ai

Decrivez votre projet et recevez une reponse sous 48h.

Nous contacter

Articles associes

RACINE AI

Benchmarks

Natotan : Modèle d'Embedding Vision-Language pour la Recherche Multimodale de Documents Militaires

Natotan : modèle d'embedding multimodal fine-tune sur Qwen3-VL-Embedding-2B par LoRA. +9 % NDCG@1, +6,8 % MRR sur 5 428 paires requête-document. Benchmark bilingue français-anglais, 16 catégories, 3x plus performant que Gemini. Idéal pour RAG militaire et recherche documentaire défense.