Retour au blog
Benchmarks

Natotan : Modèle d'Embedding Vision-Language pour la Recherche Multimodale de Documents Militaires

Racine AI
Natotan — Tactical Embedding Model

Natotan est un modèle d’embedding vision-language spécialisé dans la recherche multimodale de documents militaires en français et en anglais. Il est construit à partir de Qwen3-VL-Embedding-2B via un fine-tuning LoRA (Low-Rank Adaptation), dont les poids ont été fusionnés dans le modèle de base pour un déploiement sans friction.

Sur un benchmark de 5 428 paires requête-document couvrant les publications NATO et les documents de doctrine de l’Armée Française, Natotan obtient un NDCG@1 de 0,384 (+9 % vs le modèle de base) et un MRR de 0,618 (+6,8 %). Il surpasse Google Gemini multimodalembedding@001 de plus de 230 % en NDCG@10.

Le modèle produit des embeddings de 2 048 dimensions, identiques au modèle de base Qwen3-VL-Embedding-2B. Il est distribué au format safetensors sur Hugging Face et se charge en une seule ligne avec AutoModel.from_pretrained(), sans adaptateur LoRA à charger séparément.

MétriqueValeur
Modèle de baseQwen3-VL-Embedding-2B
Méthode de fine-tuningLoRA (Low-Rank Adaptation), merge
Dimension des embeddings2 048
LanguesFrançais + Anglais
TâcheEmbedding multimodal / recherche documentaire
Formatsafetensors
Benchmark5 428 paires requête-document
Catégories évaluées16
NDCG@10,384 (+9,0 % vs base)
MRR0,618 (+6,8 % vs base)
Recall@100,950 (+4,6 % vs base)

Pourquoi un modèle d’embedding spécialisé pour la défense ?

Les modèles d’embedding génériques — qu’ils soient open-source ou propriétaires — échouent régulièrement sur les corpus de documents de défense. Le vocabulaire militaire est technique, multilingue, et mêle texte, schémas tactiques, tableaux et cartes dans un même document. Un modèle généraliste n’a pas vu suffisamment de ce type de contenu pendant son entraînement pour produire des représentations sémantiques fiables.

Le constat est particulièrement frappant avec Google Gemini multimodalembedding@001. Sur le benchmark Natotan, Gemini n’atteint qu’un NDCG@10 de 0,212 là où Natotan obtient 0,699 — soit 3,3 fois plus. Sur les documents en français, l’écart se creuse encore : Gemini tombe à 0,132 de NDCG@10 contre 0,697 pour Natotan, un rapport de 5,3x.

Ce résultat confirme une tendance observée dans la littérature : les modèles propriétaires génériques sous-performent de manière significative sur les domaines spécialisés, particulièrement en dehors de l’anglais. Le fine-tuning LoRA, même avec un budget de calcul modeste, permet de combler et dépasser cet écart.

Les cas d’usage concrets incluent la recherche documentaire dans les systèmes RAG militaires, la récupération de publications doctrinales pour les états-majors, et l’indexation multimodale de manuels tactiques contenant à la fois du texte et des schémas.

Comment Natotan a-t-il été construit ?

Natotan a été construit en 3 étapes à partir du modèle de base open-source Qwen3-VL-Embedding-2B, un modèle vision-language de 2 milliards de paramètres édité par l’équipe Qwen d’Alibaba.

ÉtapeDescription
1. Fine-tuning LoRAAdaptation sur un dataset de documents militaires NATO et Armée Française via Low-Rank Adaptation
2. Fusion des poidsMerge de l’adaptateur LoRA dans les poids du modèle de base
3. Export safetensorsSauvegarde du modèle fusionné au format Hugging Face standard

La méthode LoRA (Low-Rank Adaptation) consiste à geler les poids du modèle de base et à n’entraîner que des matrices de faible rang injectées dans les couches d’attention. Cette approche permet un fine-tuning efficace en mémoire et en temps de calcul, tout en préservant les capacités générales du modèle.

Le dataset d’entraînement est issu du Dataset Doctrine Militaire NATO & Armée Française, un corpus de 454 documents PDF totalisant 55 034 pages et 2,53 Go de données couvrant 16 catégories de publications militaires.

Après fusion, le modèle résultant est entièrement autonome : pas besoin de charger un adaptateur LoRA séparé, pas de dépendances supplémentaires. Il s’utilise exactement comme le modèle de base Qwen3-VL-Embedding-2B avec la même API.

python3 merge_lora.py \
  --base_model Qwen/Qwen3-VL-Embedding-2B \
  --adapter ./lora_adapters \
  --output_dir ./merged \
  --trust_remote_code

Quelles sont les performances globales de Natotan ?

Natotan surpasse le modèle de base Qwen3-VL-Embedding-2B sur toutes les métriques et tous les seuils de coupure évalués. L’amélioration est la plus forte au sommet du classement : le NDCG@1 passe de 0,352 à 0,384, soit une progression de 9,0 %.

MétriqueBaseNatotanProgression
NDCG@10,35240,3841+9,0 %
NDCG@50,63620,6802+6,9 %
NDCG@100,65750,6990+6,3 %
Recall@10,35240,3841+9,0 %
Recall@50,84300,8930+5,9 %
Recall@100,90790,9501+4,6 %
MRR0,57850,6179+6,8 %
MAP0,57850,6179+6,8 %

En termes concrets, le Recall@5 de 0,893 signifie que le document pertinent apparaît dans les 5 premiers résultats pour 89,3 % des requêtes, contre 84,3 % avec le modèle de base. À Recall@10 le chiffre monte à 95,0 % — la quasi-totalité des requêtes trouvent le bon document en 10 résultats.

L’amélioration du MRR (Mean Reciprocal Rank) de 0,579 à 0,618 signifie que le rang moyen du premier résultat pertinent passe d’environ la position 1,73 à la position 1,62. Pour un système RAG militaire où chaque rang compte, c’est une progression significative.

Le NDCG@5428 (le seuil maximal correspondant à la taille du corpus) atteint 0,710, confirmant que les gains ne se limitent pas au haut du classement mais se propagent à l’ensemble du ranking.

Comment Natotan se compare-t-il à Gemini de Google ?

La comparaison avec Google Gemini multimodalembedding@001 illustre l’écart entre un modèle propriétaire généraliste et un modèle open-source fine-tune. Natotan surpasse Gemini sur toutes les métriques sans exception, avec des écarts allant de +128 % à +315 %.

MétriqueGeminiNatotanÉcart
NDCG@10,09250,3841x4,2
NDCG@50,18800,6802x3,6
NDCG@100,21180,6990x3,3
Recall@50,26900,8930x3,3
Recall@100,34270,9501x2,8
MRR0,18230,6179x3,4

Gemini multimodalembedding@001 produit des embeddings de 1 408 dimensions contre 2 048 pour Natotan. Mais la différence de dimension n’explique pas un écart de performance de cette ampleur. Le problème fondamental est l’absence de spécialisation : Gemini n’a pas été exposé à la terminologie et aux structures documentaires militaires.

Le résultat le plus révélateur est le Recall@10 de Gemini à 0,343 : sur 10 résultats retournés, le document pertinent n’est présent que dans 34,3 % des cas. Pour un système de recherche documentaire, c’est une performance insuffisante. Natotan atteint 95,0 % au même seuil.

Il est important de noter que Gemini reste un modèle performant pour les usages généralistes. Ces résultats ne reflètent que le domaine militaire, où la spécialisation s’avère indispensable.

Quelles sont les performances par langue ?

Natotan maintient une parité quasi parfaite entre le français et l’anglais, ce qui est remarquable pour un modèle d’embedding. Le NDCG@10 est de 0,701 en anglais et 0,697 en français — un écart de moins de 0,6 %.

LangueMétriqueBaseNatotanProgression
FrançaisNDCG@10,34410,3865+12,3 %
FrançaisNDCG@100,65270,6966+6,7 %
FrançaisRecall@100,90640,9440+4,1 %
FrançaisMRR0,57270,6171+7,8 %
AnglaisNDCG@10,36070,3817+5,8 %
AnglaisNDCG@100,66230,7013+5,9 %
AnglaisRecall@100,90940,9562+5,1 %
AnglaisMRR0,58430,6187+5,9 %

Le français bénéficie davantage du fine-tuning que l’anglais, avec un gain de +12,3 % en NDCG@1 contre +5,8 % en anglais. Cela s’explique probablement par le fait que le modèle de base Qwen3-VL avait une plus grande marge de progression sur le français militaire, un domaine sous-représenté dans les données d’entraînement génériques.

Le contraste avec Gemini est encore plus spectaculaire sur le français. Gemini n’atteint qu’un NDCG@10 de 0,132 en français contre 0,292 en anglais — une chute de plus de 50 %. Natotan, lui, reste stable entre les deux langues. Pour une utilisation dans les armées françaises ou dans les états-majors OTAN bilingues, cette stabilité est un avantage décisif.

Le Recall@10 français de 0,944 signifie que 94,4 % des requêtes en français retrouvent le bon document dans les 10 premiers résultats. En anglais, ce chiffre monte à 95,6 %.

Comment le benchmark d’évaluation est-il construit ?

Le benchmark utilise 5 428 paires requête-document issues de documents non vus pendant l’entraînement, réparties à égalité entre 2 714 paires en anglais et 2 714 paires en français. Les documents couvrent 16 catégories de publications militaires, elles-mêmes regroupées en deux thèmes principaux.

ThèmePaires% du total
Publications françaises3 10457,2 %
Publications NATO2 32442,8 %
Total5 428100 %

Les 16 catégories de documents

CatégoriePairesDescription
amedp1 138Allied Medical Publications (OTAN)
tta1 100Textes Toutes Armes (FR)
tactical1 016Manuels tactiques INF, GTIA (FR)
ajp916Allied Joint Publications (OTAN)
ajmedp224Allied Joint Medical Publications (OTAN)
un_manuals200Manuels ONU maintien de la paix (FR)
ft154FT/RFT Forces Terrestres (FR)
pia136Publications Interarmées (FR)
irsem132Recherche stratégique IRSEM (FR)
cahiers_pensee124Cahiers de la Pensée Mili-Terre (FR)
dia92Doctrine Interarmées (FR)
lexicons82Glossaires AAP-06, AAP-15
strategic48Livres blancs, revues stratégiques (FR)
other46Autres publications NATO
modern14Systèmes modernes (FR)
medot6Méthodologie décision opérationnelle (FR)

Les 5 catégories les plus représentées (amedp, tta, tactical, ajp, ajmedp) totalisent 4 394 paires, soit 81 % du benchmark. Cela garantit la robustesse statistique des résultats sur les catégories principales.

Les catégories à faible effectif (modern : 14, medot : 6) servent d’indicateurs qualitatifs mais ne doivent pas être interprétées de manière isolée en raison de la variance statistique élevée.

Le dataset d’entraînement sous-jacent est le Dataset Doctrine Militaire NATO & Armée Française, qui comprend 454 documents PDF, 55 034 pages et 2,53 Go de données.

Quelles catégories de documents bénéficient le plus du fine-tuning ?

Natotan améliore le NDCG@10 dans 13 des 16 catégories évaluées. Les gains les plus importants apparaissent sur les catégories où le modèle de base était le plus faible, notamment les manuels de l’ONU, les documents tactiques et les publications médicales interalliées.

Top 5 des catégories avec le plus fort gain en NDCG@10

CatégorienBaseNatotanGain absolu
medot60,4270,815+0,388
un_manuals2000,6670,764+0,097
ajmedp2240,6530,750+0,097
strategic480,6330,726+0,093
tactical1 0160,5970,669+0,072

La progression la plus spectaculaire est celle de la catégorie medot (méthodologie décision opérationnelle), avec un NDCG@10 qui passe de 0,427 à 0,815, soit un gain de +90,9 %. Il convient néanmoins de noter que cette catégorie ne contient que 6 paires et que ce résultat est donc à interpréter avec prudence.

Sur les catégories à fort volume, les gains sont plus modestes mais statistiquement robustes. La catégorie tactical (1 016 paires) progresse de +12,1 % en NDCG@10, et la catégorie tta (1 100 paires) de +9,1 %. Ces deux catégories représentent les manuels d’emploi de l’Armée de Terre française, c’est-à-dire les documents les plus consultés au quotidien.

Top 5 des catégories avec le plus fort gain en NDCG@1

CatégorienBaseNatotanGain relatif
medot60,1670,500+200,0 %
ajmedp2240,3080,451+46,4 %
ft1540,2990,429+43,4 %
un_manuals2000,3650,510+39,7 %
strategic480,3130,417+33,3 %

Les gains en NDCG@1 sont particulièrement importants car ils mesurent la probabilité que le premier résultat retourné soit le bon document. Pour un officier d’état-major qui cherche un document de doctrine spécifique, la différence entre un premier résultat pertinent et un premier résultat hors sujet est considérable.

Catégories avec régression

CatégorienBaseNatotanVariation
cahiers_pensee1240,6820,678-0,6 %
irsem1320,6540,644-1,5 %
modern140,7910,757-4,3 %

Trois catégories montrent une légère régression en NDCG@10. Les cahiers_pensee (-0,6 %) et irsem (-1,5 %) sont des publications académiques de recherche stratégique dont le style diffère des documents doctrinaux standard. La catégorie modern ne contient que 14 paires, ce qui rend la régression statistiquement non significative.

Recall@10 parfait sur 4 catégories

Natotan atteint un Recall@10 de 1,000 (100 % des documents pertinents retrouvés dans les 10 premiers résultats) sur 4 catégories : medot, strategic, cahiers_pensee et lexicons. Cela signifie que pour ces types de documents, le système ne manque jamais le bon résultat.

Quels exemples concrets illustrent les améliorations ?

Deux exemples qualitatifs issus du benchmark illustrent les améliorations de Natotan sur des requêtes réelles en français.

Exemple 1 — Requête tactique

Requête : “Un tableau détaillant les responsabilités du chef de section lors des missions de renseignement et de freinage face à une menace supérieure.”

ModèleRang du document pertinent
Base (Qwen3-VL-Embedding-2B)Absent du top 5
NatotanRang 2

Le modèle de base échoue complètement à retrouver le document pertinent dans les 5 premiers résultats. Natotan le place au rang 2. C’est un cas concret où le fine-tuning transforme un échec de recherche en une réponse exploitable.

Exemple 2 — Requête administrative

Requête : “Un document détaillant les étapes de l’orientation de carrière pour les engagés volontaires et les conditions de renouvellement de contrat après onze ans de service.”

ModèleRang du document pertinent
Base (Qwen3-VL-Embedding-2B)Rang 3
NatotanRang 1

Le modèle de base retrouve le bon document mais le classe en troisième position, derrière deux résultats non pertinents. Natotan le promote directement en première position.

Ces deux exemples montrent que les améliorations de Natotan ne sont pas abstraites : elles se traduisent par des différences concrètes dans l’expérience utilisateur d’un système de recherche documentaire militaire.

Comment utiliser Natotan dans un pipeline RAG ?

Natotan est un modèle fusionné qui se déploie comme n’importe quel modèle Hugging Face standard. Il n’y a aucun adaptateur LoRA à charger séparément, aucune dépendance supplémentaire.

Chargement du modèle

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "racineai/natotan",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(
    "racineai/natotan",
    trust_remote_code=True,
)

Intégration dans un système RAG

Natotan s’intègre dans n’importe quel pipeline RAG (Retrieval-Augmented Generation) comme encodeur de documents et de requêtes. Les embeddings de 2 048 dimensions sont compatibles avec les bases de données vectorielles standards : FAISS, Milvus, Qdrant, Pinecone, Weaviate.

ComposantRôle
NatotanEncodeur de documents et de requêtes (2 048 dimensions)
Base vectorielleStockage et recherche de similarité (FAISS, Milvus, Qdrant…)
LLM générateurGénération de réponses à partir des documents retrouvés

Le workflow typique est le suivant : (1) encoder les documents du corpus avec Natotan, (2) stocker les embeddings dans une base vectorielle, (3) à la réception d’une requête, encoder la requête avec Natotan, (4) rechercher les k documents les plus similaires, (5) passer les documents retrouvés à un LLM pour générer la réponse.

Avec un Recall@5 de 89,3 % et un Recall@10 de 95,0 %, Natotan garantit que les documents pertinents sont retrouvés dans l’immense majorité des cas avant l’étape de génération.

Quelles sont les limites du modèle ?

Natotan est optimisé pour un domaine spécifique et présente plusieurs limites qu’il est important de connaître avant le déploiement.

Domaine restreint. Le fine-tuning a été réalisé exclusivement sur des documents de doctrine militaire NATO et Armée Française. Les performances sur d’autres domaines (juridique, médical civil, finance) n’ont pas été évaluées. Le modèle de base Qwen3-VL-Embedding-2B conserve ses capacités générales, mais le gain de spécialisation ne s’applique qu’au domaine d’entraînement.

Deux langues uniquement. Le benchmark couvre le français et l’anglais. Les performances sur d’autres langues OTAN (allemand, espagnol, turc, etc.) n’ont pas été mesurées, bien que le modèle de base supporte de nombreuses langues.

Catégories à faible effectif. Cinq catégories du benchmark contiennent moins de 100 paires (strategic : 48, other : 46, modern : 14, medot : 6). Les résultats sur ces catégories ont une variance statistique élevée et doivent être interprétés avec prudence.

Pas de mise à jour incrémentale. Le modèle est une snapshot figé. Il ne se met pas à jour automatiquement quand de nouveaux documents de doctrine sont publiés. Un re-fine-tuning périodique est nécessaire pour intégrer les nouvelles publications.

Taille du modèle. Avec 2 milliards de paramètres, Natotan requiert un GPU pour l’inférence à pleine vitesse. Le déploiement sur CPU est possible mais significativement plus lent.

Citation

@misc{Natotan2025,
  title={Natotan: LoRA-tuned Qwen3-VL-Embedding-2B for multimodal defense document retrieval},
  year={2025},
  url={https://huggingface.co/racineai/natotan}
}

Newsletter technique

1 article par mois sur l'IA documentaire. Pas de spam.

12 - 5 =

On nous demande souvent

Qu'est-ce que Natotan ?

Natotan est un modèle d'embedding vision-language de 2 milliards de paramètres, fine-tune par LoRA sur des documents de doctrine militaire NATO et Armée Française. Il produit des embeddings de 2 048 dimensions et est optimisé pour la recherche documentaire multimodale bilingue français-anglais.

Quelle est la différence entre Natotan et Qwen3-VL-Embedding-2B ?

Natotan est une version spécialisée de Qwen3-VL-Embedding-2B obtenue par fine-tuning LoRA sur un corpus de documents militaires. Il améliore le NDCG@1 de 9,0 %, le Recall@5 de 5,9 % et le MRR de 6,8 % sur le benchmark de recherche documentaire militaire.

Natotan est-il meilleur que Gemini pour la recherche militaire ?

Oui. Sur le benchmark de 5 428 paires requête-document, Natotan obtient un NDCG@10 de 0,699 contre 0,212 pour Gemini multimodalembedding@001, soit une performance 3,3 fois supérieure. L'écart est encore plus grand en français : 0,697 pour Natotan contre 0,132 pour Gemini (5,3 fois plus).

Faut-il charger un adaptateur LoRA séparément ?

Non. Les poids de l'adaptateur LoRA ont été fusionnés dans le modèle de base. Natotan se charge directement avec AutoModel.from_pretrained() comme n'importe quel modèle Hugging Face standard, sans dépendance supplémentaire.

Natotan fonctionne-t-il en français et en anglais ?

Oui. Le benchmark est réparti à égalité entre 2 714 paires en français et 2 714 paires en anglais. Natotan améliore les performances dans les deux langues, avec des gains plus importants en français (+12,3 % NDCG@1) qu'en anglais (+5,8 %).

Sur quels types de documents Natotan est-il le plus performant ?

Les gains les plus forts apparaissent sur les manuels tactiques (+12,1 % NDCG@10), les manuels ONU (+14,6 %), les publications médicales interalliées (+14,9 %) et les documents de doctrine stratégique (+14,8 %). Le modèle améliore 13 des 16 catégories évaluées.

Peut-on utiliser Natotan pour un système RAG militaire ?

Oui. Natotan s'intègre dans n'importe quel pipeline RAG comme encodeur de documents et de requêtes. Ses embeddings de 2 048 dimensions sont compatibles avec FAISS, Milvus, Qdrant, Pinecone et Weaviate. Avec un Recall@10 de 95,0 %, il garantit la récupération des documents pertinents dans la grande majorité des cas.

Quel GPU est nécessaire pour faire tourner Natotan ?

Natotan est un modèle de 2 milliards de paramètres. Il fonctionne sur n'importe quel GPU avec au moins 8 Go de VRAM (RTX 3060, A10, T4, etc.). L'inférence sur CPU est possible mais plus lente.

Quel est le lien avec le Dataset Doctrine Militaire NATO & Armée Française ?

Natotan a été fine-tune sur le Dataset Doctrine Militaire NATO & Armée Française, un corpus de 454 documents PDF totalisant 55 034 pages et 2,53 Go. Le benchmark d'évaluation de 5 428 paires est dérivé de ce même dataset, à partir de documents non vus pendant l'entraînement.

Natotan peut-il être utilisé hors du domaine militaire ?

Natotan hérite des capacités générales de Qwen3-VL-Embedding-2B. Le fine-tuning LoRA est léger et n'a pas dégradé les performances générales du modèle de base. Toutefois, les performances sur des domaines hors défense n'ont pas été formellement évaluées.

Discutons de

Votre Projet.

IA Documents, automatisation legacy, inspection terrain. Nous deployons des solutions qui passent en production.

Decrivez votre projet et recevez une reponse sous 48h.

Nous contacter