Natotan est un modèle d’embedding vision-language spécialisé dans la recherche multimodale de documents militaires en français et en anglais. Il est construit à partir de Qwen3-VL-Embedding-2B via un fine-tuning LoRA (Low-Rank Adaptation), dont les poids ont été fusionnés dans le modèle de base pour un déploiement sans friction.
Sur un benchmark de 5 428 paires requête-document couvrant les publications NATO et les documents de doctrine de l’Armée Française, Natotan obtient un NDCG@1 de 0,384 (+9 % vs le modèle de base) et un MRR de 0,618 (+6,8 %). Il surpasse Google Gemini multimodalembedding@001 de plus de 230 % en NDCG@10.
Le modèle produit des embeddings de 2 048 dimensions, identiques au modèle de base Qwen3-VL-Embedding-2B. Il est distribué au format safetensors sur Hugging Face et se charge en une seule ligne avec AutoModel.from_pretrained(), sans adaptateur LoRA à charger séparément.
| Métrique | Valeur |
|---|---|
| Modèle de base | Qwen3-VL-Embedding-2B |
| Méthode de fine-tuning | LoRA (Low-Rank Adaptation), merge |
| Dimension des embeddings | 2 048 |
| Langues | Français + Anglais |
| Tâche | Embedding multimodal / recherche documentaire |
| Format | safetensors |
| Benchmark | 5 428 paires requête-document |
| Catégories évaluées | 16 |
| NDCG@1 | 0,384 (+9,0 % vs base) |
| MRR | 0,618 (+6,8 % vs base) |
| Recall@10 | 0,950 (+4,6 % vs base) |
Pourquoi un modèle d’embedding spécialisé pour la défense ?
Les modèles d’embedding génériques — qu’ils soient open-source ou propriétaires — échouent régulièrement sur les corpus de documents de défense. Le vocabulaire militaire est technique, multilingue, et mêle texte, schémas tactiques, tableaux et cartes dans un même document. Un modèle généraliste n’a pas vu suffisamment de ce type de contenu pendant son entraînement pour produire des représentations sémantiques fiables.
Le constat est particulièrement frappant avec Google Gemini multimodalembedding@001. Sur le benchmark Natotan, Gemini n’atteint qu’un NDCG@10 de 0,212 là où Natotan obtient 0,699 — soit 3,3 fois plus. Sur les documents en français, l’écart se creuse encore : Gemini tombe à 0,132 de NDCG@10 contre 0,697 pour Natotan, un rapport de 5,3x.
Ce résultat confirme une tendance observée dans la littérature : les modèles propriétaires génériques sous-performent de manière significative sur les domaines spécialisés, particulièrement en dehors de l’anglais. Le fine-tuning LoRA, même avec un budget de calcul modeste, permet de combler et dépasser cet écart.
Les cas d’usage concrets incluent la recherche documentaire dans les systèmes RAG militaires, la récupération de publications doctrinales pour les états-majors, et l’indexation multimodale de manuels tactiques contenant à la fois du texte et des schémas.
Comment Natotan a-t-il été construit ?
Natotan a été construit en 3 étapes à partir du modèle de base open-source Qwen3-VL-Embedding-2B, un modèle vision-language de 2 milliards de paramètres édité par l’équipe Qwen d’Alibaba.
| Étape | Description |
|---|---|
| 1. Fine-tuning LoRA | Adaptation sur un dataset de documents militaires NATO et Armée Française via Low-Rank Adaptation |
| 2. Fusion des poids | Merge de l’adaptateur LoRA dans les poids du modèle de base |
| 3. Export safetensors | Sauvegarde du modèle fusionné au format Hugging Face standard |
La méthode LoRA (Low-Rank Adaptation) consiste à geler les poids du modèle de base et à n’entraîner que des matrices de faible rang injectées dans les couches d’attention. Cette approche permet un fine-tuning efficace en mémoire et en temps de calcul, tout en préservant les capacités générales du modèle.
Le dataset d’entraînement est issu du Dataset Doctrine Militaire NATO & Armée Française, un corpus de 454 documents PDF totalisant 55 034 pages et 2,53 Go de données couvrant 16 catégories de publications militaires.
Après fusion, le modèle résultant est entièrement autonome : pas besoin de charger un adaptateur LoRA séparé, pas de dépendances supplémentaires. Il s’utilise exactement comme le modèle de base Qwen3-VL-Embedding-2B avec la même API.
python3 merge_lora.py \
--base_model Qwen/Qwen3-VL-Embedding-2B \
--adapter ./lora_adapters \
--output_dir ./merged \
--trust_remote_code
Quelles sont les performances globales de Natotan ?
Natotan surpasse le modèle de base Qwen3-VL-Embedding-2B sur toutes les métriques et tous les seuils de coupure évalués. L’amélioration est la plus forte au sommet du classement : le NDCG@1 passe de 0,352 à 0,384, soit une progression de 9,0 %.
| Métrique | Base | Natotan | Progression |
|---|---|---|---|
| NDCG@1 | 0,3524 | 0,3841 | +9,0 % |
| NDCG@5 | 0,6362 | 0,6802 | +6,9 % |
| NDCG@10 | 0,6575 | 0,6990 | +6,3 % |
| Recall@1 | 0,3524 | 0,3841 | +9,0 % |
| Recall@5 | 0,8430 | 0,8930 | +5,9 % |
| Recall@10 | 0,9079 | 0,9501 | +4,6 % |
| MRR | 0,5785 | 0,6179 | +6,8 % |
| MAP | 0,5785 | 0,6179 | +6,8 % |
En termes concrets, le Recall@5 de 0,893 signifie que le document pertinent apparaît dans les 5 premiers résultats pour 89,3 % des requêtes, contre 84,3 % avec le modèle de base. À Recall@10 le chiffre monte à 95,0 % — la quasi-totalité des requêtes trouvent le bon document en 10 résultats.
L’amélioration du MRR (Mean Reciprocal Rank) de 0,579 à 0,618 signifie que le rang moyen du premier résultat pertinent passe d’environ la position 1,73 à la position 1,62. Pour un système RAG militaire où chaque rang compte, c’est une progression significative.
Le NDCG@5428 (le seuil maximal correspondant à la taille du corpus) atteint 0,710, confirmant que les gains ne se limitent pas au haut du classement mais se propagent à l’ensemble du ranking.
Comment Natotan se compare-t-il à Gemini de Google ?
La comparaison avec Google Gemini multimodalembedding@001 illustre l’écart entre un modèle propriétaire généraliste et un modèle open-source fine-tune. Natotan surpasse Gemini sur toutes les métriques sans exception, avec des écarts allant de +128 % à +315 %.
| Métrique | Gemini | Natotan | Écart |
|---|---|---|---|
| NDCG@1 | 0,0925 | 0,3841 | x4,2 |
| NDCG@5 | 0,1880 | 0,6802 | x3,6 |
| NDCG@10 | 0,2118 | 0,6990 | x3,3 |
| Recall@5 | 0,2690 | 0,8930 | x3,3 |
| Recall@10 | 0,3427 | 0,9501 | x2,8 |
| MRR | 0,1823 | 0,6179 | x3,4 |
Gemini multimodalembedding@001 produit des embeddings de 1 408 dimensions contre 2 048 pour Natotan. Mais la différence de dimension n’explique pas un écart de performance de cette ampleur. Le problème fondamental est l’absence de spécialisation : Gemini n’a pas été exposé à la terminologie et aux structures documentaires militaires.
Le résultat le plus révélateur est le Recall@10 de Gemini à 0,343 : sur 10 résultats retournés, le document pertinent n’est présent que dans 34,3 % des cas. Pour un système de recherche documentaire, c’est une performance insuffisante. Natotan atteint 95,0 % au même seuil.
Il est important de noter que Gemini reste un modèle performant pour les usages généralistes. Ces résultats ne reflètent que le domaine militaire, où la spécialisation s’avère indispensable.
Quelles sont les performances par langue ?
Natotan maintient une parité quasi parfaite entre le français et l’anglais, ce qui est remarquable pour un modèle d’embedding. Le NDCG@10 est de 0,701 en anglais et 0,697 en français — un écart de moins de 0,6 %.
| Langue | Métrique | Base | Natotan | Progression |
|---|---|---|---|---|
| Français | NDCG@1 | 0,3441 | 0,3865 | +12,3 % |
| Français | NDCG@10 | 0,6527 | 0,6966 | +6,7 % |
| Français | Recall@10 | 0,9064 | 0,9440 | +4,1 % |
| Français | MRR | 0,5727 | 0,6171 | +7,8 % |
| Anglais | NDCG@1 | 0,3607 | 0,3817 | +5,8 % |
| Anglais | NDCG@10 | 0,6623 | 0,7013 | +5,9 % |
| Anglais | Recall@10 | 0,9094 | 0,9562 | +5,1 % |
| Anglais | MRR | 0,5843 | 0,6187 | +5,9 % |
Le français bénéficie davantage du fine-tuning que l’anglais, avec un gain de +12,3 % en NDCG@1 contre +5,8 % en anglais. Cela s’explique probablement par le fait que le modèle de base Qwen3-VL avait une plus grande marge de progression sur le français militaire, un domaine sous-représenté dans les données d’entraînement génériques.
Le contraste avec Gemini est encore plus spectaculaire sur le français. Gemini n’atteint qu’un NDCG@10 de 0,132 en français contre 0,292 en anglais — une chute de plus de 50 %. Natotan, lui, reste stable entre les deux langues. Pour une utilisation dans les armées françaises ou dans les états-majors OTAN bilingues, cette stabilité est un avantage décisif.
Le Recall@10 français de 0,944 signifie que 94,4 % des requêtes en français retrouvent le bon document dans les 10 premiers résultats. En anglais, ce chiffre monte à 95,6 %.
Comment le benchmark d’évaluation est-il construit ?
Le benchmark utilise 5 428 paires requête-document issues de documents non vus pendant l’entraînement, réparties à égalité entre 2 714 paires en anglais et 2 714 paires en français. Les documents couvrent 16 catégories de publications militaires, elles-mêmes regroupées en deux thèmes principaux.
| Thème | Paires | % du total |
|---|---|---|
| Publications françaises | 3 104 | 57,2 % |
| Publications NATO | 2 324 | 42,8 % |
| Total | 5 428 | 100 % |
Les 16 catégories de documents
| Catégorie | Paires | Description |
|---|---|---|
| amedp | 1 138 | Allied Medical Publications (OTAN) |
| tta | 1 100 | Textes Toutes Armes (FR) |
| tactical | 1 016 | Manuels tactiques INF, GTIA (FR) |
| ajp | 916 | Allied Joint Publications (OTAN) |
| ajmedp | 224 | Allied Joint Medical Publications (OTAN) |
| un_manuals | 200 | Manuels ONU maintien de la paix (FR) |
| ft | 154 | FT/RFT Forces Terrestres (FR) |
| pia | 136 | Publications Interarmées (FR) |
| irsem | 132 | Recherche stratégique IRSEM (FR) |
| cahiers_pensee | 124 | Cahiers de la Pensée Mili-Terre (FR) |
| dia | 92 | Doctrine Interarmées (FR) |
| lexicons | 82 | Glossaires AAP-06, AAP-15 |
| strategic | 48 | Livres blancs, revues stratégiques (FR) |
| other | 46 | Autres publications NATO |
| modern | 14 | Systèmes modernes (FR) |
| medot | 6 | Méthodologie décision opérationnelle (FR) |
Les 5 catégories les plus représentées (amedp, tta, tactical, ajp, ajmedp) totalisent 4 394 paires, soit 81 % du benchmark. Cela garantit la robustesse statistique des résultats sur les catégories principales.
Les catégories à faible effectif (modern : 14, medot : 6) servent d’indicateurs qualitatifs mais ne doivent pas être interprétées de manière isolée en raison de la variance statistique élevée.
Le dataset d’entraînement sous-jacent est le Dataset Doctrine Militaire NATO & Armée Française, qui comprend 454 documents PDF, 55 034 pages et 2,53 Go de données.
Quelles catégories de documents bénéficient le plus du fine-tuning ?
Natotan améliore le NDCG@10 dans 13 des 16 catégories évaluées. Les gains les plus importants apparaissent sur les catégories où le modèle de base était le plus faible, notamment les manuels de l’ONU, les documents tactiques et les publications médicales interalliées.
Top 5 des catégories avec le plus fort gain en NDCG@10
| Catégorie | n | Base | Natotan | Gain absolu |
|---|---|---|---|---|
| medot | 6 | 0,427 | 0,815 | +0,388 |
| un_manuals | 200 | 0,667 | 0,764 | +0,097 |
| ajmedp | 224 | 0,653 | 0,750 | +0,097 |
| strategic | 48 | 0,633 | 0,726 | +0,093 |
| tactical | 1 016 | 0,597 | 0,669 | +0,072 |
La progression la plus spectaculaire est celle de la catégorie medot (méthodologie décision opérationnelle), avec un NDCG@10 qui passe de 0,427 à 0,815, soit un gain de +90,9 %. Il convient néanmoins de noter que cette catégorie ne contient que 6 paires et que ce résultat est donc à interpréter avec prudence.
Sur les catégories à fort volume, les gains sont plus modestes mais statistiquement robustes. La catégorie tactical (1 016 paires) progresse de +12,1 % en NDCG@10, et la catégorie tta (1 100 paires) de +9,1 %. Ces deux catégories représentent les manuels d’emploi de l’Armée de Terre française, c’est-à-dire les documents les plus consultés au quotidien.
Top 5 des catégories avec le plus fort gain en NDCG@1
| Catégorie | n | Base | Natotan | Gain relatif |
|---|---|---|---|---|
| medot | 6 | 0,167 | 0,500 | +200,0 % |
| ajmedp | 224 | 0,308 | 0,451 | +46,4 % |
| ft | 154 | 0,299 | 0,429 | +43,4 % |
| un_manuals | 200 | 0,365 | 0,510 | +39,7 % |
| strategic | 48 | 0,313 | 0,417 | +33,3 % |
Les gains en NDCG@1 sont particulièrement importants car ils mesurent la probabilité que le premier résultat retourné soit le bon document. Pour un officier d’état-major qui cherche un document de doctrine spécifique, la différence entre un premier résultat pertinent et un premier résultat hors sujet est considérable.
Catégories avec régression
| Catégorie | n | Base | Natotan | Variation |
|---|---|---|---|---|
| cahiers_pensee | 124 | 0,682 | 0,678 | -0,6 % |
| irsem | 132 | 0,654 | 0,644 | -1,5 % |
| modern | 14 | 0,791 | 0,757 | -4,3 % |
Trois catégories montrent une légère régression en NDCG@10. Les cahiers_pensee (-0,6 %) et irsem (-1,5 %) sont des publications académiques de recherche stratégique dont le style diffère des documents doctrinaux standard. La catégorie modern ne contient que 14 paires, ce qui rend la régression statistiquement non significative.
Recall@10 parfait sur 4 catégories
Natotan atteint un Recall@10 de 1,000 (100 % des documents pertinents retrouvés dans les 10 premiers résultats) sur 4 catégories : medot, strategic, cahiers_pensee et lexicons. Cela signifie que pour ces types de documents, le système ne manque jamais le bon résultat.
Quels exemples concrets illustrent les améliorations ?
Deux exemples qualitatifs issus du benchmark illustrent les améliorations de Natotan sur des requêtes réelles en français.
Exemple 1 — Requête tactique
Requête : “Un tableau détaillant les responsabilités du chef de section lors des missions de renseignement et de freinage face à une menace supérieure.”
| Modèle | Rang du document pertinent |
|---|---|
| Base (Qwen3-VL-Embedding-2B) | Absent du top 5 |
| Natotan | Rang 2 |
Le modèle de base échoue complètement à retrouver le document pertinent dans les 5 premiers résultats. Natotan le place au rang 2. C’est un cas concret où le fine-tuning transforme un échec de recherche en une réponse exploitable.
Exemple 2 — Requête administrative
Requête : “Un document détaillant les étapes de l’orientation de carrière pour les engagés volontaires et les conditions de renouvellement de contrat après onze ans de service.”
| Modèle | Rang du document pertinent |
|---|---|
| Base (Qwen3-VL-Embedding-2B) | Rang 3 |
| Natotan | Rang 1 |
Le modèle de base retrouve le bon document mais le classe en troisième position, derrière deux résultats non pertinents. Natotan le promote directement en première position.
Ces deux exemples montrent que les améliorations de Natotan ne sont pas abstraites : elles se traduisent par des différences concrètes dans l’expérience utilisateur d’un système de recherche documentaire militaire.
Comment utiliser Natotan dans un pipeline RAG ?
Natotan est un modèle fusionné qui se déploie comme n’importe quel modèle Hugging Face standard. Il n’y a aucun adaptateur LoRA à charger séparément, aucune dépendance supplémentaire.
Chargement du modèle
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
"racineai/natotan",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(
"racineai/natotan",
trust_remote_code=True,
)
Intégration dans un système RAG
Natotan s’intègre dans n’importe quel pipeline RAG (Retrieval-Augmented Generation) comme encodeur de documents et de requêtes. Les embeddings de 2 048 dimensions sont compatibles avec les bases de données vectorielles standards : FAISS, Milvus, Qdrant, Pinecone, Weaviate.
| Composant | Rôle |
|---|---|
| Natotan | Encodeur de documents et de requêtes (2 048 dimensions) |
| Base vectorielle | Stockage et recherche de similarité (FAISS, Milvus, Qdrant…) |
| LLM générateur | Génération de réponses à partir des documents retrouvés |
Le workflow typique est le suivant : (1) encoder les documents du corpus avec Natotan, (2) stocker les embeddings dans une base vectorielle, (3) à la réception d’une requête, encoder la requête avec Natotan, (4) rechercher les k documents les plus similaires, (5) passer les documents retrouvés à un LLM pour générer la réponse.
Avec un Recall@5 de 89,3 % et un Recall@10 de 95,0 %, Natotan garantit que les documents pertinents sont retrouvés dans l’immense majorité des cas avant l’étape de génération.
Quelles sont les limites du modèle ?
Natotan est optimisé pour un domaine spécifique et présente plusieurs limites qu’il est important de connaître avant le déploiement.
Domaine restreint. Le fine-tuning a été réalisé exclusivement sur des documents de doctrine militaire NATO et Armée Française. Les performances sur d’autres domaines (juridique, médical civil, finance) n’ont pas été évaluées. Le modèle de base Qwen3-VL-Embedding-2B conserve ses capacités générales, mais le gain de spécialisation ne s’applique qu’au domaine d’entraînement.
Deux langues uniquement. Le benchmark couvre le français et l’anglais. Les performances sur d’autres langues OTAN (allemand, espagnol, turc, etc.) n’ont pas été mesurées, bien que le modèle de base supporte de nombreuses langues.
Catégories à faible effectif. Cinq catégories du benchmark contiennent moins de 100 paires (strategic : 48, other : 46, modern : 14, medot : 6). Les résultats sur ces catégories ont une variance statistique élevée et doivent être interprétés avec prudence.
Pas de mise à jour incrémentale. Le modèle est une snapshot figé. Il ne se met pas à jour automatiquement quand de nouveaux documents de doctrine sont publiés. Un re-fine-tuning périodique est nécessaire pour intégrer les nouvelles publications.
Taille du modèle. Avec 2 milliards de paramètres, Natotan requiert un GPU pour l’inférence à pleine vitesse. Le déploiement sur CPU est possible mais significativement plus lent.
Citation
@misc{Natotan2025,
title={Natotan: LoRA-tuned Qwen3-VL-Embedding-2B for multimodal defense document retrieval},
year={2025},
url={https://huggingface.co/racineai/natotan}
}