Modeles & Datasets Open Source
Vision Language Models et datasets de retrieval documentaire. Licence MIT/Apache, deployables on-premise.
Natotan
Modele d'embedding vision-language specialise defense. Fine-tune LoRA sur Qwen3-VL-Embedding-2B pour retrieval documentaire militaire.
UI-DETR-1
Detection d'elements UI (boutons, champs, menus) dans des captures d'ecran. Fine-tune sur interfaces desktop et web.
QwenAmann-4B
Modele de retrieval documentaire visuel. Encode documents et requetes pour recherche semantique sur images de pages.
Flantier2-SmolVLM-2B
VLM compact pour extraction documentaire. Optimise pour le traitement de documents techniques et administratifs.
Flantier-Nuclear
VLM specialise pour documents reglementaires nucleaires. Entraine sur corpus ASN, IAEA et documentation technique.
Flantier-SmolVLM-2B
VLM generaliste 2B parametres pour retrieval documentaire. Base SmolVLM avec fine-tuning sur corpus europeens.
Flantier-SmolVLM-500M
VLM ultra-compact pour deploiement edge. 500M parametres, executable sur CPU ou GPU modeste.
VDR_MEGA_2
Dataset multi-domaine de 1.44M paires document-requete. Couvre energie, defense, reglementation, technique.
VDR_MultiDomain
Dataset retrieval documentaire multi-domaine. 1.09M echantillons pour entrainement de modeles de recherche.
VDR_Military
Dataset de documents du secteur defense. Specifications, manuels techniques, procedures operationnelles.
VDR_Nato
Dataset doctrine militaire NATO et Armee Francaise. 377 documents, 29 271 pages avec requetes bilingues pour retrieval documentaire visuel.
VDR_Nuclear
Dataset de documents reglementaires nucleaires. Normes ASN, rapports IAEA, documentation technique.
VDR_Hydrogen
Dataset secteur hydrogene. Normes de securite, specifications techniques, reglementation europeenne.
VDR_Renewable
Dataset reglementation energies renouvelables. Solaire, eolien, biomasse. Normes europeennes et francaises.
VDR_Energy_Arabic
Dataset secteur energie en arabe. Documents techniques et reglementaires du Moyen-Orient et Afrique du Nord.
VDR_History_Geography
Dataset documents historiques et geographiques. Cartes, archives, etudes territoriales.
VDR_Quantum_Papers
Dataset de papers scientifiques sur circuits quantiques. Schemas, equations, architectures.
VDR_Quantum_Synthetic
Dataset synthetique de circuits quantiques. Genere pour entrainement de modeles sur schemas techniques.
VDR_Qualitative
Dataset haute qualite pour evaluation. Paires document-requete verifiees manuellement.
VDR_VisRAG_ColPali
Dataset optimise pour VisRAG et ColPali. Format adapte aux architectures de retrieval visuel.
VDR_ColPali_VisRAG
Dataset format ColPali/VisRAG. 730K paires pour entrainement de modeles de retrieval documentaire.
VDR_CATIE_XMRec
Dataset CATIE pour recommandation cross-modale. Documents et requetes en francais.
Besoin d'un modele sur mesure ?
Nous pouvons fine-tuner nos modeles sur vos documents et votre domaine specifique.