Dans chaque comptabilite suisse, chaque service de conformite bancaire et chaque pole sinistres d'assurance, des montagnes de papier s'empilent encore en 2026 — factures fournisseurs, dossiers KYC, contrats, justificatifs, certificats de salaire. L'OCR traditionnel des annees 2010 (Tesseract, ABBYY, Kofax) a tente pendant 30 ans de resoudre ce probleme — et est fondamentalement depasse en 2026. Les LLM Vision multimodaux comme Claude 4.7 Sonnet, GPT-4o, Gemini 2.5 Pro et les moteurs Document AI specialises tels que Mistral OCR, Google Document AI, Azure Form Recognizer et AWS Textract atteignent en 2026 une precision sur champ de 95 a 98 % sur des documents suisses reels — pour un cout compris entre 0,0001 et 0,015 CHF par page. Quel moteur pour quelle charge de travail ? Lequel pour les banques conformes FINMA ? Lequel pour les gros volumes ? Chez mazdek, nous avons realise en 14 mois 22 deploiements IDP en production dans des banques, fiduciaires, assurances et PME industrielles suisses — de 12 000 justificatifs a 4,8 millions de pages par mois. Ce guide en distille les enseignements. Notre agent ORACLE construit le pipeline de donnees, PROMETHEUS orchestre les LLM Vision, HERACLES connecte SAP, Bexio et Abacus, ARES garantit la conformite, ARGUS fournit l'observabilite 24/7 — le tout conforme nLPD, EU AI Act et FINMA.
Le tournant de 2026 : LLM Vision contre OCR classique
Jusqu'en 2023, l'OCR fonctionnait comme en 1995 : un modele de reconnaissance d'image extrayait les caracteres, un deuxieme module de pipeline reconstruisait la mise en page, un troisieme mappait les champs sur un schema. Trois modeles, trois sources d'erreur, 70 a 85 % de precision de bout en bout. La veritable disruption est arrivee mi-2024 avec GPT-4o et Claude 3.5 Sonnet — des modeles de fondation entraines en multimodal, capables de comprehension de document, d'analyse de mise en page et d'extraction de schema en une seule passe avant. En 2026, la situation est claire :
- OCR classique (Tesseract, ABBYY) : 87 % de precision sur champ pour les factures QR suisses, environ CHF 0,0001 par page, deploiement on-prem possible — mais l'extraction de mise en page et de tableaux reste faible.
- Document AI specialise (Google Document AI, Azure Form Recognizer, AWS Textract) : 96 a 97 % de precision sur champ, parseurs de schemas pre-entraines pour facture/W2/KYC, CHF 0,009 a 0,015 par page — meilleure experience pret a l'emploi, mais cher et difficilement personnalisable.
- LLM Vision multimodaux (Claude 4.7, GPT-4o, Gemini 2.5) : 97 a 98 % de precision sur champ, meme sur des types de documents inconnus, sortie librement structuree via JSON-Schema, CHF 0,003 a 0,004 par page — la solution la plus flexible, dominante en 2026.
- Mistral OCR (lancement 2025) : le premier moteur Vision OSS specifiquement dedie aux documents — Apache 2.0, self-hosting possible, sortie Markdown, CHF 0,001 par page. Un changement de paradigme pour la souverainete des donnees suisses.
« Quiconque achete encore en 2026 ABBYY ou Kofax pour des pipelines documentaires suisses paie des couts de licence de 1990 pour une precision de 2010. Les LLM Vision multimodaux sont 8 a 12 points de pourcentage plus precis, 4 a 6 fois moins chers et prennent en charge toutes les langues parlees en Suisse — y compris le suisse-allemand et les arretes cantonaux francais. »
— ORACLE, agent Data & Analytics chez mazdek
Le paysage IDP 2026 : huit moteurs en comparaison
Huit options pertinentes, avec un spectre clair de l'open-source self-host au SaaS hyperscaler americain :
| Moteur | Editeur | Licence | Architecture | Cout/page | Adequation Suisse |
|---|---|---|---|---|---|
| Mistral OCR | Mistral AI (Paris) | Apache 2.0 + API | LLM Vision (24B) | CHF 0,001 | Tres bonne |
| Claude 4.7 Sonnet Vision | Anthropic (US) | API proprietaire | LLM Vision de fondation | CHF 0,0042 | Bonne (endpoint UE) |
| GPT-4o Vision | OpenAI (US) | API proprietaire | LLM Vision de fondation | CHF 0,0035 | Moyenne (Azure UE) |
| Gemini 2.5 Pro Vision | Google (US) | API proprietaire | LLM Vision de fondation | CHF 0,0028 | Tres bonne (Vertex Zurich) |
| Google Document AI | Google Cloud | SaaS | Parseurs specialises | CHF 0,015 | Tres bonne (region Zurich) |
| Azure Form Recognizer | Microsoft | SaaS + Container | Parseurs specialises | CHF 0,0125 | Bonne (Switzerland North) |
| AWS Textract | Amazon | SaaS | Parseurs specialises | CHF 0,0095 | Bonne (region Zurich) |
| Tesseract 5 + LayoutLMv3 | Open Source | Apache 2.0 | OCR classique + mise en page | CHF 0,0001 | Totalement souveraine |
Dans les deploiements suisses en production en 2026, nous observons cinq archetypes :
- Mistral OCR : le nouveau favori suisse. Base en UE, Apache 2.0, self-hosting trivial sur Hetzner Helsinki ou Infomaniak Geneve. CHF 0,001 par page — 4 fois moins cher que GPT-4o pour une precision comparable.
- Claude 4.7 Vision : le choix pour les contrats complexes, les documents juridiques et les annotations manuscrites. Precision la plus elevee sur les contrats long-context (plus de 50 pages).
- Gemini 2.5 + Vertex Zurich : la seule API Vision hyperscaler avec une region suisse native — parfaite pour les mandats FINMA qui ne veulent pas faire de self-hosting.
- Google Document AI / Azure Form Recognizer : parseurs de schemas pret a l'emploi. Premier choix si vous avez besoin immediatement de justificatifs standards (factures, KYC, W2) sans prompt-engineering personnalise — mais 3 a 5 fois plus cher que les LLM Vision.
- Tesseract + LayoutLMv3 : uniquement pour les scenarios pharma, defense ou bancaires Tier-1 ou rien ne doit quitter le serveur — 8 a 12 % de perte de precision a prevoir.
Benchmark 2026 : precision, latence et couts sur charge suisse reelle
Nous avons teste huit moteurs avec une charge de travail identique : 5 000 documents (melange de factures QR allemandes, contrats francais, dossiers KYC issus de 12 mandats pilotes suisses et liasses de justificatifs), mediane sur 18 000 pages. Precision sur champ mesuree par correspondance Levenshtein sur 22 champs structures (IBAN, montant, date, identifiants TVA, clauses contractuelles, donnees personnelles). Toutes les valeurs sont des medianes :
| Moteur | Precision champ Facture | Contrat | KYC | Justificatif | Latence p95/page | CHF/1000 pages |
|---|---|---|---|---|---|---|
| Claude 4.7 Sonnet Vision | 98,1 % | 97,8 % | 96,8 % | 95,2 % | 2 100 ms | CHF 4,20 |
| Mistral OCR | 97,4 % | 96,2 % | 95,1 % | 94,8 % | 380 ms | CHF 1,00 |
| GPT-4o Vision | 97,3 % | 96,5 % | 95,4 % | 94,5 % | 1 850 ms | CHF 3,50 |
| Gemini 2.5 Pro Vision | 97,1 % | 96,1 % | 94,9 % | 94,2 % | 1 620 ms | CHF 2,80 |
| Google Document AI | 96,4 % | 94,8 % | 95,2 % | 96,1 % | 580 ms | CHF 15,00 |
| Azure Form Recognizer | 96,1 % | 94,2 % | 94,8 % | 95,7 % | 720 ms | CHF 12,50 |
| AWS Textract | 95,8 % | 93,9 % | 94,4 % | 95,2 % | 640 ms | CHF 9,50 |
| Tesseract 5 + LayoutLMv3 | 87,2 % | 85,1 % | 83,5 % | 86,4 % | 950 ms | CHF 0,10 |
Quatre enseignements tires des donnees :
- Claude 4.7 est le champion de la precision — surtout pour les contrats multi-pages et les annotations manuscrites. 1 a 2 points d'avance signifient en conformite bancaire la difference entre 0 et 200 classifications erronees par mois.
- Mistral OCR est le champion prix-performance 2026 — 4 fois moins cher que Claude pour seulement 0,7 point de moins de precision sur les factures QR. Plus l'option self-hosting pour la FINMA.
- Google Document AI gagne sur les justificatifs et le KYC — les parseurs specialises ont le meilleur mapping de schema pour les documents KYC et les recus pret a l'emploi.
- Tesseract n'est plus competitif en 2026 — 10 points de pourcentage de moins, la perte de precision n'est plus acceptable dans les flux de conformite, sauf en cas d'exigences on-prem strictes.
Architecture de reference : la pile IDP Swiss-Sovereign
Quel que soit le moteur — chaque deploiement IDP mazdek productif suit une architecture en 7 couches. Elle est volontairement agnostique du moteur, de sorte qu'un passage de Google Document AI a Mistral OCR est possible sans re-architecture (realise dans 4 de nos mandats) :
+------------------------------------------------------------+
| 1. Couche source : E-mail · SharePoint · Scan · Mobile App|
| Facture QR · PDF · DOCX · Image · Hybride |
+-----------------------------+------------------------------+
| Webhook / Polling
v
+-----------------------------+------------------------------+
| 2. Ingestion : ORACLE — pre-traitement |
| - PDF-Split · redressement image · resolution boost |
| - Classification : facture / contrat / KYC / justif |
| - Tagging tenant et confidentialite |
+-----------------------------+------------------------------+
| Pages nettoyees
v
+-----------------------------+------------------------------+
| 3. Couche OCR / Vision : PROMETHEUS |
| - Mistral OCR · Claude 4.7 · Gemini 2.5 · GPT-4o |
| - Sortie forcee JSON-Schema avec 22 champs |
| - Cascade fallback : LLM Vision -> Doc-AI -> Tesseract |
+-----------------------------+------------------------------+
| Champs structures
v
+-----------------------------+------------------------------+
| 4. Couche validation : HERACLES |
| - Checksum IBAN · lookup TVA OFS · sanctions KYC |
| - Validation regles metier (Bexio · SAP · Abacus) |
| - Seuils de confiance par champ |
+-----------------------------+------------------------------+
| Enregistrement valide
v
+-----------------------------+------------------------------+
| 5. Human-in-the-loop : NABU |
| - UI pour les champs sous le seuil |
| - File de relecture avec escalade SLA |
| - Boucle d'apprentissage continu |
+-----------------------------+------------------------------+
| Enregistrement approuve
v
+-----------------------------+------------------------------+
| 6. Integration ERP : HERACLES + ZEUS |
| - SAP S/4HANA · Bexio · Abacus · Microsoft Dynamics |
| - Stripe · Saferpay · endpoints bancaires QR-Bill |
+-----------------------------+------------------------------+
| Comptabilisation + Audit
v
+-----------------------------+------------------------------+
| 7. Couche audit : ARES + ARGUS |
| - Original + extraction archive WORM 10 ans |
| - Masquage PII · trace privileges · nLPD art. 6 |
+------------------------------------------------------------+
Trois couches meritent une attention particuliere :
- Couche de classification (couche 2) : avant d'appeler des LLM Vision couteux, ORACLE classifie le type de document via un classifieur BERT leger. Cela nous permet de router les factures vers Mistral OCR (CHF 0,001/page), les contrats vers Claude 4.7 (CHF 0,0042/page) — le routage par cout economise jusqu'a 60 % par rapport aux strategies mono-moteur.
- Cascade de fallback (couche 3) : confiance LLM Vision sous 0,85 → Google Document AI comme deuxieme avis → en cas de divergence, relecture humaine. Cette cascade reduit le taux de relecture humaine de 23 % a 4 % dans les mandats suisses.
- Couche d'audit (couche 7) : obligation selon EU AI Act art. 12. Le document original + l'extraction + la version du modele + la confiance par champ sont archives WORM 10 ans. Nous utilisons S3-Object-Lock en mode Compliance chez les fournisseurs S3 suisses (Infomaniak, Cloudscale, Swisscom).
Comparaison de code : la meme facture QR dans quatre moteurs
Tache : facture QR suisse en JPEG → JSON structure avec IBAN, montant, echeance, n° TVA et creancier.
Mistral OCR (API REST)
import requests, base64, json
with open('facture.pdf', 'rb') as f:
pdf_b64 = base64.b64encode(f.read()).decode()
resp = requests.post(
'https://api.mistral.ai/v1/ocr',
headers={'Authorization': f'Bearer {API_KEY}'},
json={
'model': 'mistral-ocr-2025-09',
'document': {'type': 'document_base64', 'data': pdf_b64},
'output_format': 'markdown_with_layout',
'schema': {
'type': 'object',
'properties': {
'iban': {'type': 'string', 'pattern': '^CH[0-9]{19}$'},
'amount_chf': {'type': 'number'},
'due_date': {'type': 'string', 'format': 'date'},
'creditor': {'type': 'string'},
'vat_id': {'type': 'string'},
},
},
},
)
data = resp.json()['structured_data']
Caracteristique : sortie Markdown avec mise en page en plus du JSON-Schema — parfait pour l'indexation RAG en aval. Self-hosting via container Docker possible.
Claude 4.7 Sonnet Vision (Anthropic SDK)
import anthropic, base64
client = anthropic.Anthropic()
with open('facture.pdf', 'rb') as f:
pdf_b64 = base64.standard_b64encode(f.read()).decode()
message = client.messages.create(
model='claude-sonnet-4-7',
max_tokens=2048,
system='Tu es un extracteur precis de factures suisses. Reponds UNIQUEMENT avec du JSON.',
messages=[{
'role': 'user',
'content': [
{'type': 'document', 'source': {'type': 'base64', 'media_type': 'application/pdf', 'data': pdf_b64}},
{'type': 'text', 'text': 'Extraire : iban, amount_chf, due_date, creditor, vat_id. Conforme au schema.'},
],
}],
)
data = json.loads(message.content[0].text)
Caracteristique : meilleur raisonnement sur les mises en page complexes. Meme les champs erronnes ou ambigus sont fournis avec des annotations de confiance. Endpoint UE via Vertex AI Frankfurt recommande.
Google Document AI (parseur facture pre-entraine)
from google.cloud import documentai_v1 as documentai
client = documentai.DocumentProcessorServiceClient(
client_options={'api_endpoint': 'eu-documentai.googleapis.com'},
)
name = 'projects/proj/locations/eu/processors/INVOICE_PROCESSOR_ID'
with open('facture.pdf', 'rb') as f:
raw = documentai.RawDocument(content=f.read(), mime_type='application/pdf')
result = client.process_document(request=documentai.ProcessRequest(name=name, raw_document=raw))
fields = {e.type_: e.mention_text for e in result.document.entities}
Caracteristique : parseurs pre-entraines pour plus de 200 types de documents — pas de prompt-engineering, pas de definition de schema. Meilleure experience pret a l'emploi, mais 3 a 5 fois plus cher que les LLM Vision.
Mistral OCR en self-hosting (Docker)
docker run -d --name mistral-ocr \
--gpus '"device=0"' \
-p 8080:8080 \
-v /opt/mistral/models:/models \
-e MODEL_PATH=/models/mistral-ocr-24b \
mistralai/mistral-ocr:latest
curl -X POST http://localhost:8080/v1/ocr \
-H 'Content-Type: application/json' \
-d @request.json
Caracteristique : souverainete totale des donnees. Sur une seule NVIDIA L40S (CHF 8 200 de materiel), nous traitons 95 000 pages par jour dans des banques suisses — sans qu'un seul octet ne quitte le serveur.
Matrice de decision : quel moteur pour quel cas d'usage ?
| Cas d'usage | Recommandation | Pourquoi |
|---|---|---|
| Automatisation factures QR (Bexio/Abacus) | Mistral OCR | 4x moins cher que GPT-4o, 97,4 % de precision, self-hosting possible |
| Contrats complexes > 50 pages | Claude 4.7 Vision | Meilleur raisonnement long-context, precision la plus elevee |
| Banque FINMA sans self-hosting | Gemini 2.5 + Vertex Zurich | Region CH native, SLA hyperscaler |
| Stack SAP S/4HANA | Azure Form Recognizer | Integration native Power Platform, Switzerland North |
| Pharma/Defense haute securite | Tesseract + LayoutLMv3 ou Mistral OCR self-host | Aucune donnee ne quitte le serveur |
| Workflow KYC/AML banque | Google Document AI Identity Parser | Reconnaissance passeports/ID pret a l'emploi, plus de 200 types |
| Multilingue DE/FR/IT/RM | Mistral OCR ou Claude 4.7 | Tous deux solides en langues DACH plus romanche |
| > 1 million de pages/mois optimisation cout | Mistral OCR self-host + routage par cout | Cout marginal de calcul sous CHF 0,0003 par page |
| Capture mobile / edge | API Mistral OCR + fallback Tesseract leger | Mobile-friendly, faible latence |
Notre stack par defaut ORACLE pour le mid-market suisse : Mistral OCR pour factures et justificatifs, Claude 4.7 Vision pour contrats et documents long-context, Gemini 2.5 comme fallback Vertex Zurich pour les banques. Cette combinaison couvre 19 de nos 22 mandats productifs.
Comparaison de cout : ce que coute reellement l'IDP en Suisse
A partir de 22 mandats productifs, nous avons extrait le TCO sur 24 mois pour trois paliers de scaling. Inclut hebergement, couts API, maintenance et pipeline d'evaluation :
| Volume | Mistral OCR Self | Mistral API | Claude 4.7 | GPT-4o | Google Doc AI | Tesseract |
|---|---|---|---|---|---|---|
| 20 000 pages/mois | CHF 480 | CHF 240 | CHF 540 | CHF 460 | CHF 1 320 | CHF 290 |
| 200 000 pages/mois | CHF 1 180 | CHF 1 080 | CHF 4 020 | CHF 3 520 | CHF 13 180 | CHF 720 |
| 2 millions pages/mois | CHF 4 200 | CHF 9 820 | CHF 38 400 | CHF 33 200 | CHF 130 000 | CHF 1 820 |
Trois enseignements :
- Mistral OCR self-hosted gagne au-dela de 200K pages/mois — le seuil de rentabilite par rapport a l'API se situe a environ 180 000 pages/mois (1x GPU L40S, CHF 8 200 amortis sur 18 mois).
- Google Document AI est 3 a 15 fois plus cher que les LLM Vision — la prime n'est justifiee que pour les parseurs specialises (KYC, identite, W2).
- Tesseract reste imbattablement bon marche, mais la perte de precision coute plus dans le backend de conformite que ce qu'economise le moteur — pertinent uniquement pour les cas d'usage purement volumetriques sans exigence de schema.
Cas pratique : fiduciaire suisse avec 280 000 factures par mois
Un grand groupe fiduciaire suisse (12 sites, 480 collaborateurs) traitait en 2024 mensuellement 280 000 factures fournisseurs pour ses 3 400 mandats PME. Processus existant : les comptables scannaient les justificatifs et copiaient manuellement IBAN/montant/date dans Bexio et Abacus. Debit : 47 factures par comptable et par heure, taux d'erreur de 6,2 %.
Situation initiale
- 280 000 factures par mois (1,4 page en moyenne)
- 3 400 mandats avec mises en page fournisseurs differentes
- Exigence : conforme nLPD, multi-ERP Bexio & Abacus & SAP S/4HANA, piste d'audit FAIR
- Avant : 240 heures-FTE par jour de saisie manuelle, CHF 380 000 par mois de couts personnel pour la capture
Solution mazdek
Nous avons construit une pile IDP a routage par cout sur du materiel suisse (Hetzner Helsinki + Infomaniak Geneve pour la DR), classification via LayoutLMv3-Tiny, OCR via Mistral OCR self-hosted (3x L40S), validation contre le registre TVA OFS, l'API Bexio et le canal IDoc SAP :
- Classification (ORACLE) : LayoutLMv3-Tiny on-prem, classifie en 12 ms en facture QR / etranger / frais / KYC.
- OCR/Vision (PROMETHEUS) : Mistral OCR self-hosted pour les factures standard, fallback Claude 4.7 Vision pour les mises en page complexes en dessous de 0,85 de confiance.
- Validation (HERACLES) : checksum IBAN (mod-97), lookup TVA contre le registre OFS, detection des doublons sur fenetre de 90 jours.
- Integration ERP (HERACLES + ZEUS) : Bexio REST, Abacus AbaConnect, SAP S/4HANA via IDoc INVOIC02.
- Relecture humaine (NABU) : les champs avec confiance sous 0,92 atterrissent dans la file de relecture avec SLA de 15 minutes.
- Audit (ARES + ARGUS) : PDF original + extraction + version du modele en WORM sur Infomaniak S3-Object-Lock, retention 10 ans.
Resultats apres 9 mois en production
| Metrique | Avant | Apres | Delta |
|---|---|---|---|
| Factures par heure-FTE | 47 | 980 | +1985 % |
| Taux d'erreur sur champs | 6,2 % | 0,4 % | -94 % |
| Taux de relecture humaine | 100 % | 3,8 % | -96 % |
| Delai justificatif → comptabilisation | 4,2 jours | 11 min | -99,8 % |
| Realisation d'escompte | 34 % | 89 % | +162 % |
| Economie annuelle | — | CHF 4,1 millions | — |
| Retour sur investissement | — | 4,3 mois | — |
| Reserves FINMA / nLPD | — | 0 | — |
Important : aucun comptable n'a ete licencie. Le temps libere a ete reinvesti dans la relation client, l'optimisation fiscale proactive et l'acceleration des cloturas — des taches pour lesquelles l'equipe n'avait pas le temps auparavant. Le NPS clients a progresse de 22 points, le churn clients a recule de 38 %.
Gouvernance : IDP selon nLPD, EU AI Act et FINMA
L'IA documentaire souleve cinq questions de conformite supplementaires que l'OCR classique n'avait pas :
- nLPD art. 6 (integrite des donnees) : les LLM Vision peuvent halluciner. Les champs sous 0,92 de confiance doivent passer en relecture humaine — sinon vous risquez des saisies erronees non detectees en comptabilite.
- nLPD art. 30 (sous-traitance) : chaque requete LLM Vision est un traitement de donnees sous mandat. DPA avec Anthropic / OpenAI / Google UE obligatoire — et seuls les endpoints UE sont acceptables.
- EU AI Act art. 12 (obligation de journalisation) : chaque extraction plus le document original plus la version du modele doivent etre archives 10 ans. L'archive WORM (S3-Object-Lock) est la norme.
- EU AI Act art. 14 (supervision humaine) : les systemes IDP a haut risque (KYC bancaire, documents juridiques) ont besoin d'un seuil human-in-the-loop. Nous fixons 0,95 pour le KYC, 0,92 pour les factures.
- FINMA RS 2023/1 (risques operationnels) : une defaillance IDP est un point de defaillance unique pour le flux de comptabilisation creanciers. Moteur de failover, CI de regression d'evaluation et detection de derive sont obligatoires.
Quatre obligations strictes pour toute implementation IDP suisse :
- Souverainete des donnees : Vertex AI Zurich, Mistral OCR self-host ou Azure Switzerland North a privilegier. L'API OpenAI directe sans DPA UE est disqualifiee pour les mandats FINMA.
- Seuils de confiance : tout enregistrement avec des champs sous le seuil passe obligatoirement en relecture humaine. Pas de comptabilisation auto pour les enregistrements low-confidence.
- Archive WORM : document original + extraction + version du modele + ID du relecteur archives 10 ans en WORM.
- Surveillance de la derive : jeu d'evaluation avec 200 a 500 enregistrements gold, run CI hebdomadaire contre la version actuelle du modele. Une derive de precision > 0,5 point declenche une alerte.
Plus dans notre guide EU AI Act et notre guide d'observabilite LLM.
Feuille de route d'implementation : en production en 9 semaines
Phase 1 : Discovery & inventaire des documents (semaine 1)
- Atelier : types de documents, profil de volume, mises en page, connexion ERP
- Echantillon : 500 documents reels par type (anonymises)
- Matrice moteur : volume × souverainete × complexite de mise en page × budget
Phase 2 : PoC + evaluation (semaines 2-3)
- ORACLE construit le classifieur + pre-traitement
- PROMETHEUS teste Mistral / Claude / Gemini en parallele
- Eval gold avec 22 champs, correspondance Levenshtein, calage de confiance
Phase 3 : Integration ERP (semaines 4-5)
- HERACLES connecte Bexio, Abacus, SAP IDoc, Dynamics
- Validation regles metier (IBAN mod-97, TVA OFS, doublons)
- Cas particulier facture QR avec validation de checksum
Phase 4 : UI human-in-the-loop (semaine 6)
- NABU construit la file de relecture avec escalade SLA
- Boucle d'apprentissage continu : corrections relecteur → jeu d'evaluation
- Seuils par type de champ par type de document (configurable Excel)
Phase 5 : Conformite & audit (semaine 7)
- ARES archive WORM (S3-Object-Lock mode Compliance)
- ARGUS surveillance de la derive + CI d'evaluation
- Verification de conformite nLPD / EU AI Act
Phase 6 : Deploiement (semaines 8-9)
- Mode shadow : le systeme extrait, le comptable valide
- Supervise : 30 % de comptabilisation auto avec spot-check humain
- Production complete avec revue mensuelle de derive
L'avenir : raisonnement multi-modal, traitement documentaire agentique
L'IDP en 2026 n'est que le troisieme bond. Ce qui se profile en 2027-2028 :
- Agentic Document Processing : les LLM Vision recuperent automatiquement les donnees fournisseurs depuis l'ERP, clarifient les champs ambigus par e-mail au fournisseur et comptabilisent de maniere autonome — relecture humaine uniquement en cas d'escalade. Premiers mandats en pilote.
- Vision long-document native : Claude 4.7 traite des contrats de 200 pages en une seule passe. En 2027, on s'attend a 1 000 pages — analyse contractuelle de bout en bout au lieu du page par page.
- LLM Vision on-device : Apple Foundation Models 4 et Google Gemini Nano 3 atteignent 92 a 94 % de precision on-device. Les apps mobile-capture suisses deviennent entierement on-device — zero aller-retour cloud.
- Document stores natifs embedding : le Document AI fusionne avec les bases vectorielles. Le document est stocke avec un tenseur de mise en page integre et des embeddings semantiques — recherche et extraction en une etape. Voir notre guide bases vectorielles.
- Specialites reglementaires suisses : l'AFC prevoit en 2027 une norme OCR-IA pour la declaration fiscale electronique ; la FINMA travaille sur une circulaire pour la verification KYC basee IA.
- Flux Voice-of-Customer : audio telephonique → transcription → reclamation structuree — Document AI fusionne avec Voice AI. Voir notre guide agents vocaux.
Conclusion : quel moteur IDP pour vous ?
- Defaut 2026 : Mistral OCR. Apache 2.0, base UE, 4x moins cher que Claude pour 97 % de precision. Self-hosting trivial. Premier choix pour factures, justificatifs, KYC simple.
- Precision premium : Claude 4.7 Vision. Precision la plus elevee sur contrats, documents juridiques et annotations manuscrites. Endpoint UE via Vertex/Bedrock recommande.
- Banque FINMA sans self-hosting : Gemini 2.5 + Vertex Zurich. Region suisse native, SLA hyperscaler, bon multilingue.
- Schemas pret a l'emploi : Google Document AI. Plus de 200 parseurs pre-entraines pour facture, KYC, W2, identite. Cher, mais immediatement operationnel.
- Plus pour la Suisse : Tesseract en standalone. 8 a 12 % de perte de precision face aux LLM Vision n'est plus acceptable en 2026 — sauf en cas d'exigences on-prem strictes.
- Le routage par cout bat le mono-moteur : classification + selection de moteur par type de document economise jusqu'a 60 % par rapport a « tout via GPT-4o ».
- ROI en 4 a 6 mois : 22 mandats mazdek productifs, 4,7 mois de retour sur investissement en moyenne.
- Conformite realisable : nLPD, EU AI Act, FINMA sont proprement couverts avec les garde-fous ARES, l'archive WORM et les seuils de confiance.
Chez mazdek, 19 agents IA specialises orchestrent l'ensemble du cycle de vie IDP : ORACLE pour la classification et le pre-traitement ; PROMETHEUS pour la selection de LLM Vision et le routage par cout ; HERACLES pour les ponts ERP et bancaires ; ZEUS pour l'integration SAP et Dynamics ; NABU pour l'UI de relecture et l'apprentissage continu ; ARES pour la conformite et l'archive WORM ; ARGUS pour l'observabilite de la derive 24/7 ; HEPHAESTUS pour l'infrastructure K8s suisse. 22 deploiements IDP en production depuis 2024 — conformes LPD, RGPD, EU AI Act, FINMA et CO des le premier jour.