Éducation3 min·1 juillet 2026

Parsewise (YC P25) : extraction multi-documents avec traçabilité

En résumé

1

Parsewise traite des centaines ou milliers de fichiers PDF, Excel ou audio transcrits et produit des données structurées (JSON, CSV) où chaque valeur est citée au niveau du mot.

2

La plateforme utilise une recherche exhaustive plutôt que du RAG par échantillonnage, combinant vLLMs pour le parsing et de petits modèles pour la recherche à grande échelle.

3

L'infrastructure est agnostique du modèle et du cloud, déployable en réseau privé, avec de meilleures performances constatées via les modèles Gemini sur le benchmark Databricks OfficeQA.

💡

Le signal : Parsewise, incubée chez Y Combinator (cohorte P25), propose une API d'ETL documentaire agentique avec traçabilité mot à mot et validation métier intégrée, atteignant des résultats SOTA sur le benchmark Databricks OfficeQA avec les modèles Gemini.

RAPPORT STRATÉGIQUE

Vous appréciez ce genre d'analyse ?

Chaque mardi et vendredi, l'essentiel en business & IA décryptées en 5 minutes. Gratuit, sans engagement.

+11 000 fondateurs

Parsewise lance une API d'extraction de données documentaires multi-sources avec traçabilité intégrale. La startup, issue de la cohorte P25 de Y Combinator, permet de transformer un ensemble de fichiers non structurés, PDF, tableurs, transcriptions audio ou courriels, en sorties JSON ou CSV conformes à un schéma défini. Chaque valeur produite est liée à une citation au niveau du mot dans le ou les documents sources. Les fondateurs sont Greg, ancien de Palantir où il développait des workflows ETL et IA, et Max, ex-Bain Capital spécialisé en analyse de données financières complexes.

Le problème adressé concerne les équipes techniques devant agréger des informations dispersées sur plusieurs documents. Les approches classiques, comme l'envoi de fichiers à un LLM généraliste, se heurtent aux limites de contexte, aux coûts, à la latence et à l'absence de mécanisme de validation rapide des résultats. Parsewise introduit ce qu'il nomme des "agent definitions" auto-améliorantes, qui définissent les sources acceptables, la logique de résolution des valeurs et les règles de signalement des incertitudes à l'utilisateur final.

Sur le plan technique, Parsewise recourt à des vLLMs pour le parsing initial, à de petits modèles pour une recherche exhaustive à grande échelle, et à des modèles plus grands pour la prise de décision sur les résolutions et la détection d'incohérences. Contrairement aux architectures RAG, la plateforme n'échantillonne pas : elle identifie l'ensemble des valeurs pertinentes pour chaque requête. Les fondateurs indiquent avoir atteint un niveau SOTA sur le benchmark Databricks OfficeQA, surpassant Claude Fable en raisonnement visuel ancré grâce aux modèles Gemini.

Les fondateurs insistent sur ce qu'ils appellent le "human harness" : réduire le temps et le nombre d'actions nécessaires pour qu'un utilisateur métier puisse valider les résultats extraits. L'API permet aux clients d'afficher la lignée des données dans leurs propres applications, tandis que la plateforme Parsewise sert les opérations internes. L'infrastructure est déployable en réseau privé, agnostique du modèle et du fournisseur cloud, un point mis en avant pour les cas d'usage sensibles. Le lancement public est présenté sur Hacker News avec une invitation à tester la solution sur des cas documentaires complexes.

Le marché de l'intelligence documentaire compte de nombreux acteurs déjà établis : Parseur, Rossum, Docsumo, Nanonets (YC 2017) ou encore Mistral Document AI, dont la tarification par page est significativement inférieure selon des commentaires relevés lors du lancement. Parsewise se positionne sur la différenciation par l'exhaustivité de la recherche et la traçabilité des valeurs, au-delà du simple parsing de première passe que couvrent la majorité des solutions existantes. L'API est accessible via le site de Parsewise.

Gardez un coup d'avance en IA et tech.

Chaque mardi et vendredi, l'essentiel en business & IA décryptées en 5 minutes. Zéro spam.

+11 000 fondateurs