Transformez vos documents en données!

English | Portuguese | Spanish | 中文

Parsr est une chaîne d'outils de nettoyage, d'analyse et d'extraction de documents (image, pdf) qui génère des données facilement disponibles, organisées et utilisables pour les développeurs et les scientifiques de données (data scientists).

Il fournit aux utilisateurs un ensemble d'informations structurées et enrichies de label propres pour des applications prêtes à l'emploi allant de l'automatisation de la saisie de données à l'analyse de documents, en passant par l'archivage et bien d'autres.

Actuellement, Parsr peut effectuer:

Régénération de la hiérarchie des documents
Mots, lignes et paragraphes
Détection des titres
Détection et reconstruction des tableaux
Détection des listes
Détection de l'ordre des paragraphes
Reconnaissance des entités nommées (dates, pourcentages, etc.)
Détection de paires clé-valeur (pour l'extraction d'entrées spécifiques basées sur un formulaire)
Détection des numéros de page
Détection d'entête et pied de page
Détections de liens
Suppression des espaces blancs

Parsr prend en entrée une image (.jpg, .png, .tiff, ...) ou un pdf et génère les formats de sortie suivants:

JSON
Markdown
Texte
CSV (pour les tableaux) ou Pandas Dataframes (voir ici)
PDF

Table des matières

Table des matières
Débuter avec Parsr
Installation
Utilisation
Documentation
Comment contribuer
Licences tierces
Licence

Débuter avec Parsr

Installation

-- Le guide d'installation avancé est disponible ici --

Le moyen le plus rapide pour installer et exécuter l'API Parsr est via l'image docker:

docker pull axarev/parsr

Si vous souhaitez également installer l'interface graphique pour l'envoi de documents et la visualisation des résultats:

docker pull axarev/parsr-ui-localhost

Remarque: Parsr peut également être installé directement sur la machine (sans Docker)" - voir la procédure sur guide d'installation.

Utilisation

-- Le guide d'utilisation avancé est disponible ici --

Pour exécuter l'API, lancez:

docker run -p 3001:3001 axarev/parsr

qui le lancera sur http://localhost:3001. Consultez la documentation sur l'utilisation de l'API.

Pour utiliser le client python de Parsr:
```
pip install parsr-client
```
Pour utiliser le Jupyter Notebook utilisant ce client, cliquez ici.
Pour utiliser l'outil GUI (l'API doit déjà être en cours d'exécution), lancez:
```
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
```
Ensuite, accédez-y via http://localhost:8080.

Reportez-vous à la Documentation de configuration pour interpréter les options configurables dans l'interface graphique.

Utilisation basée sur l'API et utilisation en ligne de commande sont documentées dans utilisation avancée.

Documentation

Tous les fichiers de documentation peuvent être trouvés ici - actuellement en anglais seulement.

Comment contribuer

Veuillez vous référer aux directives de contribution.

Licences tierces

Licences de bibliothèques tierces pour ces dépendances:

QPDF: Apache http://qpdf.sourceforge.net
ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
Camelot: MIT https://github.com/camelot-dev/camelot
MuPDF (Dépendance optionnelle): AGPL https://mupdf.com/license.html
Pandoc (Dépendance optionnelle): GPL https://github.com/jgm/pandoc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_fr.md

README_fr.md

Transformez vos documents en données!

Table des matières

Débuter avec Parsr

Installation

Utilisation

Documentation

Comment contribuer

Licences tierces

Licence

Files

README_fr.md

Latest commit

History

README_fr.md

File metadata and controls

Transformez vos documents en données!

Table des matières

Débuter avec Parsr

Installation

Utilisation

Documentation

Comment contribuer

Licences tierces

Licence