Skip to content

Latest commit

 

History

History
114 lines (77 loc) · 4.61 KB

README_pt.md

File metadata and controls

114 lines (77 loc) · 4.61 KB


Transforme seus documentos em dados!

English | Français | Spanish | 中文

  • Parsr é uma cadeia de ferramentas para limpeza, análise e extração de documentos (imagem, pdf), que gera dados prontamente disponíveis, organizados e utilizáveis por desenvolvedores e cientistas de dados.

  • Ele fornece aos usuários informações limpas, estruturadas e enriquecidas com rótulos, para aplicativos prontos para uso, que variam de entrada de dados e automação de análise de documentos, arquivamento e muitos outros.

  • Atualmente, Parsr pode executar limpeza de documentos, regeneração de hierarquia (palavras, linhas, parágrafos), detecção de *títulos, tabelas, listas, índices, número de páginas, cabeçalhos, rodapé e muito mais. Aqui está uma lista de todas as todas as funcionalidades.

Índice

Começando

Instalação

-- O guia de instalação avançado está disponível aqui --

A maneira mais rápida de instalar e executar a API (Interface de programação) de PARSR é através da imagem docker:

docker pull axarev/parsr

Se você também deseja instalar a GUI para enviar documentos e visualizar resultados:

docker pull axarev/parsr-ui-localhost

Nota: Parsr também pode ser instalado a partir de um servidor bare-metal (não por contêineres do Docker), cujo procedimento está documentado no guia de instalação.

Uso

-- O guia de uso avançado está disponível aqui --

Para executar a API, lance:

docker run -p 3001:3001 axarev/parsr

Este comando iniciará a API em http://localhost:3001.
Consulte a documentação sobre o uso da API.

  1. Para acessar o cliente python na API de Parsr, lance:

    pip install parsr-client

    Para experimentar o Jupyter Notebook, usando o cliente python, vá para demo jupyter.

  1. Para usar a ferramenta GUI (a API já deve estar em execução), lance:
    docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
    Em seguida, acesse-o através de http://localhost:8080.

Consulte a Documentação de configuração para interpretar as opções configuráveis no visualizador da GUI.

O Uso baseado em API e o uso da linha de comando estão documentados no guia de uso avançado.

Documentação

Todos os arquivos de documentação podem ser encontrados aqui.

Contribua

Por favor, consulte as diretrizes de contribuição.

Licenças de Terceiros

Licenças de bibliotecas de terceiros para suas dependências:

  1. QPDF: Apache http://qpdf.sourceforge.net
  2. ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
  3. Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
  4. PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
  5. Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
  6. Camelot: MIT https://github.com/camelot-dev/camelot
  7. MuPDF (dependência opcional): AGPL https://mupdf.com/license.html
  8. Pandoc (dependência opcional): GPL https://github.com/jgm/pandoc

Licença

Direitos autorais 2020 AXA Group Operations S.A.
Licenciado sob a licença Apache 2.0 (consulte o arquivo LICENÇA).