Este repositório consiste em um projeto de orquestração de pipelines para a iniciação científica de arbovírus da UNEB. Neste serviço, estamos usando o Apache Airflow, conteinerizado para que possamos usar o executor Celery, e utilizando o PostgreSQL como backend da aplicação e o MySQL como banco de dados.
- Python
- Airflow
- PostgreSQL
- Docker
- MySQL
Este é um pipeline que faz a extração de sequências da API do GenBank Entrez, salva em XML, extrai as informações mais relevantes inicialmente e carrega no banco de dados.
Este pipeline consiste no download de artigos científicos que citam a sequência, com base na coluna de PubMed extraída no primeiro pipeline.
- Com o terminal aberto na raiz do projeto, execute o compose com o seguinte comando:
docker-compose up -d --build --force-recreate
- O serviço ficará disponível no Airflow.
- Caso seja a primeira execução, configure a conexão com o banco de dados conforme a imagem abaixo: