Formação ML com Python - Classificação

Como se guiar pela formação

Os cursos estão separados por pastas, contendo os arquivos necessários para acompanhar as anotações e rodar os códigos em notebooks Jupyter. Em cada pasta, procure um arquivo com o nome de notebook.ipynb para ler as anotações de estudo e rodar os códigos. Eventualmente também haverá arquivos desafio.ipynb contendo a resolução para exercícios propostos em um curso.

Os Jupyter Notebooks são uma forma de mesclar células (blocos) de texto (em formato Markdown) com células de códigos Python, sendo que os códigos podem ser executados no próprio notebook, tendo sua saída exibida logo abaixo da célula correspondente. Eles podem ser reconhecidos pela sua extensão .ipynb.

Trilha da formação

Os cursos estão na seguinte ordem (clique no link para ir até a pasta do curso):

Aprendendo a classificar dados com Machine Learning
Validação de modelos e métricas de avaliação
Resolvendo problemas multiclasse
Otimizando modelos de machine learning
Selecionando features
Combinando classificadores para a melhoria de performance
Melhorando o desempenho com XGBoost
Construindo modelos semi-supervisionados
(extra) Machine Learning: Credit Scoring. É um curso adicional que eu fiz, que não está na formação, trabalhando com dados bancários e um classificador de regressão logística.

Criando um ambiente virtual

Os instrutores utilizaram o Google Colab como IDE, mas eu utilizei o VS Code. Somente em um curso tive resultados diferentes (métricas e hiperparâmetros com valores diferentes) por conta dessa escolha, e acredito que se deve ao Colab ter mais poder de computação e cálculo mais preciso de ponto flutuante.

No VS Code é possível criar um ambiente virtual no Python, de modo a poder instalar os packages/bibliotecas Python localmente. Com isso, posso ter diferentes ambientes virtuais, cada um com packages e versões específicas, sem correr o risco de conflitos de bibliotecas e versões entre os projetos.

Criação do ambiente virtual. Você pode escolher o nome que desejar em nome_do_ambiente_virtual

python -m venv nome_do_ambiente_virtual

É criada uma pasta com o nome que você escolheu. Essa pasta é grande, então não recomendo versioná-la.
Ative o ambiente virtual antes de começar a instalar as packages desejadas.

.\nome_do_ambiente_virtual\Scripts\activate

Observação: o VS Code possui uma extensão para usar notebooks Jupyter. Com ela instalada, é possível selecionar um ambiente virtual e utilizá-lo para executar o notebook, sem a necessidade de ativar o ambiente virtual manualmente via terminal.

Ao rodar um notebook utilizando um ambiente virtual, pode ser que o VS Code solicite a instalação de pacotes adicionais.

Instale as packages e versões que desejar. Exemplo instalando o Pandas na versão 1.5.3

pip install pandas==1.5.3

Dicas

Comando para desinstalar um package: pip uninstall nome_do_pacote;
Comando para listar todos os packages instalados: pip list;
Para desativar um ambiente virtual: deactivate.

Resumo

Os dois primeiros cursos são um bom resumo das partes mais importantes para se lidar com problemas de classificação. O terceiro curso é um exemplo lidando com problema de multiclassificação (a maioria dos outros cursos irá usar exemplos com classificação binária).

Modelos de Machine Learning para resolver problemas de classificação seguem uma mesma linha de passos "macro":

Obter a base e fazer as transformações necessárias;
Separar dados de treino e teste;
Escolher um modelo;
Validar o modelo com os dados de treino;
Testar o modelo com os dados de teste;
Salvar o modelo.

Para cada um, podemos dividir em alguns sub-passos:

Obter a base e fazer as transformações necessárias
- pd.readCSV
- EDA (Exploratory Data Analysis)
- tratamento de dados nulos
- codificação das colunas: label encoding, one-hot encoding, etc.
Separar dados de treino e teste
- X (variáveis explicativas) e y (variável alvo)
- train_test_split
  - segundo split para ter dados de treino, validação e teste
- normalização: min-max, etc.
  - cuidados com data leakage
- balanceamento: oversampling, undersampling
Escolher um modelo
- https://scikit-learn.org/stable/modules/multiclass.html
- otimização de hiperparâmetros (tuning): grid search, random search, otimização Bayesiana, validação cruzada aninhada
- seleção de features: matriz de correlação, feature_importances_, SelectFromModel, RFE
- estratégias de bagging e boosting, voting e stacking
Validar o modelo com os dados de treino
- score()
- métricas (acurácia, precisão, recall, F1-score, AUC, etc.)
- matriz de confusão (TP, TN, FP, FN)
  - ver no curso de problemas multiclasse como ler a matriz de confusão maior que 2x2
- curva ROC
- validação cruzada (KFold, StratifiedKfold, etc)
Avaliar o modelo com os dados de teste
- predict e predict_proba
Salvar o modelo
- arquivos Pickle
- bibliotecas: pickle e joblib.

Os passos 3 e 4 podem ser repetidos para avaliar diferentes modelos ou um mesmo modelo com diferentes configurações de hiperparâmetros. Escolhido um modelo, segue para o passo 5.

Na formação, dois tópicos extras foram abordados:

XGBoost: é um classificador mais robusto utilizando árvores CART e uma estratégia de boosting para problemas de classificação (também pode ser usado em problemas de regressão). O curso abordou a técnica de forma bem básica, mais voltado para a prática.
Aprendizado semi-supervisionado: utilizado quando a base de dados possui entradas não-rotuladas, isto é, a variável alvo possui valores nulos. Neste caso, podemos utilizar uma mistura de aprendizado supervisionado com alguma estratégia para lidar com dados não rotulados (pseudo labelling, self-training, label propagation).

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
XGBoost		XGBoost
aprendizado-semisupervisionado		aprendizado-semisupervisionado
bagging-boosting		bagging-boosting
classificacao-multiclasse		classificacao-multiclasse
credit_scoring		credit_scoring
introducao-classificacao		introducao-classificacao
otimizacao-modelos		otimizacao-modelos
selecao-features		selecao-features
validacao-e-metricas		validacao-e-metricas
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Formação ML com Python - Classificação

Como se guiar pela formação

Trilha da formação

Criando um ambiente virtual

Dicas

Resumo

About

Releases

Packages

Languages

zingarelli/Python_ML_Alura

Folders and files

Latest commit

History

Repository files navigation

Formação ML com Python - Classificação

Como se guiar pela formação

Trilha da formação

Criando um ambiente virtual

Dicas

Resumo

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages