Trilha de Estudos de Ciência de Dados

Este é um repositório em constante construção e atualização. Adiciono aqui técnicas de estudo e fontes que considero boas para o aprendizado de ciência de dados, com o objetivo de manter recursos organizados para consulta e ajudar quem se interessa pelo tema. O conteúdo aqui compilado vai do básico ao avançado.

Todas as fontes aqui referenciadas foram vistas e curadas por mim, e este repositório também me serve como fácil retorno a bons conteúdos.

Sumário

Como estudar

Criar um documento (Word, Notion, Evernote etc) pessoal com a sua organização do que vc já aprendeu/estudou e o que planeja aprender/estudar, de preferência organizado por mês ou bimestre. Procurar manter este doc atualizado
Instalar a extensão video speed controller no google chrome (funciona em qualquer vídeo tocado pelo chrome browser), e aprender a usar
Sempre estude do geral para o específico: top-down learning
Para cada dose de teoria, uma dose de prática: problem-based learning
Ao entrar em um assunto novo, ver um ou dois vídeos de ~10 min no youtube, pesquisar sobre o tema focando em material escrito, e estudar aplicações
Evitar ficar muito tempo na parte teórica: Qualquer assunto novo tem suas aplicações via bibliotecas específicas. Se familiarizar com a documentação é o primeiro passo para aplicar o que aprendeu
O segundo passo é a aplicação e uso, parte prática: Resolver problemas usando IA: Pesquisar aplicações no Kaggle (notebooks), fazer o fork (Copy and Edit), adicionar ideias.
Evitar tentar reinventar a roda: aproveitar os códigos que já existem
Adicionar aplicação ao seu repositório pessoal (público ou privado - kaggle ou github) de forma organizada para que você possa facilmente consultá-la no futuro

ML twitter

Desde ~2020, nem os papers do arxiv e nem blogposts conseguem acompanhar a velocidade no avanço no ML/DL. As publicações acontecem de forma muito mais rápida e dinâmica no twitter, que é absolutamente fundamental pra quem quer acompanhar o estado da arte. Exemplo
O twitter deve ser utilizado como ferramenta de estudo e atualização. Funciona muito bem como dose diária de aprendizado, e ajuda muito a acompanhar o trabalho de outros cientistas de dados e pesquisadores.
Ferramenta essencial não só para o acompanhamento dos avanços na área de ciência de dados e papers publicados, mas também para a absorção de dicas e experiências compartilhadas sobre casos reais de DS na indústria e área de negócios.
Nenhuma outra plataforma te entrega a informação de forma tão rápida e curada.
Ver sugestões de perfis a seguir no final deste documento.

Ferramentas

Focar em Google Colab e Kaggle notebooks.
No futuro, é interessante conhecer IDEs como VS Code, PyCharm e Spyder.

Panorama de DS no mercado

Áreas de dados

Data Sequence

DE vs ML pipelines

Data Engineering vs ML pipelines

Python and Data Analysis basics

Never memorize code
3 Tips to Build a Career in Machine Learning
How to learn data science smartly
Pandas tutorial - kaggle learn - Fazer o fork dos notebooks e aprender praticando
Use pandas like a pro
Dataframe efficiency with dtypes - intro - Rob Mulla
Example of "reduce_memory_usage" function
pandas cheat sheet
Learn Pandas with pokemons
Handling Missing Data
Statistics: most important concepts

Data Analysis workflow - entender e praticar as etapas básicas:

Importar e ler csv, criar dataframe
Checar tipos de variáveis (data types): numéricas e categóricas
Plots básicos
Analisar missing values (valores faltantes), tomar decisões sobre o que fazer com eles
Analisar outliers, decidir o que fazer com eles
Análise univariada, bivariada, multivariada (variáveis categóricas e numéricas)
Feature Engineering (criação de variáveis)
Deixar dados prontos para eventual modelagem de IA

Machine Learning workflow - entender e praticar as etapas básicas:

Definir Features and Target (if it is a supervised problem)
Preprocess: Scaling and categorical encoders
Check Target distributions
Check features distributions, normalize them if needed
Split train/validation datasets: Definir estratégia confiável de validação dos modelos (cross-validation strategy)
Definir métricas de avaliação dos modelos
Criar um baseline simples sem usar machine learning, e avaliar usando as métricas definidas
Choose algorithm, train and validate model: create simple baseline using a ML model: Lei de Gall
Evaluate model (fora da etapa de modelagem: cruzamento com business KPIs)
Melhorar baseline: criar variáveis melhores (feature engineering), tunar hiperparâmetros, testar outros algoritmos, treinar e avaliar de novo
Missing values & XGBoost
OOF analysis & Error analysis
Experimentos de Feature selection e preprocessing: diferentes sets de features e diferentes etapas de pré-processamento
Melhorar explicabilidade
Ensemble: combinar modelos para aumentar performance, estabilidade e poder de generalização

Data Engineering

Um pouco de Engenharia de Dados (para cientistas de dados):

Data Visualization

Python Graph Gallery
Visual Reference
Séries de notebooks de visualização - ao final de cada notebook tem um link para o próximo
Data Analysis - Brazilian Society (PNAD) - @hinepo
Rio Temperature Analysis - @hinepo
Power BI playlists
Power BI - Leonardo Karpinski
Power BI - Karine Lago
Power BI + DAX + Projetos na prática - Curso Udemy
graphviz - exemplos

Machine Learning - Teoria

Supervised x Unsupervised Learning
Supervised x Unsupervised Learning: applications
Pesquisar sobre Overfitting e Underfitting, ver vídeos e gráficos
Cross Validation
Cross Validation - scikit docs
Pesquisar sobre Cross Validation para Time Series (como evitar contaminação de dados do futuro pro passado, data leakage, train/test contamination...)
Kaggle courses
pdf do livro do Abhishek Thakur - disponível na Amazon tb
Statquest - Vídeos sobre conceitos, teoria e matemática de algoritmos e ML
Scikit-learn User Guide - Muito importante ler todo o item 1
Scikit-learn Pre-processing
Pesquisar sobre "Feature Engineering" (criação de variáveis)
Pesquisar sobre métricas e como avaliar modelos:
- Classificação: Accuracy, ROC AUC, f1-score, recall, precision, MCC, Log Loss e Balanced Log Loss
- Regressão: RMSE, NRMSE, MSE, MAE, MAPE, Tip about MAPE, R²
  - Transforming skewed data - como tratar o viés nos dados
Outros conceitos importantes: Pesquisar sobre Boosting (XGBoost, LGBM, Catboost, GBM), Bagging, Split train/test, data leakage, time series, feature importances, ensemble...
Imbalanced learning:
- 4 ways to balance classes
- downsampling/upsampling
- imblearn
- Oversampling x Undersampling
- Resampling example
- SMOTE for classification example
- Stop Using SMOTE to Treat Class Imbalance

Machine Learning - Prática

Kaggle's 30 Days of ML - Abhishek Thakur
Fair Learn docs - ajuda a fazer OOF analysis
SHAP (SHapley Additive exPlanations)
Target encoding - kaggle Learn
Target encoding - blog post
11 Categorical Encoders and Benchmark - kaggle
Adversarial Validation
Browse kaggle, ver notebooks e datasets dos assuntos que te interessam
Fazer forks de notebooks do kaggle (Copy and Edit), testar hipóteses e técnicas
Falar com as pessoas do kaggle, comentar e postar, fazer parte da comunidade
Competições 'Getting Started': estudar notebooks com bom score, e usar técnicas e conceitos aprendidos para criar o seu próprio. Estudar notebooks com score médio, comparar com os de score bom, e entender o que causou a melhora na pontuação. Recomendo no mínimo uns 10 dias de estudo para cada uma das competições abaixo:
- Titanic Classification
- House Prices Regression
- Predict Future Sales
- Tabular Playground Series
- Nível avançado: competições reais (valendo prêmios)

Algorithm Optimization & Tuning techniques

Time Series

Rob Mulla tutorial
3 methods for Time Series validation
Error Analysis for Time Series - Mark Tanenholtz
More time series tips from Mark
Even more time series tips from Mark
Classic features for time series models
Techniques for working with time series data
Time Series basic concepts
Time Series - Youtube playlist
pmdarima, statsmodels, ARIMA, SARIMA, prophet, theta model
Case Zillow, Prophet, Time Series, & Prices
Time-series prediction with XGBoost
XGBoost for time series example
Tabular Machine learning approach para múltiplas séries temporais:
- Create Lag features
- Group by série, tail(1)
- Validation strategy, Types of leakage, Evaluation
- Exemplos, notebooks e datasets bons:

Deep Learning - Neural Networks

Principais conceitos e keywords a pesquisar e aprender: tensors, gradient descent, automatic differentiation, forward pass, backpropagation, layers, batch, epoch, iteration, optimizer step, scheduler step, vanishing gradients, exploding gradients, transfer learning (fine-tuning & feature extraction)...

Basics:

Frameworks:

Pytorch vs Tensorflow in 2022

Keras:

Tensorflow:

Tensorflow guide - kaggle learn

Pytorch:

Um estudo muito útil e proveitoso é comparar e olhar em paralelo as documentações de Quick Start do Keras, do Tensorflow e do Pytorch. A lógica é bem parecida e existem muitas analogias:

Principais tipos de camadas (layers):

Dense & Linear (fully connected)
Activation functions (ReLU, LeakyReLU, SELU, PReLU, Tanh, Softmax, Sigmoid....)
Conv (Convolutional)
Flatten
BatchNorm, LayerNorm, RMSNorm
LSTM (Long Short Term Memory), BiLSTM
GRU (Gated Recurrent Unit - Short Term Memory), BiGRU
Dropout
Pooling (Max, Mean, Average, Generalized Mean etc)
Concatenate

Papers - Why and When Deep Learning?

Extra:

JAX docs

"JAX is Autograd and XLA, brought together for high-performance numerical computing and machine learning research. It provides composable transformations of Python+NumPy programs: differentiate, vectorize, parallelize, Just-In-Time compile to GPU/TPU, and more."

JAX - Quick Start

"JAX is NumPy on the CPU, GPU, and TPU, with great automatic differentiation for high-performance machine learning research."

JAX é um projeto open source do Google com o objetivo de criar uma API simples e backend eficiente para cálculos de deep learning. Tem crescido em popularidade e sido considerada muito promissora por pesquisadores. Imagina-se que em alguns anos será um concorrente direto do Pytorch (na área de pesquisa), e também deverá substituir o backend do tensorflow (na área de aplicações). Há quem chame o JAX de "tensorflow 3", e já existem planos para criação de uma API high level para JAX, adaptando a biblioteca Keras para usar JAX como backend. Portanto, é interessante conhecer.

JAX guide - kaggle learn

Transformers

Os Transformers e o Attention Mechanism, propostos em 2017 por Vaswani - Google Brain no paper Attention Is All You Need, são, até hoje, a maior revolução que o mundo do Deep Learning já passou. Vale a pena estudá-los com atenção (pun intended 😆), pois eles são o estado da arte em redes neurais hoje em dia para a maioria dos tasks, e pelo visto continuarão sendo por bastante tempo.

Transformers mostraram que não é preciso usar camadas LSTM para fazer tasks de NLP no estado da arte, e também não precisamos de camadas de Convolução para fazer CV (Computer Vision) no estado da arte. Attention Is All You Need.

Papers

How to read papers - twitter thread
Attention Is All You Need - paper dec/2017
BERT - paper may/2019
RoBERTa - paper jul/2019
SBERT - paper aug/2019 - Sentence Transformers
TaBERT - paper may/2020 - Learning Joint Representations over Textual and Tabular Data
T5: Text-To-Text Transfer Transformer - paper jul/2020
Longformer - paper dec/2020 - Local Attention
ViT - paper jun/2021 - Vision Transformers
Swin Transformer - paper aug/2021 - Shifted Window based Self-Attention
DeBERTa - paper oct/2021 - Disentangled Attention

Outras fontes

Attention explained - Lightning AI - 4 min
BERT Attention Mechanism
Illustrated Guide to Transformers
The Illustrated Transformer
The Annotated Transformer
Attention implementation in torch from scratch - twitter thread - Abhishek Thakur
Attention implementation in torch from scratch - twitter thread 2 - Abhishek Thakur
Transformers from Scratch - explicação visual e detalhada
Awesome Self-Supervised Learning - github repo

NLP - Natural Language Processing

Principais conceitos e keywords a conhecer: n-grams, CountVectorizer, TF-IDF, BOW (Bag of Words), CBOW (Continuous Bag of Words), Word2vec, FastText (facebook model), GloVe (Global Vectors), BERT, RoBERTa, Hugging Face....

A brief timeline of NLP from Bag of Words to the Transformer family
- Bag of words & ML models
- Word vectors & Deep Learning
- Context vectors & Transformers
The Illustrated Word2vec - A Gentle Intro to Word Embeddings in Machine Learning
Resumo Hugging face library - 15 min video
Hugging face - finetune a pretrained model: Trainer, native Pytorch, native Tensorflow
Hugging Face course - excelente curso. HF é o melhor ecossistema de NLP e continuará sendo por muitos anos
10 Things You Need to Know About BERT and Transformer Architecture
A Survey of Transformers - paper jun/2021

Aplicações:

LLMs

Large Language Models

Conceitos básicos

LangChain - Getting Started

RAG: Retrieval Augmented Generation

Advanced RAG

Finetuning LLMs

Rag vs Finetuning

There are many ways to finetune a LLM. Some examples are: Instruction Finetuning, Preference Finetuning, Class Finetuning and Regression Finetuning.

LLM Instruction Finetuning + WandB - @hinepo
LLM Alignment: Preference Finetuning - DPO, SLiC, IPO, KTO - @hinepo
How to Fine-Tune LLMs in 2024 with Hugging Face - philschmid
RLHF in 2024 with DPO & Hugging Face - philschmid
Fine-Tune Your Own Llama 2 Model in a Colab Notebook
Synthetic data creation for LLMs - @hinepo
Synthetic data - Hugging Face: Few-shot vs DeBERTa finetuned on Synthetic data
SPIN: Self-Play Finetuning for LLMs - @hinepo

Agents

Basics:

Langchain docs:

Hugging Face Agents

DSPy

LLMs in Production

Guardrails, Safeguards, Assertions

LLM Guard
LLM Safeguards - notebook @hinepo
AWS Bedrock
Azure OpenAI Service - Content Filtering
Assertions - paper jan/2024

Outras aplicações

Computer Vision

OpenCV

Yolo

Existem várias versões do algoritmo Yolo. Vale a pena dar uma olhada nas evoluções que ocorreram desde o lançamento da versão original em 2015.

Porém, hoje em dia o pacote Ultralytics é a melhor forma de usar Yolo, e inclui várias versões e variações do Yolo e também de outros algoritmos.

Algumas funcionalidades:

Tasks: Detection, Segmentation, Classification e Pose Estimation
Modes: Train, Validate, Predict, Export, Tracking e até Benchmarking de performance

É muito importante ler toda a documentação do Ultralytics.

Ultralytics docs
YOLO Introduction
YOLOv5 tutorial - notebook
How to Train YOLOv8 Object Detection on a Custom Dataset - using folder structure and LabelImg
How to Train YOLOv8 Object Detection on a Custom Dataset - using Roboflow
Supervision docs - A lot of common Computer Vision utilities and features out of the box

Aplicações:

Basics

Computer Vision History by Andrej Karpathy (até 2016)
Kernel size in convolution layers
Digit Recognizer: Getting Started Competition - ‘Hello World’ do mundo de CV: Estudar vários notebooks com bom score, e depois criar o seu misturando várias técnicas que vc achou promissoras em outros notebooks, tentando melhorar o score do baseline. Recomendo no mínimo uns 10 dias de estudo para essa competição.
chatGPT resolvendo MNIST usando keras
Pytorch tutorial for image classification - @hinepo
Ensemble for image classification - @hinepo
Transfer learning for CV guide - kaggle learn
Dev Ideas - Treinamentos sobre visão computacional

Pytorch image models (timm)

O que o Hugging Face é para NLP é análogo ao que a biblioteca timm é para computer vision: um ecossistema open source, consolidado e no estado da arte, que disponibiliza uma API simples e unificada para uso de modelos, além de centenas de excelentes modelos multi-propósito (multi-task, general purpose models), já pré-treinados durante semanas em GPUs e TPUs de dezenas de milhares de dólares, todos prontos para usarmos apenas adicionando uma última camada na rede neural para atender ao nosso task/problema. Isso se chama feature extraction, e evita que tenhamos que treinar esses modelos gigantes from scratch.

Papers

Vision Transformer (ViT) and others

RecSys

OTTO competition é o melhor e mais completo material sobre sistemas de recomendação, incluindo muitas abordagens, baselines, códigos, discussões e soluções.
EDA for e-commerce RecSys: Matrix Factorization + TSNE
Mastering Recommender Systems | Grandmaster Series E8
Facebook recommender systems

Recommendation systems basic concepts:

Validating a recommendation model:

Common Metrics

Algumas abordagens:

Content based (item similarity / item colaborative filtering)
User based (user similarity / user colaborative Filtering)
Word2Vec, FastText
- train from scratch on item sequences
- use Annoy lib to find nearest neighbors
Co-visitation matrix + heuristic re-ranker (rule-based ranker)
Ranking models (learning to rank)
- user features
- item features
- user-item interactions features
- co-visitation features
Matrix Factorization & Matrix Factorization with GPU
Autoencoder
LSTM
Transformers
GNN (Graph Neural Networks)
RecBole lib

Marketing Mix Modeling

Curso 2h
- Multi-touch Attribution Models
- Marketing Mix Modeling
- Incrementality and A/B testing
MMM models using tree-based ensembles and SHAP
Lightweightmmm (Bayesian) Marketing Mix Modeling and Lightweightmmm Models
Artigos de MMM do Mario Filho

Survival Analysis

Deploy

Capítulos do livro "Designing Machine Learning Systemns - Chip Huyen":

7 - Model Deployment and Prediction Service
- Offline evaluation
- Backtesting
- Batch x Online
- Cloud x Edge
8 - Data Distribution Shifts and Monitoring
- How to monitor raw inputs, features, predictions, metrics
9 - Continual Learning and Test in Production
- Online evaluation
- Shadow Deployment
- A/B Testing
- Canary release
- Interleaving experiments
- Bandits

Deploying supervised machine learning models

Deploying is an intervention and humans are agents that react to the predictions. That is the point of most models.

Performative prediction

MLOps

Intro:

Como é o trabalho de um ML Enginner (MLE)?
O que é Feature Store - Muito importante
Capítulo "10 - Infrastructure and Tooling for MLOps" do livro "Designing Machine Learning Systemns - Chip Huyen"

Model Store:

Websites:

Papers:

Tools & References:

Tech Management

Scrum vs Data Science

About Pair Programming:

Para o desenvolvedor e/ou cientista de dados, a melhor forma de programar e desenvolver um projeto é via Pair Programming. E Pair Programming é melhor via trabalho remoto.

Youtube channels

Abaixo alguns canais nos quais acho válido se inscrever e acompanhar os conteúdos publicados.

Perfis no twitter

Algumas sugestões:

Name		Name	Last commit message	Last commit date
Latest commit History 410 Commits
imgs		imgs
README.md		README.md

HinePo/Trilha-de-Estudos-de-Data-Science

Folders and files

Latest commit

History

imgs

imgs

README.md

README.md

Repository files navigation

Trilha de Estudos de Ciência de Dados

Sumário

Como estudar

ML twitter

Ferramentas

Panorama de DS no mercado

Áreas de dados

Data Sequence

DE vs ML pipelines

Python and Data Analysis basics

Data Analysis workflow - entender e praticar as etapas básicas:

Machine Learning workflow - entender e praticar as etapas básicas:

Data Engineering

Data Visualization

Machine Learning - Teoria

Machine Learning - Prática

Algorithm Optimization & Tuning techniques

Time Series

Deep Learning - Neural Networks

Papers - Why and When Deep Learning?

Extra:

Transformers

Papers

Outras fontes

NLP - Natural Language Processing

Aplicações:

LLMs

Conceitos básicos

LangChain - Getting Started

RAG: Retrieval Augmented Generation

Advanced RAG

Finetuning LLMs

Agents

DSPy

LLMs in Production

Guardrails, Safeguards, Assertions

Outras aplicações

Computer Vision

OpenCV

Yolo

Basics

Pytorch image models (timm)

Papers

Vision Transformer (ViT) and others

RecSys

Recommendation systems basic concepts:

Validating a recommendation model:

Common Metrics

Algumas abordagens:

Marketing Mix Modeling

Survival Analysis

Deploy

Capítulos do livro "Designing Machine Learning Systemns - Chip Huyen":

Deploying supervised machine learning models

MLOps

Tech Management

About Pair Programming:

Youtube channels

Perfis no twitter

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Packages