UNO

This repository demonstrates how to use the IMPROVE library v0.1.0-alpha for building a drug response prediction (DRP) model using UNO, and provides examples with the benchmark cross-study analysis (CSA) dataset.

This version, tagged as v0.1.0-alpha, introduces a new API which is designed to encourage broader adoption of IMPROVE and its curated models by the research community.

Dependencies

Installation instuctions are detailed below in Step-by-step instructions.

ML framework:

TensorFlow -- deep learning framework for building the prediction model

IMPROVE dependencies:

IMPROVE v0.1.0-alpha

Dataset

Benchmark data for cross-study analysis (CSA) can be downloaded from this site.

The data tree is shown below:

csa_data/raw_data/
├── splits
│   ├── CCLE_all.txt
│   ├── CCLE_split_0_test.txt
│   ├── CCLE_split_0_train.txt
│   ├── CCLE_split_0_val.txt
│   ├── CCLE_split_1_test.txt
│   ├── CCLE_split_1_train.txt
│   ├── CCLE_split_1_val.txt
│   ├── ...
│   ├── GDSCv2_split_9_test.txt
│   ├── GDSCv2_split_9_train.txt
│   └── GDSCv2_split_9_val.txt
├── x_data
│   ├── cancer_copy_number.tsv
│   ├── cancer_discretized_copy_number.tsv
│   ├── cancer_DNA_methylation.tsv
│   ├── cancer_gene_expression.tsv
│   ├── cancer_miRNA_expression.tsv
│   ├── cancer_mutation_count.tsv
│   ├── cancer_mutation_long_format.tsv
│   ├── cancer_mutation.parquet
│   ├── cancer_RPPA.tsv
│   ├── drug_ecfp4_nbits512.tsv
│   ├── drug_info.tsv
│   ├── drug_mordred_descriptor.tsv
│   └── drug_SMILES.tsv
└── y_data
    └── response.tsv

Model scripts and parameter file

uno_preprocess_improve.py - takes benchmark data files and transforms them into files for training and inference
uno_train_improve.py - trains the UNO model
uno_infer_improve.py - runs inference with the trained UNO model
uno_default_model.txt - default parameter file (parameter values specified in this file override the defaults)
params.py - definitions of parameters that are specific to the model

Step-by-step instructions

1. Clone the model repository

git clone https://github.com/JDACS4C-IMPROVE/UNO
cd UNO
git checkout develop

2. Set computational environment

Create conda environment

conda create --name Uno_IMPROVE python=3.8 pip -y
conda activate Uno_IMPROVE
pip install protobuf==3.19.6
pip install tensorflow-gpu==2.10.0
pip install pyarrow==12.0.1
pip install pyyaml pandas scikit-learn

You can use setup_deps.sh to help automate installing these dependencies.

3. Run `setup_improve.sh`.

source setup_improve.sh

This will:

Download cross-study analysis (CSA) benchmark data into ./csa_data/.
Clone IMPROVE repo (checkout develop) outside the UNO model repo.
Set PYTHONPATH (adds IMPROVE repo).
Set IMPROVE_DATA_DIR.
Note that you must run this to setup the path variables every time you log in. Installation is skipped if the directories already exist.

4. Preprocess CSA benchmark data (raw data) to construct model input data (ML data)

python uno_preprocess_improve.py --input_dir ./csa_data/raw_data --output_dir exp_result

Preprocesses the CSA data and creates train, validation (val), and test datasets.

Generates:

nine model input data files (each has a file for train, val, and infer): ge_*_data.parquet, md_*_data.parquet, rsp_*_data.parquet
three tabular data files, each containing the drug response values (i.e. AUC) and corresponding metadata: train_y_data.csv, val_y_data.csv, test_y_data.csv

exp_result
├── ge_test_data.parquet
├── ge_train_data.parquet
├── ge_val_data.parquet
├── md_test_data.parquet
├── md_train_data.parquet
├── md_val_data.parquet
├── param_log_file.txt
├── rsp_test_data.parquet
├── rsp_train_data.parquet
├── rsp_val_data.parquet
├── test_y_data.csv
├── train_y_data.csv
├── val_y_data.csv
├── x_data_gene_expression_scaler.gz
└── x_data_mordred_scaler.gz

5. Train UNO model

python uno_train_improve.py --input_dir exp_result --output_dir exp_result

Trains UNO using the model input data: ge_train_data.parquet, md_train_data.parquet, rsp_train_data.parquet (training) and ge_val_data.parquet, md_val_data.parquet, rsp_val_data.parquet (for early stopping).

Generates:

trained model: saved_model.pb
predictions on val data (tabular data): val_y_data_predicted.csv
prediction performance scores on val data: val_scores.json

exp_result
├── ge_test_data.parquet
├── ge_train_data.parquet
├── ge_val_data.parquet
├── md_test_data.parquet
├── md_train_data.parquet
├── md_val_data.parquet
├── model
    ├── assets/
    ├── keras_metadata.pb
    ├── saved_model.pb
    └── variables
        ├── variables.data-00000-of-00001
        └── variables.index
├── param_log_file.txt
├── rsp_test_data.parquet
├── rsp_train_data.parquet
├── rsp_val_data.parquet
├── test_y_data.csv
├── train_y_data.csv
├── val_scores.json
├── val_y_data.csv
├── val_y_data_predicted.csv
├── x_data_gene_expression_scaler.gz
└── x_data_mordred_scaler.gz

6. Run inference on test data with the trained model

python uno_infer_improve.py --input_data_dir exp_result --input_model_dir exp_result --output_dir exp_result --calc_infer_score true

Evaluates the performance on a test dataset with the trained model.

Generates:

predictions on test data (tabular data): test_y_data_predicted.csv
prediction performance scores on test data: test_scores.json

exp_result
├── ge_test_data.parquet
├── ge_train_data.parquet
├── ge_val_data.parquet
├── md_test_data.parquet
├── md_train_data.parquet
├── md_val_data.parquet
├── model
    ├── assets/
    ├── keras_metadata.pb
    ├── saved_model.pb
    └── variables
        ├── variables.data-00000-of-00001
        └── variables.index
├── param_log_file.txt
├── rsp_test_data.parquet
├── rsp_train_data.parquet
├── rsp_val_data.parquet
├── test_scores.json
├── test_y_data.csv
├── test_y_data_predicted.csv
├── train_y_data.csv
├── val_scores.json
├── val_y_data.csv
├── val_y_data_predicted.csv
├── x_data_gene_expression_scaler.gz
└── x_data_mordred_scaler.gz

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
deephyper_improve		deephyper_improve
OLD_mae_poly_loss.py		OLD_mae_poly_loss.py
README.md		README.md
csa_bruteforce_params.ini		csa_bruteforce_params.ini
csa_bruteforce_params_def.py		csa_bruteforce_params_def.py
csa_bruteforce_params_exp1a.ini		csa_bruteforce_params_exp1a.ini
csa_bruteforce_params_exp1b.ini		csa_bruteforce_params_exp1b.ini
csa_bruteforce_params_exp2.ini		csa_bruteforce_params_exp2.ini
csa_bruteforce_wf.py		csa_bruteforce_wf.py
csa_params.ini		csa_params.ini
csa_params.test.ini		csa_params.test.ini
csa_params_def.py		csa_params_def.py
csa_postproc.py		csa_postproc.py
csa_wf_v3.py		csa_wf_v3.py
csa_workflow_params.txt		csa_workflow_params.txt
download_csa.sh		download_csa.sh
end_to_end_csa_example_2.sh		end_to_end_csa_example_2.sh
execute_in_conda.sh		execute_in_conda.sh
hyperparameters_default.json		hyperparameters_default.json
infer.sh		infer.sh
params.py		params.py
preprocess.candle.sh		preprocess.candle.sh
preprocess.sh		preprocess.sh
setup_deps.sh		setup_deps.sh
setup_improve.sh		setup_improve.sh
small_scale_parsl_csa_exp3.ini		small_scale_parsl_csa_exp3.ini
train.candle.sh		train.candle.sh
train.sh		train.sh
uno_default_model.txt		uno_default_model.txt
uno_infer_improve.py		uno_infer_improve.py
uno_preprocess_improve.py		uno_preprocess_improve.py
uno_train_improve.py		uno_train_improve.py
uno_utils_improve.py		uno_utils_improve.py
workflow_csa.py		workflow_csa.py
workflow_preprocess.py		workflow_preprocess.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

UNO

Dependencies

Dataset

Model scripts and parameter file

Step-by-step instructions

1. Clone the model repository

2. Set computational environment

3. Run `setup_improve.sh`.

4. Preprocess CSA benchmark data (raw data) to construct model input data (ML data)

5. Train UNO model

6. Run inference on test data with the trained model

About

Releases

Packages

Languages

j-woz/UNO

Folders and files

Latest commit

History

Repository files navigation

UNO

Dependencies

Dataset

Model scripts and parameter file

Step-by-step instructions

1. Clone the model repository

2. Set computational environment

3. Run setup_improve.sh.

4. Preprocess CSA benchmark data (raw data) to construct model input data (ML data)

5. Train UNO model

6. Run inference on test data with the trained model

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

3. Run `setup_improve.sh`.

Packages