E2E Package Parameter Reference Guide

This guide provides comprehensive parameter documentation for all E2E functions.

Built-in Datasets

E2E includes example datasets for both diagnostic and prognostic modeling:

Diagnostic Datasets

train_dia: Training data with sample IDs (column 1), outcomes 0/1 (column 2), and features (columns 3+)
test_dia: Test data with the same structure

Prognostic Datasets

train_pro: Training data with sample IDs (column 1), survival status 0/1 (column 2), survival time (column 3), and features (columns 4+)
test_pro: Test data with the same structure

Built-in Models

Diagnostic Models (12 algorithms)

rf: Random Forest
xb: XGBoost
svm: Support Vector Machine
mlp: Multi-Layer Perceptron
lasso: L1-regularized Logistic Regression
en: Elastic Net
ridge: L2-regularized Logistic Regression
lda: Linear Discriminant Analysis
qda: Quadratic Discriminant Analysis
nb: Naive Bayes
dt: Decision Tree
gbm: Gradient Boosting Machine

Prognostic Models (9 algorithms)

lasso_pro: Lasso Cox Regression
en_pro: Elastic Net Cox Regression
ridge_pro: Ridge Cox Regression
stepcox_pro: Stepwise Cox Regression
gbm_pro: Gradient Boosting Machine for Cox
rsf_pro: Random Survival Forest
xgb_pro: XGBoost for prognosis
pc_pro: Supervised Principal Components (SuperPC)
pls_pro: Partial Least Squares Cox Regression

Integrated Pipeline Functions

int_dia()

Comprehensive diagnostic modeling pipeline executing single models, bagging, stacking, and voting ensembles.

Parameters:

... (required): Data frames for analysis. First = training dataset; subsequent = test datasets. Structure: column 1 = sample ID, column 2 = outcome (0/1), columns 3+ = features
tune: Logical (default TRUE). Enable hyperparameter tuning for base models
n_estimators: Integer (default 10). Number of bootstrap samples for bagging
seed: Integer (default 123). Random seed for reproducibility

int_pro()

Comprehensive prognostic modeling pipeline for survival analysis.

Parameters:

... (required): Data frames. First = training; others = test sets. Structure: column 1 = ID, column 2 = survival status (0/1), column 3 = survival time, columns 4+ = features
tune: Logical (default TRUE). Enable tuning
n_estimators: Integer (default 10). Bagging iterations
seed: Integer (default 123). Random seed
time_unit: String (default “day”). Time unit: “day”, “month”, or “year”
years_to_evaluate: Numeric vector (default c(1,3,5)). Years for time-dependent AUROC

plot_integrated_results()

Visualizes integrated modeling results with heatmap and summary plots.

Parameters:

results_obj (required): Output from int_dia(), int_imbalance(), or int_pro()
metric_name: Character string (default “AUROC”). Metric name for plot labels (e.g., “AUROC”, “C-index”)

Returns: ggplot object (invisibly)

Diagnostic Modeling Functions

models_dia()

Trains base classification models for diagnostic tasks. Parameters:

data (required): Data frame with sample names (column 1), outcomes 0/1 (column 2), features (columns 3+)
model (required): Character vector of model names or “all_dia” for all models
tune: Logical (default FALSE). Whether to perform hyperparameter tuning
threshold_choices: Threshold selection method
- “default” (default): Fixed 0.5 threshold
- “f1”: Optimize F1 score
- “youden”: Optimize Youden index
- Numeric value (0-1): Custom threshold
seed: Integer (default 123). Random seed for reproducibility

bagging_dia()

Bootstrap aggregating ensemble method. Parameters:

data (required): Training data frame
base_model_name (required): Base model name (e.g., “xb”, “rf”)
n_estimators: Integer (default 50). Number of base models
subset_fraction: Numeric (default 0.632). Bootstrap sampling fraction
tune_base_model: Logical (default FALSE). Tune base models
threshold_choices: Same as models_dia()
seed: Integer (default 123). Random seed

voting_dia()

Voting ensemble combining multiple models. Parameters:

results_all_models (required): Output from models_dia()
data (required): Training data
type: Voting type
- “soft” (default): Weighted probability averaging
- “hard”: Majority voting
weight_metric: String (default “AUROC”). Metric for soft voting weights
top: Integer (default 5). Number of top models to use
threshold_choices: Same as models_dia()
seed: Integer (default 123). Random seed

stacking_dia()

Stacking ensemble with meta-model. Parameters:

results_all_models (required): Output from models_dia()
data (required): Training data
meta_model_name (required): Meta-model name (e.g., “lasso”, “gbm”)
top: Integer (default 5). Number of top base models
tune_meta: Logical (default FALSE). Tune meta-model
threshold_choices: Same as models_dia()
seed: Integer (default 123). Random seed

imbalance_dia()

Handles imbalanced datasets using EasyEnsemble-like algorithm. Parameters:

data (required): Imbalanced training data
base_model_name (required): Base model for balanced subsets
n_estimators: Integer (default 10). Number of balanced subsets
tune_base_model: Logical (default FALSE). Tune base models
threshold_choices: Same as models_dia()
seed: Integer (default 123). Random seed

apply_dia()

Applies trained model to new data. Parameters:

trained_model_object (required): Trained model object from E2E functions
new_data (required): New data for prediction (sample IDs in column 1)
label_col_name: String (default NULL). True label column name if available

evaluate_predictions_dia()

Evaluates model predictions. Parameters:

prediction_df (required): Prediction data frame from apply_dia()
threshold_choices: Same as models_dia()

Prognostic Modeling Functions

models_pro()

Trains base survival models. Parameters:

data (required): Data frame with sample ID, survival status, time, features
model (required): Model names or “all_pro” for all models
tune: Logical (default FALSE). Hyperparameter tuning
time_unit: String (default “day”). Time unit (“day”, “month”, “year”)
years_to_evaluate: Numeric vector (default c(1,3,5)). Time points for time-dependent AUROC
seed: Integer (default 789). Random seed

stacking_pro()

Stacking ensemble for survival analysis. Parameters:

results_all_models (required): Output from models_pro()
data (required): Training data
meta_model_name (required): Meta-model name
top: Integer (default 3). Number of top base models
tune_meta: Logical (default FALSE). Tune meta-model
time_unit: String (default “day”). Time unit
years_to_evaluate: Numeric vector (default c(1,3,5)). Evaluation time points
seed: Integer (default 789). Random seed

bagging_pro()

Bootstrap aggregating for survival analysis. Parameters:

data (required): Training data
base_model_name (required): Base model name
n_estimators: Integer (default 10). Number of base models
subset_fraction: Numeric (default 0.632). Bootstrap sampling fraction
tune_base_model: Logical (default FALSE). Tune base models
time_unit: String (default “day”). Time unit
years_to_evaluate: Numeric vector (default c(1,3,5)). Evaluation time points
seed: Integer (default 456). Random seed

apply_pro()

Applies trained survival model to new data. Parameters:

trained_model_object (required): Trained model object
new_data (required): New data with same structure as training data
time_unit: String (default “day”). Time unit

evaluate_predictions_pro()

Evaluates survival model predictions. Parameters:

prediction_df (required): Prediction data frame from apply_pro()
years_to_evaluate: Numeric vector (default c(1,3,5)). Evaluation time points

Visualization Functions

figure_dia()

Creates diagnostic model evaluation plots. Parameters:

type (required): Plot type
- “roc”: ROC curve
- “prc”: Precision-recall curve
- “matrix”: Confusion matrix
data (required): Model results object

figure_pro()

Creates prognostic model evaluation plots. Parameters:

type (required): Plot type
- “km”: Kaplan-Meier survival curves
- “tdroc”: Time-dependent ROC curves
data (required): Model results object
time_unit: String (default “days”). Time unit for axis labels

figure_shap()

Creates SHAP interpretation plots. Parameters:

data (required): Model results with sample_score data frame
raw_data (required): Original feature data
target_type (required): Data type
- “diagnosis”: Features start from column 3
- “prognosis”: Features start from column 4

Custom Model Registration

register_model_dia() / register_model_pro()

Registers custom algorithms.

Usage: 1. Define custom function following E2E conventions 2. Register with register_model_dia("model_name", custom_function) 3. Use registered model in E2E workflows