process_nas: Missing Treatment

Description

process_nas_var is for missing value analysis and treatment using knn imputation, central impulation and random imputation. process_nas is a simpler wrapper for process_nas_var.

Usage

process_nas(dat, x_list = NULL, default_miss = TRUE,
  class_var = FALSE, miss_values = NULL, parallel = FALSE,
  ex_cols = NULL, method = "median", note = FALSE,
  save_data = FALSE, file_name = NULL, dir_path = tempdir(), ...)
process_nas_var(dat = dat, x, default_miss = TRUE, nas_rate = NULL,
  mat_nas_shadow = NULL, dt_nas_random = NULL, missing_type = NULL,
  method = "median", note = FALSE, save_data = FALSE,
  file_name = NULL, dir_path = tempdir(), ...)

Arguments

dat

A data.frame with independent variables.

x_list

Names of independent variables.

default_miss

Logical. If TRUE, assigning the missing values to -1 or "Missing", otherwise ,processing the missing values according to the results of missing analysis.

class_var

Logical, nas analysis of the nominal variables. Default is TRUE.

miss_values

Other extreme value might be used to represent missing values, e.g: -9999, -9998. These miss_values will be encoded to -1 or "Missing".

parallel

Logical, parallel computing. Default is FALSE.

ex_cols

A list of excluded variables. Regular expressions can also be used to match variable names. Default is NULL.

method

The methods of imputation by knn."median" is knn imputation by k neighbors median.

note

Logical, outputs info. Default is TRUE.

save_data

Logical. If TRUE, save missing analysis to dir_path

file_name

The file name for periodically saved missing analysis file. Default is NULL.

dir_path

The path for periodically saved missing analysis file. Default is "./variable".

...

Other parameters.

The name of variable to process.

nas_rate

A list contains nas rate of each variable.

mat_nas_shadow

A shadow matrix of variables which contain nas.

dt_nas_random

A data.frame with random nas imputation.

missing_type

Type of missing, genereted by codeanalysis_nas

Value

A dat frame with no NAs.

Examples

Run this code

# NOT RUN {
dat_na = process_nas(dat = UCICreditCard[1:1000,], default_miss = FALSE,
target = "default.payment.next.month",
parallel = FALSE,ex_cols = "ID$" ,method = "median")

# }

Run the code above in your browser using DataLab