
Binder Notebook

Short documentation how to impute values

open FSharp.Stats
open FSharp.Stats.ML

let a = [3.;2.;3.;4.;5.;]
let b = [1.;2.;3.;nan;5.;]
let c = [nan;2.;3.;4.;nan;]
let d = [5.;2.;6.;4.;5.;]
let e = [0.5;2.;3.;5.;5.;]

let data = [a;b;c;d;e]

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000       NaN     5.000
2     |      NaN     2.000     3.000     4.000       NaN
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000

k-Nearest imputation

Missing data imputation based on the k-nearest neighbour algorithm:

// init kNearest MatrixBaseImpute
let kn : Impute.MatrixBaseImputation<float[],float> = Impute.kNearestImpute 2
let imputedData = Impute.imputeBy kn Ops.isNan data
"k nearest neighbours imputed data

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000     4.500     5.000
2     |    1.750     2.000     3.000     4.000     5.000
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000

random imputation


// init random VectorBaseImpute
let rnd = Impute.rnd (System.Random())

let rndRowWise = Impute.imputeRowWiseBy rnd Ops.isNan data
let rndColWise = Impute.imputeColWiseBy rnd Ops.isNan data
"rndRowDataMatrix imputed data

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000     3.000     5.000
2     |    3.000     2.000     3.000     4.000     3.000
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000
"rndColDataMatrix imputed data

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000     4.000     5.000
2     |    1.000     2.000     3.000     4.000     5.000
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000

normal imputation


let normalRowWise = Impute.imputeRowWiseBy Impute.normal Ops.isNan data
let normalColWise = Impute.imputeColWiseBy Impute.normal Ops.isNan data
"normalRowDataMatrix imputed data

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000     1.777     5.000
2     |    2.165     2.000     3.000     4.000     3.034
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000
"normalColDataMatrix imputed data

               0         1         2         3         4 
0     |    3.000     2.000     3.000     4.000     5.000
1     |    1.000     2.000     3.000     5.343     5.000
2     |    -0.64     2.000     3.000     4.000     5.000
3     |    5.000     2.000     6.000     4.000     5.000
4     |    0.500     2.000     3.000     5.000     5.000
