#r "nuget: Deedle.Interactive, 3.0.0"
#r "nuget: FSharp.Stats, 0.4.3"
#r "nuget: Plotly.NET.Interactive, 4.0.0"
#r "nuget: FSharp.Data, 4.2.7"

open FSharp.Data
open Deedle

// Retrieve data using the FSharp.Data package and read it as dataframe using the Deedle package
let rawData = Http.RequestString @"https://raw.githubusercontent.com/fslaborg/datasets/main/data/iris.csv"
let df = Frame.ReadCsvString(rawData)

df

open Plotly.NET

let colNames = ["sepal_length";"sepal_width";"petal_length";"petal_width"]

// isolate data as float [] []
let data = 
    Frame.dropCol "species" df
    |> Frame.toJaggedArray

//isolate labels as seq<string>
let labels = 
    Frame.getCol "species" df
    |> Series.values
    |> Seq.mapi (fun i s -> sprintf "%s_%i" s i)


Chart.Heatmap(data,colNames=colNames,rowNames=labels)
// required to fit the species identifier on the left side of the heatmap
|> Chart.withMarginSize(Left=100.)
|> Chart.withTitle "raw iris data"

open FSharp.Stats
open FSharp.Stats.ML
open FSharp.Stats.ML.Unsupervised

// For random cluster initiation use randomInitFactory:
let rnd = System.Random()
let randomInitFactory : IterativeClustering.CentroidsFactory<float []> = 
    IterativeClustering.randomCentroids<float []> rnd

// For assisted cluster initiation use cvmaxFactory:
//let cvmaxFactory : IterativeClustering.CentroidsFactory<float []> = 
//    IterativeClustering.intitCVMAX

let distanceFunction = DistanceMetrics.euclideanNaNSquared
  
let kmeansResult = 
    IterativeClustering.kmeans distanceFunction randomInitFactory data 4

let clusteredIrisData =
    Seq.zip labels data
    |> Seq.map (fun (species,dataPoint) -> 
        let clusterIndex,centroid = kmeansResult.Classifier dataPoint
        clusterIndex,species,dataPoint)


clusteredIrisData
|> Seq.take 7
|> Seq.map (fun (a,b,c) -> sprintf "%i, %A, %A" a b c)
|> String.concat "\n"
|> fun x -> x + "\n ... "

1, "versicolor_0", [|5.5; 2.4; 3.8; 1.1|]
4, "setosa_1", [|4.9; 3.1; 1.5; 0.1|]
2, "virginica_2", [|7.6; 3.0; 6.6; 2.1|]
1, "virginica_3", [|5.6; 2.8; 4.9; 2.0|]
1, "virginica_4", [|6.1; 3.0; 4.9; 1.8|]
2, "virginica_5", [|6.3; 3.4; 5.6; 2.4|]
1, "virginica_6", [|6.2; 2.8; 4.8; 1.8|]
 ...

open FSharpAux

clusteredIrisData
//sort all data points according to their assigned cluster number
|> Seq.sortBy (fun (clusterIndex,label,dataPoint) -> clusterIndex)
|> Seq.unzip3
|> fun (_,labels,d) -> 
    Chart.Heatmap(d,colNames=colNames,rowNames=labels)
    // required to fit the species identifier on the left side of the heatmap
    |> Chart.withMarginSize(Left=100.)
    |> Chart.withTitle "clustered iris data (k-means clustering)"

//group clusters
clusteredIrisData
|> Seq.groupBy (fun (clusterIndex,label,dataPoint) -> clusterIndex)
//for each cluster generate a scatter plot
|> Seq.map (fun (clusterIndex,cluster) -> 
    cluster
    |> Seq.unzip3
    |> fun (clusterIndex,label,data) -> 
        let clusterName = sprintf "cluster %i" (Seq.head clusterIndex)
        //for 3 dimensional representation isolate sepal length, petal length, and petal width
        let truncData = data |> Seq.map (fun x -> x.[0],x.[2],x.[3]) 
        Chart.Scatter3D(truncData,mode=StyleParam.Mode.Markers,Name = clusterName,MultiText=label)
    )
|> Chart.combine
|> Chart.withTitle "isolated coordinates of clustered iris data (k-means clustering)"
|> Chart.withXAxisStyle colNames.[0]
|> Chart.withYAxisStyle colNames.[2]
|> Chart.withZAxisStyle colNames.[3]

let getBestkMeansClustering bootstraps k =
    let dispersions =
        Array.init bootstraps (fun _ -> 
            IterativeClustering.kmeans distanceFunction randomInitFactory data k
            )
        |> Array.map (fun clusteringResult -> IterativeClustering.DispersionOfClusterResult clusteringResult)
    Seq.mean dispersions,Seq.stDev dispersions

let iterations = 10

let maximalK = 10

[2 .. maximalK] 
|> List.map (fun k -> 
    let mean,stdev = getBestkMeansClustering iterations k
    k,mean,stdev
    )
|> List.unzip3
|> fun (ks,means,stdevs) -> 
    Chart.Line(ks,means)
    |> Chart.withYErrorStyle(Array=stdevs)
    |> Chart.withXAxisStyle "k"
    |> Chart.withYAxisStyle "average dispersion"
    |> Chart.withTitle "iris data set average dispersion per k"

Clustering with FSharp.Stats I: k-means

Posted on 2021-7-27 by Benedikt Venn in Data Science

Clustering with FSharp.Stats I: k-means¶

Introduction¶

Centroid initiation¶

Distance measure¶

Referencing packages¶

Loading data¶

Clustering¶

Visualization of the clustering result as heatmap¶

Optimal cluster number¶

Limitations¶

Notes¶

References¶

Further reading¶

		sepal_length	sepal_width	petal_length	petal_width	species
		(Decimal)	(Decimal)	(Decimal)	(Decimal)	(string)
0	->	5.5	2.4	3.8	1.1	versicolor
1	->	4.9	3.1	1.5	0.1	setosa
2	->	7.6	3	6.6	2.1	virginica
3	->	5.6	2.8	4.9	2	virginica
4	->	6.1	3	4.9	1.8	virginica
:		...	...	...	...	...
145	->	7.7	2.6	6.9	2.3	virginica
146	->	5.7	2.6	3.5	1	versicolor
147	->	5.9	3	5.1	1.8	virginica
148	->	6.8	3.2	5.9	2.3	virginica
149	->	5	3.6	1.4	0.2	setosa