In [None]:
 !pip install --upgrade scikit-learn
!pip install --upgrade numpy

# Συσταδοποίηση (Clustering)

Οι αλγόριθμοι συσταδοποίησης ανήκουν στην κατηγορία της **μη-επιβλεπόμενης μάθησης**. Σε αντίθεση με ό,τι έχουμε δει μέχρι στιγμής, στα προβλήματα αυτά τα δεδομένα μας **δεν συνοδεύονται από ετικέτες**. Αυτό σημαίνει ότι δεν έχουμε τις γνωστές μετρικές (π.χ. accuracy) για να αξιολογήσουμε αντικειμενικά την επίδοση του αλγορίθμου. Χωρίς αυτές, είναι αδύνατη η εκπαίδευση των αλγορίθμων με τις τεχνικές που έχουμε μάθει (backpropagation/gradient descent). Αντίθετα, στα προβλήματα αυτά θέλουμε ο αλγόριθμος να βρει μόνος του τη δομή (την υποκείμενη κατανομή - underlying distribution) των δεδομένων εισόδου.

Η [συσταδοποίηση](https://el.wikipedia.org/wiki/%CE%A3%CF%85%CF%83%CF%84%CE%B1%CE%B4%CE%BF%CF%80%CE%BF%CE%AF%CE%B7%CF%83%CE%B7) είναι ένα πρόβλημα το οποίο προσπαθεί να χωρίσει τα δεδομένα εισόδου σε ομάδες/συστάδες (clusters).

![](https://cdn-images-1.medium.com/max/1600/0*9ksfYh14C-ARETav.)


Μια συστάδα (ένα cluster) είναι μια συλλογή αντικειμένων που ομοιάζουν μεταξύ τους περισσότερο σε σχέση με αντικείμενα που βρίσκονται σε άλλες συστάδες.



## Μετρική απόστασης (ή ομοιότητας)

Για να μπορέσουμε να κάνουμε clustering χρειαζόμαστε απαραίτητα μια μετρική απόστασης (ή ομοιότητας).

Μετρική ονομάζεται μια συνάρτηση $d:V\longrightarrow\mathbb{R}$, όπου $V \neq \emptyset$ τυχόν σύνολο, η οποία ικανοποιεί τις παρακάτω ιδιότητες για κάθε $x,y,z∈V$:

* $d(x,y)=0$, αν και μόνo αν $x=y$ (ταύτιση),
* $d(x,x)=0$ (συνέπεια της αυτό-ομοιότητας),
* $d(x,y)=d(y,x)$ (συμμετρία), και
* $d(x,y)≤d(x,z)+d(z,y)$ (τριγωνική ανισότητα).

Η τιμή $d(x,y)$ ονομάζεται απόσταση των $x,y$ (ενν. μέσω της μετρικής $d$). Οποιοδήποτε σύνολο εφοδιασμένο με μία μετρική ονομάζεται μετρικός χώρος.

Σε έναν μετρικό χώρο επιπλέον, μπορεί να δείξει κανείς ότι
* d(x,y)≥0,

για κάθε $x,y∈X$. Πράγματι, για κάθε $x$ και για κάθε $y$, η τριγωνική ανισότητα δίνει $d(x,y)+d(y,x)≥d(x,x)$ · από τα αξιώματα ταύτισης και συμμετρίας παίρνουμε $2d(x,y)≥0$, δηλαδή $d(x,y) \geq 0$.



### Είδη μετρικών αποστάσεων

Οι μετρικές απόστασης που χρησιμοποιούμε συχνότερα στη Μηχανική Μάθηση είναι#

1. Απόσταση Minkowski,
2. Ευκλείδια απόσταση,
3. Απόσταση Manhattan,
4. Απόσταση Hamming, και
5. Ομοιότητα συνημιτόνου.

Η απόσταση Minkowski (1) τάξεως $p$ (όπου $p$ ακέραιος) μεταξύ δύο σημείων $ X=(x_{1},x_{2},\ldots ,x_{n})$ και $Y=(y_{1},y_{2},\ldots ,y_{n})\in \mathbb {R} ^{n}$ ορίζεται ως:
$$D\left(X,Y\right)=\left(\sum _{i=1}^{n}|x_{i}-y_{i}|^{p}\right)^{\frac {1}{p}}.$$


Συνήθως η απόσταση Minkowski χρησιμοποιείται με το $p$ να είναι ίσο με 2 ή 1, που αντιστοιχούν στην Ευκλείδια απόσταση (2) και την απόσταση Manhattan (1). Στην οριακή περίπτωση όπου $p\rightarrow\infty$ έχουμε την απόσταση Chebyshev ή μετρική $L_{\infty}$ που ορίζεται ως η μέγιστη διαφορά των δύο διανυσμάτων σε οποιαδήποτε διάσταση.

Από την θεωρία της πληροφορίας, η απόσταση Hamming (4) μεταξύ δύο ισομηκών συμβολοσειρών ορίζεται ως το πλήθος των θέσεων στα οποία τα αντίστοιχα σύμβολα διαφέρων μεταξύ των συμβολοσειρών. Με άλλα λόγια, είναι το πλήθος των αλλαγών σε χαρακτήρες που πρέπει να κάνουμε για να μετατρέψουμε τη μία συμβολόσειρα στην άλλη (sting-edit distance). 

H ομοιότητα συνημιτόνου (5) ορίζεται ως:

$$ S_{C}(X,Y):=\cos(\theta )={\mathbf {X} \cdot \mathbf {Y} \over \|\mathbf {X} \|\|\mathbf {Y} \|}={\frac {\sum \limits _{i=1}^{n}{X_{i}Y_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{X_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{Y_{i}^{2}}}}}},$$

παίρνει τιμές στο $[-1,1]$ και είναι ιδιαίτερα χρήσιμη σε εφαρμογές όπως η ανάκληση πληροφοριών (Information Retrieval).





# Είδη clustering

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_001.png)

Υπάρχουν πολλά είδη clustering, το καθένα με τα δυνατά κα τα αδύνατα σημεία του. 

Μερικές βασικές κατηγορίες συσταδοποίησης είναι οι ακόλουθες:

1. Centroids-based Clustering (Partitioning methods)
2. Connectivity-based Clustering (Hierarchical clustering)
3. Density-based Clustering (Model-based methods)
4. Fuzzy Clustering
5. Distribution-based Clustering
6. Competitive (SOM)


# Centroids-based Clustering

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Στη μη επιβλεπόμενη μάθηση δεν έχουμε κάποιο σύνολο δεδομένων εκπαίδευσης στο οποίο να γνωρίζουμε εκ των προτέρων σε ποια κατηγορία ανήκει το κάθε παράδειγμα. **Δεν γνωρίζουμε καν σε πόσες διαφορετικές κατηγορίες ανήκουν τα δεδομένα μας!**

Θα ξεκινήσουμε με ένα εύκολο παράδειγμα, του οποίου τα δεδομένα μπορούμε και με το μάτι εύκολα να χωρίσουμε σε 2 κατηγορίες. Θα βάλουμε $Ν=100$ σημεία στο χώρο, 50 απ' τα οποία θα ανήκουν σε κάθε κατηγορία. Σκοπός μας είναι να υλοποιήσουμε έναν αλγόριθμο ο οποίος θα μπορεί από μόνος του να χωρίζει τα δεδομένα αυτά σε κατηγορίες. 

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

np.random.seed(55) # για να αναπαράγονται τα αποτελέσματα...

p1 = np.random.rand(50,2) * 10 + 1 # 100 τυχαίοι αριθμοί από ομοιόμορφη κατανομή στο διάστημα [1,11), αποθηκευμένοι σε πίνακα διαστάσεων 50x2.
p2 = np.random.rand(50,2) * 10 + 12 # 100 τυχαίοι αριθμοί από ομοιόμορφη κατανομή στο διάστημα [12,22), αποθηκευμένοι σε πίνακα διαστάσεων 50x2.

points = np.concatenate([p1, p2]) # ενώνουμε τους αριθμούς σε έναν ενιαίο πίνακα διαστάσεων 100x2
 # η πρώτη στήλη του πίνακα αντιστοιχεί στη συντεταγμένη x ενώ η δεύτερη στην y
 # δηλαδή η 30η γραμμή του πίνακα αντιπροσωπεύει τις 2 συντεταγμένες του 30ου παραδείγματος 

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1]) # για να σχεδιάσουμε τη γραφική παράσταση διακριτών σημείων χρησιμοποιούμε την scatter
 # τα 2 της ορίσματα είναι οι συντεταγμένες x και y όλων των σημείων


## Συσταδοποίηση $k$-μέσων

Ο πιο απλός αλγόριθμος συσταδοποίησης είναι ο αλγόριθμος **[$k$-μέσων](https://en.wikipedia.org/wiki/K-means_clustering)** ($k$-means), ο οποίος θα δούμε βήμα βήμα πώς δουλεύει.

Η λειτουργία του αλγορίθμου είναι απλή. Ορίζουμε πρώτα τον πλήθος των συστάδων($k$) στις οποίες θέλουμε να χωρίσει ο αλγόριθμος τα δεδομένα μας. Η λογική του αλγορίθμου είναι ότι χωρίζει συστάδες με βάση σημεία στο χώρο, τα οποία αναπαριστούν τα κέντρα των ομάδων αυτών. Τα κέντρα αρχικοποιούνται τυχαία. Έπειτα ελέγχουμε την απόσταση του κάθε δείγματος του σύνολου δεδομένων μας από το κάθε κέντρο. Το κέντρο το οποίο είναι πιο κοντά στο σημείο είναι και αυτό στου οποίου την συστάδα θεωρούμε ότι ανήκει. Τη διαδικασία αυτή την ονομάζουμε *ανάθεση* (assignment). Τέλος, για κάθε συστάδα, υπολογίζουμε το μέσο όρο όλων των σημείων της και μετακινούμε το κέντρο στο σημείο αυτό. Τη διαδικασία αυτή την ονομάζουμε *ενημέρωση* (update). Η ανάθεση των σημείων και η ενημέρωση των κέντρων επαναλαμβάνεται έως ότου έρθει σε σύγκλιση ο αλγόριθμος.

![](http://stanford.edu/~cpiech/cs221/img/kmeansViz.png)

Στο παραπάνω σχήμα:

- (α): Δεδομένα εισόδου
- (β): Τυχαία αρχικοποίηση κέντρων
- (γ): Πρώτη ανάθεση σημείων σε συστάδες
- (δ): Πρώτη ενημέρωση κέντρων
- (ε): Δεύτερη ανάθεση
- (στ): Δεύτερη ενημέρωση

Μπορούμε να δούμε ολόκληρη τη διαδικασία της εκπαίδευσης και στο παρακάτω σχήμα.

![](https://www.projectrhea.org/rhea/images/e/ef/RunyanKmeans.gif)

Η μόνη παράμετρος που χρειάζεται ο αλγόριθμος αυτός για να δουλέψει είναι το $k$, δηλαδή το πλήθος των συστάδων στις οποίες θέλουμε να κατανείμει τα δεδομένα. Μόλις δώσουμε στον αλγόριθμο το $k$, αυτός δημιουργεί $k$ τυχαία σημεία στο χώρο, που αναπαριστούν τα κέντρα των συστάδων.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

k = 2 # υπερπαράμετρος του k-means --> ο αριθμός των συστάδων που θα ψάξει να βρει ο αλγόριθμος

np.random.seed(55)
centroids = np.random.rand(k,2) * 22 # ΒΗΜΑ 1: φτιάχνει τυχαία 2 σημεία στο ίδιο διάστημα που βρίσκονται και τα δεδομένα μας

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1]) # τυπώνουμε τα σημεία με μπλε (default)
plt.scatter(centroids[:,0], centroids[:,1], color='r', s=50) # και τα 2 κέντρα με κόκκινο χρώμα και μεγαλύτερο μέγεθος
axes_scaling = plt.axis('equal') # o λόγος των δύο αξόνων να είναι 1 https://matplotlib.org/gallery/subplots_axes_and_figures/axis_equal_demo.html

Για να μπορέσουμε να συνεχίσουμε, χρειαζόμαστε έναν τρόπο να υπολογίζουμε πόσο κοντά είναι το ένα σημείο στο άλλο. Το μέτρο που θα χρησιμοποιήσουμε για το σκοπό αυτό είναι η [Ευκλείδεια απόσταση](https://en.wikipedia.org/wiki/Euclidean_distance). Για τις 2 διαστάσεις η απόσταση 2 σημείων $a$ και $b$ υπολογίζεται ως:

$$
d \left( a, b \right) = \sqrt{ \left( a_x - b_x \right)^2 + \left( a_y - b_y \right)^2}
$$

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

def euclidean_distance(point1, point2):
 # υλοποίηση της Ευκλείδειας απόστασης από τον παραπάνω τύπο
 # δέχεται 2 σημεία (που το καθένα έχει 2 συντεταγμένες) και επιστρέφει την απόσταση
 return np.sqrt( (point1[0] - point2[0])**2 + (point1[1] - point2[1])**2 )

print('the distance from (5,2) to (2,5) is:', euclidean_distance((5,2), (2,5)))
print('the distance from (3,3) to (3,3) is:', euclidean_distance((3,3), (3,3)))
print('the distance from (1,12) to (12,15) is:', euclidean_distance((1,12), (12,15)))

Αντί της παραπάνω συνάρτησης θα μπορούσαμε εναλλακτικά να χρησιμοποιήσουμε τη μέθοδο [pdist](https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.spatial.distance.pdist.html) από τη βιβλιοθήκη *scipy.spatial.distance*.

Το δεύτερο βήμα του αλγορίθμου είναι να υπολογίσει για κάθε σημείο πόσο απέχει από κάθε κέντρο. Για τον υπολογισμό αυτό θα χρησιμοποιήσουμε τη βοηθητική συνάρτηση που ορίσαμε παραπάνω.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

def calc_distances(centroids, points):
 # δέχεται δύο σύνολα σημείων, το πρώτο είναι το σύνολο των κέντρων των συστάδων
 # ενώ το δεύτερο είναι το σύνολο των σημείων που θέλουμε να ομαδοποιήσουμε
 distances = np.zeros((len(centroids), len(points))) # φτιάχνουμε έναν πίνακα (διαστάσεων (k x N)) που θα αποθηκεύσει τις αποστάσεις.
 for i in range(len(centroids)):
 for j in range(len(points)):
 distances[i,j] = euclidean_distance(centroids[i], points[j])
 return distances
 # Το παραπάνω μπορεί να γραφτεί ως εξής:
 # return np.reshape(np.array([euclidean_distance(centroids[i], points[j]) for i in range(len(centroids)) for j in range(len(points))]), (len(centroids), len(points)))
 

print('first 10 distances from the first centroid:')
print(calc_distances(centroids, points)[0, :10])
print('...')

Έπειτα, χρησιμοποιεί τις αποστάσεις αυτές για να δει σε ποια συστάδα ανήκει το κάθε σημείο (δηλ. σε ποιο κέντρο βρίσκεται πιο κοντά).

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

def assign_cluster(centroids, points):
 distances = calc_distances(centroids, points)
 return np.argmin(distances, axis=0)

print('which cluster does each point belong to?')
print(assign_cluster(centroids, points))

Επειδή έχουμε $k=2$ ο διαχωρισμός των 2 συστάδων γίνεται γεωμετρικά από τη μεσοκάθετο. Τις γραμμές (ή επίπεδα σε χώρους μεγαλύτερων διαστάσεων) που χωρίζουν τις ομάδες τις αποκαλούμε [*όρια αποφάσεων*](https://en.wikipedia.org/wiki/Decision_boundary) (decision boundaries). Για λόγους εξοικείωσης με τη matplotlib θα προσπαθήσουμε να σχεδιάσουμε τις ομάδες και τη μεσοκάθετο.

Όσον αφορά την επιλογή των χρωμάτων, η matplotlib έχει δώσει σε αρκετά χρώματα [ονόματα](https://matplotlib.org/examples/color/named_colors.html) με τα οποία μπορούμε να τα καλέσουμε. Αυτός είναι και ο πιο εύκολος τρόπος να διαλέξουμε χρώμα. Δίνει βέβαια τη δυνατότητα να [δημιουργήσουμε](https://matplotlib.org/api/colors_api.html) και δικά μας (π.χ. αν γνωρίζουμε τις RGB ή HSV τιμές του χρώματος).


In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

# Αρχικά θα υπολογίσουμε τη συνάρτηση της μεσοκαθέτου
def generate_perp_bisector(centroids):
 midpoint = ((centroids[0,0]+centroids[1,0])/2, (centroids[0,1]+centroids[1,1])/2) # το μέσο των 2 κέντρων
 slope = (centroids[1,1]-centroids[0,1]) / (centroids[1,0]-centroids[0,0]) # η κλίση της ευθείας που ενώνει τα 2 κέντρα
 perpendicular = -1/slope # η κάθετος στην κλίση αυτή
 #perpendicular = slope
 return lambda x: perpendicular*(x-midpoint[0]) + midpoint[1] # η συνάρτηση της μεσοκαθέτου
 #lambda είναι μια ανώνυμη συνάρτηση δλδ lambda argument: manipulate(argument)


perp_bisector = generate_perp_bisector(centroids)
 
# Φτιάχνουμε μια απεικόνιση με το τι χρώμα θέλουμε να έχει η κάθε ομάδα και κάνουμε την αντιστοίχιση
map_colors = {0:'orange', 1:'deepskyblue'}
colors = [map_colors[i] for i in assign_cluster(centroids, points)]

# Δίνουμε στην scatter το όρισμα c, το οποίο περιέχει μια λίστα με το χρώμα του κάθε σημείου
plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points') # η παράμετρος lw=0 ορίζει ότι δεν θέλουμε πλαίσιο γύρω από τα σημεία αυτά
plt.scatter(centroids[:,0], centroids[:,1], c=['orange', 'deepskyblue'], s=80, label='centroids') # την παράμετρο label θα την χρησιμοποιήσει η λεζάντα

# Τυπώνουμε και με την plot το decision boundary μας με μωβ χρώμα
plt.plot(range(25), [perp_bisector(x) for x in range(25)], c='purple', label='decision boundary')

# Ορίζουμε τα πλαίσια της γραφικής για κάθε άξονα
plt.xlim([0,22])
plt.ylim([1,23])

# Σβήνουμε την αρίθμηση και τα σημεία από τους άξονες
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)

# Βάζουμε τίτλους στους άξονες και στο κείμενο
plt.xlabel('x')
plt.ylabel('y')
plt.title('KMeans: Random Centroid Initialization')

# Ορίζουμε την τοποθεσία της λεζάντας μας. Τα ονόματα τα πήρε από τα label των αντικειμένων παραπάνω
plt.legend(loc='lower right')
axes_scaling = plt.axis('equal')

Το τρίτο βήμα είναι να πάρει όλα σημεία της κάθε ομάδας, να υπολογίσει τη μέση τιμή τους και να τοποθετήσει το αντίστοιχο κέντρο στη θέση που αντιστοιχεί στη μέση τιμή αυτή.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

def update_centers(centroids, points):
 clusters = assign_cluster(centroids, points) # τρέχει πρώτα τη διαδικασία της ανάθεσης για να δει σε ποια συστάδα ανήκει το κάθε παράδειγμα
 new_centroids = np.zeros(centroids.shape) # πίνακας που θα αποθηκευτούν οι νέες θέσεις των κέντρων
 for i in range(len(centroids)):
 cluster_points_idx = [j for j in range(len(clusters)) if clusters[j] == i] # βρίσκει τις θέσεις των σημείων που αντιστοιχούν στην i-οστή συστάδα
 if cluster_points_idx: # αν υπάρχουν σημεία που έχουν ανατεθεί στο κέντρο, αυτό ενημερώνεται
 cluster_points = points[cluster_points_idx] # παίρνουμε το slice των αντίστοιχων θέσεων
 new_centroids[i, 1] = cluster_points[:,1].sum() / len(cluster_points) # υπολογίζουμε τη νέα θέση των κέντρων
 new_centroids[i, 0] = cluster_points[:,0].sum() / len(cluster_points)
 else: # αλλιώς κρατάμε την παλιά του θέση
 new_centroids[i, :] = centroids[i, :]
 return new_centroids


# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

# Υπολογίζουμε τις νέες θέσεις των κέντρων και με βάση αυτές το νέο όριο απόφασης και τις νέες αναθέσεις
new_centroids = update_centers(centroids, points)
new_boundary = generate_perp_bisector(new_centroids)
new_colors = [map_colors[i] for i in assign_cluster(new_centroids, points)]

# Όπως είδαμε πριν δημιουργούμε τη γραφική παράσταση μετά την ενημέρωση των κέντρων
plt.scatter(points[:,0], points[:,1], c=new_colors, lw=0, s=30, label='data points')
plt.scatter(centroids[:,0], centroids[:,1], c=['orange', 'deepskyblue'], s=80, alpha=0.3, label='old centroids') # παλιά κέντρα
plt.scatter(new_centroids[:,0], new_centroids[:,1], c=['orange', 'deepskyblue'], s=80, label='new centroids')# νέα κέντρα
plt.plot(range(25), [new_boundary(x) for x in range(25)], c='purple', label='new boundary') # νέο όριο απόφασης
plt.plot(range(25), [perp_bisector(x) for x in range(25)], c='black', label='old boundary', alpha=0.3) # παλιό όριο απόφασης
plt.xlim([0,22])
plt.ylim([1,23])
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.title('KMeans: Boundary changes after first centroid update')
plt.legend(loc='lower right')
axes_scaling = plt.axis('equal')

# Σχεδιάζουμε και τα βελάκια που θα δούμε παρακάτω στο σχήμα
for i in range(k):
 plt.arrow(centroids[i,0], centroids[i,1], new_centroids[i,0]-centroids[i,0], new_centroids[i,1]-centroids[i,1],
 length_includes_head=True, head_width=0.5, color='black')

Τα βήματα 2 και 3 επαναλαμβάνονται μέχρι να μη μετακινούνται άλλο τα κέντρα. Ένα πολύ ωραίο visual example να δοκιμάσετε τον αλγόριθμο σε διάφορους τύπους δεδομένων και με διάφορες αρχικές συνθήκες θα βρείτε [εδώ](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/).

Για λόγους διευκόλυνσής μας θα γράψουμε τον αλγόριθμο αυτό σε μορφή κλάσης. Η κλάση αυτή θα αρχικοποιείται μόνο με την παράμετρο $k$, Θα έχει μια μέθοδο που θα ονομάσουμε `.fit()` η οποία θα δέχεται τα σημεία που θέλουμε να ομαδοποιήσουμε και θα εκπαιδεύει τον αλγόριθμο έως ότου έρθει σε σύγκλιση. Επίσης θα έχει μια μέθοδο `.predict()` η οποία θα δέχεται ένα ή περισσότερα σημεία και θα επιστρέφει σε ποια κλάση ανήκουν τα σημεία αυτά. 

In [None]:
class KMeans:
 
 def __init__(self, k, term_distance=0.05, max_steps=50, seed=None):
 # Constructor της κλάσης, δέχεται τις παραμέτρους και αρχικοποιεί το αντικείμενο
 self.k = k
 self.seed = seed
 self.history = [] 
 # Συνθήκες τερματισμού:
 self.term_distance = term_distance # ελάχιστη επιτρεπτή απόσταση μετακίνησης των κέντρων
 self.max_steps = max_steps # μέγιστος επιτρεπτός αριθμός εποχών
 
 def initialize(self, data):
 # Βάζει k σημεία σε τυχαίες θέσεις στο χώρο που ορίζουν τα σημεία μας
 np.random.seed(self.seed)
 self.centroids = np.random.rand(self.k,2) * data.max()
 self.history = [self.centroids] # κρατάει ιστορικό με τις παλιές θέσεις των κέντρων
 
 def calc_distances(self, points):
 # Υπολογίζει τις αποστάσεις των σημείων points από τα κέντρα
 distances = np.zeros((len(self.centroids), len(points)))
 for i in range(len(self.centroids)):
 for j in range(len(points)):
 distances[i,j] = self.euclidean_distance(self.centroids[i], points[j])
 return distances
 
 def assign_cluster(self, points):
 # Συγκρίνει τις αποστάσεις των σημείων points από τα κέντρα και πραγματοποιεί την ανάθεση
 distances = self.calc_distances(points)
 return np.argmin(distances, axis=0)

 def update_centers(self, points):
 # Υπολογίζει τις νέες θέσεις των κέντρων
 clusters = self.assign_cluster(points)
 new_centroids = np.zeros(self.centroids.shape)
 for i in range(len(self.centroids)):
 cluster_points_idx = [j for j in range(len(clusters)) if clusters[j] == i]
 if cluster_points_idx:
 cluster_points = points[cluster_points_idx]
 new_centroids[i, 1] = cluster_points[:,1].sum() / len(cluster_points)
 new_centroids[i, 0] = cluster_points[:,0].sum() / len(cluster_points)
 else:
 new_centroids[i, :] = centroids[i, :]
 return new_centroids
 
 def fit(self, data):
 # Πραγματοποιεί όλη τη διαδικασία της εκπαίδευσης:
 # 1) αρχικοποιεί τα κέντρα με την initialize
 # 2, 3) υπολογίζει τις αποστάσεις και ενημερώνει τα κέντρα με την update_clusters
 # Επαναλαμβάνει τα βήματα 2 και 3 έως ότου ικανοποιηθεί η συνθήκη τερματισμού
 self.initialize(data)
 self.previous_positions = [self.centroids]
 step = 0
 cluster_movement = [self.term_distance + 1] * self.k
 while any([x > self.term_distance for x in cluster_movement]) and step < self.max_steps:
 new_centroids = self.update_centers(data)
 self.history.append(new_centroids)
 cluster_movement = [self.euclidean_distance(new_centroids[i,:], self.centroids[i,:]) for i in range(self.k)]
 self.centroids = new_centroids
 self.previous_positions.append(self.centroids)
 step += 1
 
 def predict(self, points):
 # Ελέγχει αν το points είναι πίνακας με πολλά σημεία ή οι συντεταγμένες ενός σημείου και πραγματοποιεί την ανάθεση 
 if isinstance(points, np.ndarray):
 if len(points.shape) == 2:
 return [np.argmin([self.euclidean_distance(point, centroid) for centroid in self.centroids]) for point in points]
 return np.argmin([self.euclidean_distance(points, self.centroids[i]) for i in range(self.k)])
 
 
 def fit_predict(self, points):
 # Τρέχει την fit και επιστρέφει τα assignments
 self.fit(points)
 return self.predict(points)
 
 @staticmethod
 def euclidean_distance(point1, point2):
 # Υπολογίζει την Ευκλείδεια απόσταση μεταξύ 2 σημείων
 return np.sqrt( (point1[0] - point2[0])**2 + (point1[1] - point2[1])**2 )

Στην αρχή για να δούμε αν δουλεύει σωστά θα τρέξουμε μερικές επαναλήψεις μόνοι μας (χωρίς να κάνουμε χρήση της `.fit()`. Πρώτα αρχικοποιούμε τα $k$ κέντρα των ομάδων.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

km = KMeans(2, seed=13)
km.initialize(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

colors = [map_colors[i] for i in km.predict(points)]
decision_boundary = generate_perp_bisector(km.centroids)

plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(km.centroids[:,0], km.centroids[:,1], c=['orange', 'deepskyblue'], s=80, label='centroids')
plt.plot(range(25), [decision_boundary(x) for x in range(25)], c='purple', label='decision boundary')
plt.xlim([0,22])
plt.ylim([1,23])
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.legend(loc='upper left')
plt.title('KMeans: Boundary after initialization')
axes_scaling = plt.axis('equal')

Και στη συνέχεια τρέχουμε μια επανάληψη και ενημερώνουμε τα κέντρα.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

old = km.centroids
km.centroids = new = km.update_centers(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

colors = [map_colors[i] for i in km.predict(points)]
decision_boundary_new = generate_perp_bisector(new)

plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(old[:,0], old[:,1], c=['orange', 'deepskyblue'], s=80, label='old centroids', alpha=0.3)
plt.scatter(new[:,0], new[:,1], c=['orange', 'deepskyblue'], s=80, label='new centroids')
plt.plot(range(25), [decision_boundary(x) for x in range(25)], c='black', label='old boundary', alpha=0.3)
plt.plot(range(25), [decision_boundary_new(x) for x in range(25)], c='purple', label='new boundary')
plt.xlim([0,22])
plt.ylim([1,23])
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.legend(loc='upper left')
plt.title('KMeans: Boundary changes after first centroid update')
axes_scaling = plt.axis('equal')

for i in range(km.k):
 plt.arrow(old[i,0], old[i,1], new[i,0]-old[i,0], new[i,1]-old[i,1], length_includes_head=True, head_width=0.5, color='black')
 

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

old = km.centroids
new = km.update_centers(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

decision_boundary = decision_boundary_new
colors = [map_colors[i] for i in km.predict(points)]
decision_boundary_new = generate_perp_bisector(new)

plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(old[:,0], old[:,1], c=['orange', 'deepskyblue'], s=80, label='old centroids', alpha=0.3)
plt.scatter(new[:,0], new[:,1], c=['orange', 'deepskyblue'], s=80, label='new centroids')
plt.plot(range(25), [decision_boundary(x) for x in range(25)], c='black', label='old boundary', alpha=0.3)
plt.plot(range(25), [decision_boundary_new(x) for x in range(25)], c='purple', label='new boundary')
plt.xlim([0,22])
plt.ylim([1,23])
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.legend(loc='upper left')
plt.title('KMeans: Boundary changes after second centroid update') 
axes_scaling = plt.axis('equal')

for i in range(km.k):
 plt.arrow(old[i,0], old[i,1], new[i,0]-old[i,0], new[i,1]-old[i,1], length_includes_head=True, head_width=0.3, color='black')

Τώρα που βλέπουμε ότι δουλεύει, μπορούμε να δοκιμάσουμε και τη μέθοδο `.fit()` η οποία αναλαμβάνει όλη τη διαδικασία εκπαίδευσης για όσες επαναλήψεις χρειαστεί.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

km = KMeans(2, seed=44)
km.fit(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

colors = [map_colors[i] for i in km.predict(points)]
decision_boundary = generate_perp_bisector(km.centroids)

plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(new[:,0], new[:,1], c=['orange', 'deepskyblue'], s=80, label='new centroids')
plt.plot(range(25), [decision_boundary_new(x) for x in range(25)], c='purple', label='new boundary')
plt.xlim([0,22])
plt.ylim([1,23])
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.legend(loc='upper left')
plt.title('KMeans: Complete training')
axes_scaling = plt.axis('equal')

# Χρησιμοποιούμε την km.history για να δούμε και να σχεδιάσουμε τις προηγούμενες θέσεις των κέντρων
steps = len(km.history)
for s in range(steps-2): # την τελευταία θέση (όπου s==steps-1) τη σχεδιάσαμε παραπάνω, την προ-τελευταία την αγνοούμε για 2 λόγους:
 # 1) για να τερμάτισε σημαίνει ότι έχει μηδαμινή κίνηση από την τελευταία και
 # 2) γιατί τα arrow πρέπει να είναι κατά 1 λιγότερα από τα σημεία
 plt.scatter(km.history[s][:,0], km.history[s][:,1], c=['orange', 'deepskyblue'], s=80, label='old centroids', alpha=1.0/(steps-s))

 for i in range(km.k):
 plt.arrow(km.history[s][i,0], km.history[s][i,1], km.history[s+1][i,0]-km.history[s][i,0], km.history[s+1][i,1]-km.history[s][i,1], length_includes_head=True, head_width=0.3, color='black', alpha=1.0/(steps-s))

Μόλις έχει εκπαιδευτεί το σύστημα, μπορούμε να χρησιμοποιήσουμε και την `.predict()` για να δούμε σε ποια ομάδα ανήκει το κάθε σημείο.

In [None]:
print(' (0,0) belongs to cluster:', km.predict((0,0)))
print(' (5,5) belongs to cluster:', km.predict((5,5)))
print('(10,10) belongs to cluster:', km.predict((10,10)))
print('(15,15) belongs to cluster:', km.predict((15,15)))
print('(20,20) belongs to cluster:', km.predict((20,20)))
print('(25,25) belongs to cluster:', km.predict([25,25]))

Τι θα γίνει όμως αν βάλουμε μεγαλύτερο $k$ από αυτό που χρειάζεται;

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

km = KMeans(5, seed=13)
km.fit(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

# Ως colors μπορούμε για ευκολία να βάλουμε και τα index των αναθέσων αντί για μία λίστα με χρώματα όπως προηγουμένως
plt.scatter(points[:,0], points[:,1], c=km.predict(points), s=30, lw=0)
plt.scatter(km.centroids[:,0], km.centroids[:,1], c=range(5), s=80)
axes_scaling = plt.axis('equal')

Ή αν έχουμε κάποιο πιο πολύπλοκο πρόβλημα όπου δεν ξέρουμε τι $k$ να χρησιμοποιήσουμε;

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

np.random.seed(77)

# Θα φτιάξουμε 4 συστάδες από 50 σημεία με κέντρα τις θέσεις (7,7), (7,17), (17,7) και (17,17)
# Θα δημιουργήσουμε τα σημεία, όμως, με πολύ μεγάλη διασπορά ώστε να μην φαίνονται οι ομάδες
# με το μάτι

lowb, highb, var = 2, 12, 10

p1 = np.random.rand(50,2) * var + lowb
p2 = np.random.rand(50,2) * var + highb

a = np.array([highb]*50)
b = np.array([lowb]*50)
c = np.zeros((50,2))
c[:,0], c[:,1] = a, b
p3 = np.random.rand(50,2) * var + c
c[:,1], c[:,0] = a, b
p4 = np.random.rand(50,2) * var + c

points = np.concatenate([p1, p2, p3, p4])

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1])
axes_scaling = plt.axis('equal')

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

k = 5
km = KMeans(k, seed=77)
km.fit(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1], c=km.predict(points), lw=0, s=30)
plt.scatter(km.centroids[:,0], km.centroids[:,1], c=range(k), s=80)
axes_scaling = plt.axis('equal')

In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

# Δημιουργούμε 4 subplots πάνω στο ίδιο διάγραμμα
f, ax = plt.subplots(2, 2)
seed = 55

# k = 2
km = KMeans(2, seed=seed)
ax[0, 0].scatter(points[:,0], points[:,1], c=km.fit_predict(points), lw=0)
ax[0, 0].set_title('k = 2')
ax[0, 0].set_aspect('equal')

# k = 3
km = KMeans(3, seed=seed)
ax[0, 1].scatter(points[:,0], points[:,1], c=km.fit_predict(points), lw=0)
ax[0, 1].set_title('k = 3')
ax[0, 1].set_aspect('equal')

# k = 4
km = KMeans(4, seed=seed)
ax[1, 0].scatter(points[:,0], points[:,1], c=km.fit_predict(points), lw=0)
ax[1, 0].set_title('k = 4')
ax[1, 0].set_aspect('equal')

# k = 5
km = KMeans(5, seed=seed)
ax[1, 1].scatter(points[:,0], points[:,1], c=km.fit_predict(points), lw=0)
ax[1, 1].set_title('k = 5')
ax[1, 1].set_aspect('equal')

### Υπερπαράμετρος $k$



Παρατηρούμε ότι ο αλγόριθμος kMeans έχει μια βασική υπερπαράμετρο που είναι το $k$. Προκειμένου να διαλέξουμε το βέλτισο $k$ χρειαζόμαστε κάποιον τρόπο να μπορούμε να αξιολογούμε την ποιότητα των clustering που προκύπτουν για $k=1,2,3,...$.

Οι μετρικές που χρησιμοποιούμε στην επιβλεπόμενη μάθηση για την αξιολόγηση ενός αλγορίθμου (accuracy, confusion matrix, f1-score) χρειάζονται ετικέτες για να υπολογιστούν. Πώς μπορούμε, λοιπόν, να αξιολογήσουμε την επίδοση ενός αλγορίθμου συσταδοποίησης;

Ένα απλό μέτρο που μπορούμε να σκεφτούμε είναι να συγκρίνουμε για κάθε συστάδα τη διασπορά των παραδειγμάτων της συγκεκριμένης συστάδας.

Για τη συστάδα $C$ το παραπάνω μπορεί να υπολογιστεί ως εξής:

$$
I_C = \sum_{i \in C}{(x_i - \bar{x}_C)^2}
$$

όπου $x_i$ ένα παράδειγμα που ανήκει στη συστάδα $C$ με κέντρο $\bar{x}_C$.

Όσο πιο μικρό το μέτρο αυτό, τόσο μικρότερη διασπορά έχει η αντίστοιχη συστάδα, πράγμα επιθυμητό καθώς σημαίνει ότι είναι πιο "συμπαγής". Μετρικές σαν αυτή τις ονομάζουμε **inertia** (αδράνεια). Για να υπολογίσω τη συνολική αδράνεια, απλά προσθέτω τις διασπορές για όλα τα cluster.

$$
Ι = \sum_{C = 1}^k{I_C}
$$

Πολλές φορές το σταθμίζουμε και με τη συνολική διασπορά στο σύνολο δεδομένων. Ας δούμε ένα αντίστοιχο παράδειγμα με το προηγούμενο, χρησιμοποιώντας την υλοποίηση του [KMeans](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) από το scikit-klearn...

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

from sklearn.cluster import KMeans

k = 5
km = KMeans(k, random_state=99)
km.fit(points)

print(km.inertia_)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1], c=km.predict(points), lw=0, s=30)
plt.scatter(km.cluster_centers_[:,0], km.cluster_centers_[:,1], c=range(km.n_clusters), s=80)
axes_scaling = plt.axis('equal')

Όσο μικρότερη η αδράνεια, τόσο καλύτερο clustering έχει γίνει. Προφανώς θέλουμε να **ελαχιστοποιήσουμε** το κριτήριο αυτό. Ας τρέξουμε λοιπόν τον $k$-means για $k$ από 1 μέχρι 100 να δούμε σε ποια τιμή ελαχιστοποιείται ο δείκτης αυτός.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

cluster_scores = []
for k in range(1, 101):
 km = KMeans(k, random_state=77)
 km.fit(points)
 cluster_scores.append(km.inertia_)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.plot(range(1, 101), cluster_scores)

Παρατηρούμε ότι η αδράνεια μικραίνει όσο μεγαλώνει το $k$, και φτάνει στο 0 όταν $k=N$, όπου $N$ το πλήθος των παραδειγμάτων μας. Το να ορίσουμε μια συστάδα για κάθε δείγμα είναι τετριμμένη λύση, γιατί δεν μας βοηθάει να εξηγήσουμε τα δεδομένα και να εξάγουμε γνώση από αυτά, που είναι ο στόχος στην μη-επιβλεπόμενη μάθηση.

Άρα δεν μπορεί να μας βοηθήσει το κριτήριο αυτό για τον υπολογισμό του βέλτιστου $k$.

Ένα **εμπειρικό** κριτήριο που μπορεί να βοηθήσει είναι αυτό που αποκαλούμε [μέθοδο του "αγκώνα"](https://en.wikipedia.org/wiki/Elbow_method_(clustering)) (elbow). Κοιτάμε δηλαδή στη γραφική παράσταση της αδράνειας ή της διασποράς ως προς το $k$, σε ποιο σημείο σχηματίζει έναν "αγκώνα" η γραφική. Αυτό υπολογίζεται κοιτάζοντας και τη δεύτερη παράγωγο της αντίστοιχης γραφικής.



In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.plot(range(2,8), cluster_scores[2:8])
plt.annotate("elbow", xy=(3, cluster_scores[3]), xytext=(5, 4500),arrowprops=dict(arrowstyle="->"))
plt.annotate("elbow", xy=(5, cluster_scores[5]), xytext=(5, 4500),arrowprops=dict(arrowstyle="->"))
plt.annotate("elbow", xy=(6, cluster_scores[6]), xytext=(5, 4500),arrowprops=dict(arrowstyle="->"))

Δηλαδή στη συγκεκριμένη περίπτωση θα ήταν $k=3$, $k=5$ ή $k=6$.

Το κριτήριο που χρησιμοποιήσαμε για την εύρεση του βέλτιστου $k$ μας φέρνει στη γενικότερη συζήτηση σχετικά με την αξιολόγηση της όποιας συσταδοποίησης.

# Αξιολόγηση Συσταδοποίησης

Όταν διενεργούμε συσταδοποίηση θέλουμε να επιτύχουμε τα δύο ακόλουθα#

* Συνοχή εντός του κάθε cluster (intra-cluster cohesion). Θέλουμε τα σημεία να απέχουν όσο γίνεται λιγότερο από τον κεντροειδή του cluster. Συνήθως χρησιμοποιούμε κάποια μετρική του τύπου αθροίσματος τετραγώνων (SSE) που θέλουμε να ελαχιστοποιήσουμε.

* Διαχωρισμός μεταξύ διαφορετικών clusters (inter-cluster separation). Θέλουμε οι κεντροειδείς των διαφόρων clusters να είναι όσο το δυνατόν πιο μακριά μεταξύ τους.

Σημειώστε ότι το πρόβλημα της συσταδοποίησης είναι αλγοριθμικά δύσκολο. Συγκεκριμένα για τον kMeans ακόμα και για k=2 το πρόβλημα είναι NP-hard.

Yπάρχουν δύο βασικοί τρόποι [αξιολόγησης αλγορίθμων συσταδοποίησης](https://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_and_assessment): η *εξωτερική* (external) και η *εσωτερική* (internal).

### Εξωτερική Αξιολόγηση

Η εξωτερική αξιολόγηση (Extrinsic evaluation) απαιτεί την εκτέλεση του αλγορίθμου σε ένα πρόβλημα επιβλεπόμενης μάθησης (που έχουμε τις ετικέτες δλδ ποιο δείγμα ανήκει σε ποια ομάδα) και την "εξωτερική" του αξιολόγηση με βάση αυτές. Δεν αποτελεί τυπική περίπτωση συσταδοποίησης και δεν θα την εξετάσουμε περισσότερο.



### Εσωτερική Αξιολόγηση
Η Εσωτερική αξιολόγηση (Intrinsic Evaluation) απαιτεί την ανάλυση της δομής ή της ευστάθειας των παραγόμενων από τον αλγόριθμο συστάδων. Για να το πετύχουμε αυτό, χρησιμοποιούμε διάφορους δείκτες ή συντελεστές.


- [Dunn index](https://en.wikipedia.org/wiki/Dunn_index):
Ο αριθμητής του dunn index είναι ένα μέτρο της **μικρότερης απόστασης μεταξύ δυο συστάδων** (π.χ. απόσταση μεταξύ των κέντρων τους). 
Στον παρονομαστή μπαίνει ένα μέτρο του **μεγέθους της μεγαλύτερης συστάδας** (π.χ. η απόσταση μεταξύ των 2 πιο απομακρυσμένων παραδειγμάτων που ανήκουν στη συστάδα αυτή).

$$
DI= \frac{ min \left( δ \left( C_i, C_j \right) \right)}{ max \, Δ_p }
$$

όπου $C_i, C_j$ είναι δυο τυχαία κέντρα συστάδων, $δ \left( C_i, C_j \right)$ είναι ένα μέτρο της απόστασής τους και $Δ_p$ είναι ένα μέτρο της "διαμέτρου" της συστάδας $p$, όπου $p \in [0,k]$.

- [Silhouette coefficient](https://en.wikipedia.org/wiki/Silhouette_(clustering)):
$$
s \left( i \right) = \frac{b \left( i \right) -a \left( i \right) }{max \left( a \left( i \right) , b \left( i \right) \right)}
$$

Έστω $i$ ένα σημείο (point) οποιασδήποτε συστάδας. 

Το $a(i)$ είναι η μέση απόσταση του $i$ από όλα τα υπόλοιπα σημεία της συστάδας στην οποία ανήκει. Όσο μικρότερο είναι το $a(i)$, τόσο περισσότερο ομοιάζει το $i$ στα υπόλοιπα δείγματα της συστάδας.

To $b(i)$ είναι η μικρότερη μέση απόσταση του $i$ από όλα τα σημεία σε οποιαδήποτε άλλη συστάδα, στην οποία το $i$ δεν ανήκει. Η συστάδα με την μικρότερη μέση απόσταση από το $i$ θεωρείται "γειτονική" (η δεύτερη καλύτερη επιλογή ομαδοποίησης).

Μικρό $a(i)$ σημαίνει ότι η συστάδα του $i$ είναι συμπαγής ενώ μεγάλο $b(i)$ σημαίνει ότι το $i$ έχει μεγάλη απόσταση από την κοντινότερη συστάδα.

Το εύρος τιμών που μπορεί να πάρει το $s(i)$ είναι στο $[-1, 1]$. Όσο πιο μεγάλο, τόσο πιο ξεκάθαρες οι συστάδες μεταξύ τους. Για να είναι το $s(i) \approx 1$, πρέπει το $b(i) >> a(i)$.

Για να αξιολογήσουμε τον αλγόριθμό μας συνήθως παίρνουμε το μέσο όρο των $s(i)$ για όλα τα $i$.



In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

from sklearn.metrics import silhouette_score

silhouette_scores = []
for k in range(2, 100):
 km = KMeans(k, random_state=77)
 km.fit(points)
 preds = km.predict(points)
 silhouette_scores.append(silhouette_score(points, preds))

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.plot(range(2, 100), silhouette_scores)
best_k = np.argmax(silhouette_scores) + 2 # +2 γιατί ξεκινάμε το range() από k=2 και όχι από 0 που ξεκινάει η αρίθμηση της λίστας
plt.scatter(best_k, silhouette_scores[best_k-2], color='r') # για τον ίδιο λόγο το καλύτερο k είναι αυτό 2 θέσεις παρακάτω από το index της λίστας
plt.xlim([2,100])
plt.annotate("best k", xy=(best_k, silhouette_scores[best_k-2]), xytext=(50, 0.39),arrowprops=dict(arrowstyle="->")) # annotation
print('Maximum average silhouette score for k =', best_k)

Το αποτέλεσμα του clustering για $k=61$ φαίνεται στο παρακάτω σχήμα.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

preds = KMeans(best_k, random_state=77).fit_predict(points)

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1], c=preds, lw=0)
axes_scaling = plt.axis('equal')

Το αποτέλεσμα αυτό μπορεί να μην είναι επιθυμητό λόγω του μεγάλου αριθμού των cluster που δεν μας βοηθά να κατανοήσουμε τα δεδομένα. Αυτό που κάνουμε πρακτικά είναι να ορίσουμε ένα μέγιστο $k$ και να ψάξουμε το μέγιστο silhouette score μέχρι αυτό το μέγιστο $k$. Εδώ για παράδειγμα θέτουμε μέγιστο 10 ομάδες:

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

good_k = np.argmax(silhouette_scores[:10])+2

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.scatter(points[:,0], points[:,1], c=KMeans(good_k, random_state=77).fit_predict(points), lw=0)
axes_scaling = plt.axis('equal')
print('A good value for k is: k =', good_k)

Αν θέλουμε να δούμε και το $k$ αυτό σε σχέση με το βέλτιστο:

In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

plt.plot(range(2, 100), silhouette_scores)
best_k = np.argmax(silhouette_scores)+2
plt.scatter([good_k, best_k], [silhouette_scores[good_k-2], silhouette_scores[best_k-2]], color='r')
plt.xlim([2,100])
plt.annotate("best k", xy=(best_k, silhouette_scores[best_k-2]), xytext=(50, 0.39),arrowprops=dict(arrowstyle="->"))
plt.annotate("good k", xy=(good_k, silhouette_scores[good_k-2]), xytext=(10, 0.43),arrowprops=dict(arrowstyle="->"))

Μια άλλη στρατηγική θα ήταν να ψάξουμε τα μεγαλύτερα $k$ και να δούμε από αυτά ποιο μας κάνει περισσότερο.

In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

topN = 3
plt.plot(range(2, 22), silhouette_scores[:20])
candidate_k = np.argpartition(silhouette_scores[:20], -topN)[-topN:]
plt.scatter([k+2 for k in candidate_k], [silhouette_scores[k] for k in candidate_k], color='r')
plt.xlim([2,20])
for k in candidate_k:
 plt.annotate("candidate k", xy=(k+2, silhouette_scores[k]), xytext=(6, 0.38),arrowprops=dict(arrowstyle="->"))
 print('For k = {:<2}, the average silhouette score is: {}.'.format(k+2, silhouette_scores[k]))

Το scikit-klearn διαθέτει διάφορες [μετρικές](http://scikit-learn.org/stable/modules/classes.html#clustering-metrics) για την αξιολόγηση αλγορίθμων συσταδοποίησης, οι οποίες επιτελούν εξωτερική αλλά κυρίως εσωτερική. 

Υπάρχουν μετρικές που ενώ βασίζοντα στον υπολογισμό διασποράς των συστάδων (intra-cluster variance) και των παραδειγμάτων στη συστάδα (inter-cluster variance) δεν είναι ιδιαίτερα κατάλληλες για την εύρεση του βελτιστου $k$.

Για παράδειγμα η μετρική [Calinski-Harabaz](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabaz_score.html):

$$
CH \left( x \right) = \frac{B \left( x \right) / \left( x - 1 \right) }{W \left( x \right) / \left( n - x \right)},
$$

όπου $B \left( x \right)$ μια μετρική διασποράς ανάμεσα στις συστάδες (π.χ. το άθροισμα των τετραγώνων των αποστάσεων μεταξύ των κέντρων των συστάδεων) και $W \left( x \right)$ μια μετρική διασποράς μέσα στη συστάδα (π.χ. το άθροισμα των τετραγώνων των αποστάσεων ανάμεσα στα παραδείγματα της ίδιας συστάδας), μας δίνει την ακόλουθη γραφική παράσταση για διάφορα $k$:


In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

from sklearn.metrics import calinski_harabasz_score

ch_scores = []
for k in range(2, 100):
 km = KMeans(k, random_state=77)
 km.fit(points)
 preds = km.predict(points)
 ch_scores.append(calinski_harabasz_score(points, preds))

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------
 
plt.plot(range(2, 100), ch_scores)
ch_k = np.argmax(ch_scores)+2
plt.scatter(ch_k, ch_scores[ch_k-2], color='r')
plt.xlim([2,100])
plt.annotate("best k", xy=(ch_k, ch_scores[ch_k-2]), xytext=(50, 450),arrowprops=dict(arrowstyle="->"))
print('Maximum Calinski Harabaz score for k =', ch_k)

# Επιπλέον παρατηρήσεις για τον kMeans

## Eπιλογή του k με gap statistics

Εκτός από τις μεθόδους elbow και silhouette μπορεί να χρησιμοποιηθεί και η μέθοδος [gap statistics](https://datasciencelab.wordpress.com/2013/12/27/finding-the-k-in-k-means-clustering/) (παράδειγμα σε Python)



### Αρχικοποίηση

Η σωστή αρχικοποίηση των κέντρων έχει μεγάλη σημασία για το αποτέλεσμα του αλγορίθμου. Ας δούμε ένα παράδειγμα. 

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

# Θα φτιάξουμε 3 ομάδες των 50 σημείων με κέντρα τις θέσεις (7,7), (17,7) και (17,17)
np.random.seed(77)

lowb, highb, var = 2, 12, 5

p1 = np.random.rand(50,2) * var + lowb
p2 = np.random.rand(50,2) * var + highb

a = np.array([highb]*50)
b = np.array([lowb]*50)
c = np.zeros((50,2))
c[:,0], c[:,1] = a, b
p3 = np.random.rand(50,2) * var + c

points = np.concatenate([p1, p2, p3])

# Τοποθετούμε 3 κέντρα στις θέσεις (0,20), (1,19) και (2,18)
centroids = np.array([[0,20], [1,19], [2,18]])

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

map_colors = {0:'orange', 1:'deepskyblue', 2:'orchid'}
color_list = ['orange', 'deepskyblue', 'orchid']

plt.scatter(points[:,0], points[:,1], lw=0, s=30, label='data points')
plt.scatter(centroids[:,0], centroids[:,1], c=color_list, s=80, label='centroids')
plt.xlim([-1,18])
plt.ylim([1,23])
axes_scaling = plt.axis('equal')
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.title('KMeans: Centroid Initialization')

Όπως βλέπουμε, έχουμε 3 ξεκάθαρες συστάδες και 3 κέντρα. Κανονικά θα θέλαμε να πέσει ένα κέντρο πάνω σε κάθε συστάδα. Τρέχουμε μια εποχή του αλγορίθμου να δούμε πώς θα τα πάει.

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

new_centroids = update_centers(centroids, points) 

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

colors = [map_colors[i] for i in assign_cluster(new_centroids, points)]
plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(centroids[:,0], centroids[:,1], c=color_list, s=80, label='centroids', alpha=0.5)
plt.scatter(new_centroids[:,0], new_centroids[:,1], c=color_list, s=80, label='centroids')
plt.xlim([-1,18])
plt.ylim([1,23])
axes_scaling = plt.axis('equal')
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.title('KMeans: First step')
plt.arrow(centroids[2,0], centroids[2,1], new_centroids[2,0]-centroids[2,0], new_centroids[2,1]-centroids[2,1], 
 length_includes_head=True, head_width=0.5, color='black')

Η πρώτη εποχή ενημέρωσε το ένα από τα 3 κέντρα. Ας συνεχίσουμε τη διαδικασία...

In [None]:
# ΚΩΔΙΚΑΣ:
# --------------------------------------------

centroids = new_centroids
new_centroids = update_centers(centroids, points) 

# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

colors = [map_colors[i] for i in assign_cluster(new_centroids, points)]

plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(new_centroids[:,0], new_centroids[:,1], c=color_list, s=80, label='centroids')
plt.xlim([-1,18])
plt.ylim([1,23])
axes_scaling = plt.axis('equal')
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.title('KMeans: N step')

Όσες φορές και να τρέξουμε το παραπάνω κελί, δεν θα μετακινηθούν τα κέντρα. Σχεδιάζοντας και το όριο απόφασης μπορούμε να το καταλάβουμε αυτό καλύτερα.

In [None]:
# ΣΧΕΔΙΑΣΗ:
# --------------------------------------------

decision_boundary = generate_perp_bisector(centroids[1:,:])
plt.scatter(points[:,0], points[:,1], c=colors, lw=0, s=30, label='data points')
plt.scatter(new_centroids[:,0], new_centroids[:,1], c=color_list, s=80, label='centroids')
plt.plot(range(-1,20), decision_boundary(range(-1,20)), c='black', label='decision boundary')
plt.xlim([-1,18])
plt.ylim([1,23])
axes_scaling = plt.axis('equal')
plt.tick_params(axis='both', which='both', bottom=False, left=False, top=False, right=False, labelbottom=False, labelleft=False)
plt.title('KMeans: Decision Boundary')

Επειδή όλα τα παραδείγματα έχουν ανατεθεί στο 1 από τα 3 κέντρα, τα υπόλοιπα 2 είναι αδύνατο να ενημερωθούν. Το πρόβλημα στην περίπτωση αυτή ήταν η κακή αρχικοποίηση των κέντρων. 



#### kMeans++

Η πιο γνωστή τεχνική για την αρχικοποίηση των κέντρων είναι ο [K-means++](https://en.wikipedia.org/wiki/K-means%2B%2B).

Η συγκεκριμένη τεχνική είναι και η προεπιλεγμένη στην υλοποίηση του scikit-learn. Επίσης το scikit-learn τρέχει τον αλγόριθμο 10 φορές για διαφορετικές αρχικές θέσεις και επιλέγει το αποτέλεσμα που ελαχιστοποιεί την αδράνεια. 



### Πολυπλοκότητα

Η μέση χρονική πολυπλοκότητα του αλγορίθμου $K$-μέσων εξαρτάται γραμμικά από:

- Το πλήθος των κέντρων $k$.
- Το πλήθος των παραδειγμάτων $N$.
- Το πλήθος των διαστάσεων του κάθε παραδείγματος $d$.
- Το πλήθος των εποχών που θα τρέξει μέχρι να συγκλίνει $i$.

$$
O \left( k \cdot N \cdot d \cdot i \right)
$$

Στην πράξη ο $k$-means είναι ένας από τους **γρηγορότερους** αλγορίθμους συσταδοποίησης που έχουμε. To πρόβλημά του είναι ότι κολλάει πολύ εύκολα σε **τοπικά ελάχιστα** (όπως είδαμε πριν με την κακή αρχικοποίηση).

Η αρχικοποίηση του αλγορίθμου με τη χρήση του k-means++ φέρει μια επιπλέον πολυπλοκότητα στο πρόβλημά μας, όμως επειδή βάζει τα κέντρα πιο στρατηγικά στο χώρο μπορεί να τερματίσει τον αλγόριθμο σε λιγότερες εποχές (πέρα από την καλύτερο συσταδοποίηση που επιτυγχάνει). Είναι προφανές πως αν τρέξουμε τον αλγόριθμο πολλές φορές (όπως κάνει το scikit-learn) για να επιτύχουμε τη βέλτιστη απόδοση, θα πάρει παραπάνω χρόνο.
