# k Nearest Neighbors Classifier (kNN) from scratch

Υπενθυμίζουμε τον ορισμό του kNN:

O kNN είναι ένας μη παραμετρικός ταξινομητής βασισμένος σε παραδείγματα (instance-based). Η αρχή λειτουργίας του είναι πολύ απλή. Για ένα νέο δείγμα προς ταξινόμηση, πρώτα υπολογίζουμε τους k πλησιέστερους γείτονές του (στον ν-διάστατο χώρο των χαρακτηριστικών εισόδου) με βάση κάποια συνάρτηση απόστασης, συνήθως ευκλείδεια
$$d(x, x') = \sqrt{\left(x_1 - x'_1 \right)^2 + \left(x_2 - x'_2 \right)^2 + \dotsc + \left(x_n - x'_n \right)^2}$$
Η κλάση του νέου δείγματος θα είναι η κλάση της πλειοψηφίας των k γειτόνων (διαλέγουμε k περιττό γενικά), είτε απλά υπολογισμένη (άθροισμα) είτε (αντίστροφα) ζυγισμένη με βάση την απόσταση του κάθε γείτονα. 

Για την παρούσα άσκηση θα υλοποιήσουμε το πρώτο version, το πλήθος των πλησιέστερων k για κάθε κλάση.

Θα ορίσουμε τον δικό μας ταξινομητη "myKNearestNeighbors" ως κλάση (βλ. παρακάτω κώδικα). 

Η μέθοδος fit κάνει την εκπαίδευση και είναι ολοκληρωμένη.

Υλοποιήστε (χωρίς να το ψάξετε στο internet) την επιστροφή του "predictions" στη μέθοδο "predict" έτσι ώστε ο κώδικας να λειτουργεί.

Η ορθότητά σας πρέπει να είναι πάνω από 95%.

In [None]:
#@title
import numpy as np
import operator

# function to calculate euclidean distance
def euc_dist(x1, x2):
    return np.sqrt(np.sum((x1-x2)**2))

class myKNearestNeighbors():
    
    def __init__(self, K):
        self.K = K

    def fit(self, x_train, y_train):
        self.X_train = x_train
        self.Y_train = y_train

    def predict(self, X_test):
        
        # list to store all our predictions
        predictions = []
        
        # loop over all observations
        for i in range(len(X_test)):            
            
            # calculate the distance between the test point and all other points in the training set
            dist = np.array([euc_dist(X_test[i], x_t) for x_t in self.X_train])
            
            # sort the distances and return the indices of K neighbors
            dist_sorted = dist.argsort()[:self.K]
            
            # get the neighbors
            neigh_count = {}

            # for each neighbor find the class
            for idx in dist_sorted:
                if self.Y_train[idx] in neigh_count:
                    neigh_count[self.Y_train[idx]] += 1
                else:
                    neigh_count[self.Y_train[idx]] = 1
            
            # get the most common class label 
            sorted_neigh_count = sorted(neigh_count.items(), key=operator.itemgetter(1), reverse=True)
            
            predictions.append(sorted_neigh_count[0][0])
        return predictions


import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


iris = load_iris()
data = iris.data    
target = iris.target

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=5656)

clf = myKNearestNeighbors(K=3)
clf.fit(X_train, y_train)

predictions = clf.predict(X_test)

print('Accuracy:', accuracy_score(y_test, predictions))

Accuracy: 0.9666666666666667


Πρόσθετη ερώτηση: τί γίνεται στο training;
Απάντηση: τίποτα