{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"name":"2.2 PCA.ipynb","provenance":[],"collapsed_sections":[]},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"id":"K1bVCfdJ1aKY"},"source":["# Μείωση διαστάσεων χαρακτηριστικών συνόλου δεδομένων"]},{"cell_type":"markdown","metadata":{"id":"ZEbyzYyO1fAI"},"source":["Απαιτείται μείωση των διαστάσεων όταν υπάρχουν πάρα πολλά χαρακτηριστικά σε ένα σύνολο δεδομένων, καθιστώντας δύσκολη τη διάκριση μεταξύ των σημαντικών χαρακτηριστικών που μπορεί να σχετίζονται με την έξοδο και των όχι τόσο σημαντικών χαρακτηριστικών.\n","\n","*Μειονεκτήματα από την ύπαρξη μεγάλου χώρου χαρακτηριστικών*\n","\n","* Απαιτούνται περισσότερα δεδομένα για την εξερεύνηση του πολύ ευρύτερου χώρου \n","* Μεγάλες πιθανότητες υπερεκπαίδευσης μιας και ο αλγόριθμος εκμάθησης καλείται να μάθει με χρήση περιττών χαρακτηριστικών και περισσότερου θορύβου\n","* Η απλότητα του αλγορίθμου χάνεται και παραβιάζεται η αρχή Occam’s razor\n","\n","Υπάρχουν πολλοί τρόποι για να επιτευχθεί μείωση διαστάσεων, αλλά οι περισσότερες από αυτές τις τεχνικές εμπίπτουν σε μία από τις δύο κατηγορίες: \n","\n","* Εξάλειψη χαρακτηριστικών: μείωση του χώρου των χαρακτηριστικών. Ως μειονέκτημα, οι πληροφορίες χάνονται λόγω των μειωμένων χαρακτηριστικών. \n","\n","* Μείωση διαστάσων χαρακτηριστικών: δημιουργούμε Κ \"νέες\" ανεξάρτητες μεταβλητές, όπου κάθε ανεξάρτητη μεταβλητή είναι ένας συνδυασμός καθεμιάς από τις δεδομένες παλιές ανεξάρτητες μεταβλητές.\n","\n"]},{"cell_type":"markdown","metadata":{"id":"nt-pXZID9Sch"},"source":["Ένα κοινό ζήτημα για τους επιστήμονες δεδομένων κατά την ανάπτυξη ενός αλγορίθμου είναι οι πολλές μεταβλητές. Ως άνθρωποι, μπορούμε να απεικονίσουμε τα πράγματα μόνο σε 2 διαστάσεις ή 3 διαστάσεις. \n","\n","Η κατάρα της διαστατικότητας (Curse of Dimensionality) είναι ένα παράδοξο που αντιμετωπίζουν συχνά οι επιστήμονες δεδομένων.\n","\n","Η προσθήκη περισσότερων πληροφοριών ίσως να πιστεύαμε ότι θα βελτιώσετε την ακρίβεια του μοντέλου μηχανικής εκμάθηση, αλλά με κάθε χαρακτηριστικό που προσθέτεται, αυξάνεται ο αριθμός των διαστάσεων (n). Ο απώτερος στόχος μας είναι να δημιουργήσουμε απλά μοντέλα που μπορούν να τρέξουν γρήγορα και να εξηγηθούν εύκολα. Όταν έχουμε πολλά χαρακτηριστικά, το μοντέλο μας γίνεται πιο περίπλοκο και η ακρίβεια μειώνεται. \n","\n","Για την αντιμετώπιση αυτών των πολύπλοκων συνόλων δεδομένων, η Ανάλυση Κύριων συνιστωσών είναι μια ιδανική μέθοδος για τη μείωση των διαστάσεων των δεδομένων σας. \n","\n","Η Ανάλυση Κύριων Συστατικών, ή πιο γνωστή ως PCA, είναι ένας τρόπος μείωσης του αριθμού των μεταβλητών διατηρώντας ταυτόχρονα την πλειονότητα των σημαντικών πληροφοριών.\n","\n","Μετατρέπει έναν αριθμό μεταβλητών που μπορεί να συσχετιστούν σε μικρότερο αριθμό μη συσχετισμένων μεταβλητών, γνωστές ως κύρια συστατικά. \n","\n","Τα κύρια συστατικά είναι γραμμικοί συνδυασμοί των αρχικών μεταβλητών σταθμισμένων από τις διακυμάνσεις τους (ή ιδιοτιμών) σε μια συγκεκριμένη ορθογώνια διάσταση. \n","\n","Ο κύριος στόχος του PCA είναι να απλοποιήσετε τα χαρακτηριστικά του μοντέλου σας σε λιγότερα συστατικά και να βοηθήσετε το μοντέλο σας να λειτουργεί πιο γρήγορα. \n","\n","Η χρήση PCA μειώνει επίσης την πιθανότητα υπερπροσαρμογής του μοντέλου σας, εξαλείφοντας χαρακτηριστικά με υψηλή συσχέτιση. \n","\n","Είναι σημαντικό να σημειωθεί ότι πρέπει να εφαρμόζετε μόνο PCA σε συνεχείς μεταβλητές και όχι κατηγορηματικές. \n","\n","Παρόλο που τεχνικά μπορείτε να χρησιμοποιήσετε PCA σε one-hot encoded ή δυαδικά δεδομένα, δεν λειτουργεί πολύ καλά. Αυτό συμβαίνει επειδή το PCA έχει σχεδιαστεί για να ελαχιστοποιεί τη διακύμανση (τετραγωνικές αποκλίσεις) που δεν είναι πολύ σημαντική όταν εκτελείται σε δυαδικές μεταβλητές. \n","\n","Εάν έχετε μικτά δεδομένα, εναλλακτικές μέθοδοι όπως το MCA μπορεί να λειτουργούν καλύτερα. \n","\n","*Πώς μπορούμε να πούμε πόσες πληροφορίες να διατηρήσουμε από το σύνολο δεδομένων; *\n","\n","Χρησιμοποιούμε το Explained Variance Ratio ως μέτρηση για να αξιολογήσουμε τη χρησιμότητα των κύριων συνιστωσών και να επιλέξουμε πόσα στοιχεία θα χρησιμοποιηθούν στο μοντέλο μας. \n","\n","Το Explained Variance Ratio είναι το ποσοστό διακύμανσης που αποδίδεται από καθένα από τα επιλεγμένα συστατικά. Στην ιδανική περίπτωση, θα επιλέγαμε τον αριθμό των συστατικών που θα συμπεριληφθούν στο μοντέλο μας προσθέτοντας την explained variance ratio κάθε στοιχείου μέχρι να φτάσουμε συνολικά περίπου 0,8 ή 80% για να αποφύγετε την υπερεκπαίδευση. \n","Το sklearn διευκολύνει τη λήψη της explained variance ratio μέσω παραμέτρου \n"]},{"cell_type":"markdown","metadata":{"id":"4elbl6FO4ZHm"},"source":["\n","**Επιλογή συνόλου δεδομένων**\n","\n","Το σύνολο δεδομένων που θα εργαστούμε είναι το σύνολο δεδομένων IrisΤο σύνολο δεδομένων αποτελείται από 150 δείγματα από τρεις διαφορετικούς τύπους ίριδας: setosa, versicolor και virginica και έχει τέσσερις μετρήσεις για κάθε δείγμα. Αυτές οι μετρήσεις είναι το μήκος του σέπαλου, το πλάτος του σέπαλου, το μήκος του πέταλου και το πλάτος του πέταλου. Θα το εισαγάγουμε από τη βιβλιοθήκη sklearn:"]},{"cell_type":"code","metadata":{"id":"NglQeODj8dU1","colab":{"base_uri":"https://localhost:8080/","height":206},"executionInfo":{"status":"ok","timestamp":1604326381604,"user_tz":-120,"elapsed":2192,"user":{"displayName":"Katerina A","photoUrl":"","userId":"12077637925353215781"}},"outputId":"81120385-2274-4f71-d940-a27e95794969"},"source":["from sklearn import datasets\n","import pandas as pd\n"," \n","iris = datasets.load_iris()\n","df = pd.DataFrame(iris.data, columns=iris.feature_names)\n","df['Target'] = iris.get('target')\n","df.head()"],"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/html":["
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)Target
05.13.51.40.20
14.93.01.40.20
24.73.21.30.20
34.63.11.50.20
45.03.61.40.20
\n","
"],"text/plain":[" sepal length (cm) sepal width (cm) ... petal width (cm) Target\n","0 5.1 3.5 ... 0.2 0\n","1 4.9 3.0 ... 0.2 0\n","2 4.7 3.2 ... 0.2 0\n","3 4.6 3.1 ... 0.2 0\n","4 5.0 3.6 ... 0.2 0\n","\n","[5 rows x 5 columns]"]},"metadata":{"tags":[]},"execution_count":1}]},{"cell_type":"markdown","metadata":{"id":"T7eu7lU8B1kv"},"source":["Στη συνέχεια, θα χωρίσουμε το σύνολο δεδομένων σε μεταβλητή (Χ) χαρακτηριστικών και την μεταβλητή «στόχος» σε «y»."]},{"cell_type":"code","metadata":{"id":"5aJdWacV8kpt"},"source":["# Create features and target datasets\n","features = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']\n","X = df[features].values\n","y = df['Target'].values"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"rgHlqh425vYW"},"source":["# Κανονικοποίηση\n","Πρέπει να κανονικοποιήσουμε τις τιμές των χαρακτηριστικών πριν από την εφαρμογή του PCA.\n","Το StandardScaler μπορεί να κανονικοποιήσει τις τιμές των χαρακτηριστικών του συνόλου δεδομένων σε κλίμακα μονάδας (μέσος όρος = 0 και διακύμανση = 1) που αποτελεί απαίτηση για τη βέλτιστη απόδοση πολλών αλγορίθμων μηχανικής μάθησης. "]},{"cell_type":"code","metadata":{"id":"EXm3a-_z8rB8","colab":{"base_uri":"https://localhost:8080/","height":206},"executionInfo":{"status":"ok","timestamp":1604326457827,"user_tz":-120,"elapsed":906,"user":{"displayName":"Katerina A","photoUrl":"","userId":"12077637925353215781"}},"outputId":"9e18978d-3140-4f4c-ec27-6a842dfdfa2c"},"source":["from sklearn.preprocessing import StandardScaler\n","\n","# Standardize the features\n","X = StandardScaler().fit_transform(X)\n","\n","# Preview X\n","pd.DataFrame(data=X, columns=features).head()"],"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/html":["
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
sepal length (cm)sepal width (cm)petal length (cm)petal width (cm)
0-0.9006811.019004-1.340227-1.315444
1-1.143017-0.131979-1.340227-1.315444
2-1.3853530.328414-1.397064-1.315444
3-1.5065210.098217-1.283389-1.315444
4-1.0218491.249201-1.340227-1.315444
\n","
"],"text/plain":[" sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)\n","0 -0.900681 1.019004 -1.340227 -1.315444\n","1 -1.143017 -0.131979 -1.340227 -1.315444\n","2 -1.385353 0.328414 -1.397064 -1.315444\n","3 -1.506521 0.098217 -1.283389 -1.315444\n","4 -1.021849 1.249201 -1.340227 -1.315444"]},"metadata":{"tags":[]},"execution_count":3}]},{"cell_type":"markdown","metadata":{"id":"H5WC3PkWCdU0"},"source":["Τώρα, θα εισαγάγουμε PCA χρησιμοποιώντας το sklearn και θα προβάλλουμε τα αρχικά μας δεδομένα, τα οποία έχουν 4 διαστάσεις, σε 2 διαστάσεις. Το sklearn δημιουργεί έναν πίνακα συνδιακύμανσης για τον υπολογισμό των ιδιοδιανυσμάτων (κύρια συστατικά) και των αντίστοιχων ιδιοτιμών τους. \n","\n","Οι ιδιοδιανύσματα καθορίζουν τις κατευθύνσεις του νέου χώρου χαρακτηριστικών και οι ιδιοτιμές καθορίζουν το μέγεθος ή τη διακύμανση των δεδομένων κατά μήκος των νέων αξόνων χαρακτηριστικών."]},{"cell_type":"code","metadata":{"id":"pgLEFLf98wjM"},"source":["# Import PCA from sklearn\n","from sklearn.decomposition import PCA\n","\n","# Instantiate PCA\n","pca = PCA(n_components=2)\n","\n","# Fit PCA to features\n","principalComponents = pca.fit_transform(X)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"8_zV6EYbC2PQ"},"source":["Για να οπτικοποιήσουμε καλύτερα τα κύρια συστατικά, ας τα συνδυάσουμε με τον στόχο (τύπος λουλουδιού) που σχετίζεται με τη συγκεκριμένη παρατήρηση σε ένα πλαίσιο δεδομένων pandas."]},{"cell_type":"code","metadata":{"id":"9i_6_E4k82aL","colab":{"base_uri":"https://localhost:8080/","height":206},"executionInfo":{"status":"ok","timestamp":1604326573286,"user_tz":-120,"elapsed":958,"user":{"displayName":"Katerina A","photoUrl":"","userId":"12077637925353215781"}},"outputId":"50ec61dc-d61b-48d5-a919-a76c646c8c26"},"source":["# Create a new dataset from principal components \n","df = pd.DataFrame(data = principalComponents, \n"," columns = ['PC1', 'PC2'])\n","\n","target = pd.Series(iris['target'], name='target')\n","\n","result_df = pd.concat([df, target], axis=1)\n","result_df.head(5)\n"],"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/html":["
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
PC1PC2target
0-2.2647030.4800270
1-2.080961-0.6741340
2-2.364229-0.3419080
3-2.299384-0.5973950
4-2.3898420.6468350
\n","
"],"text/plain":[" PC1 PC2 target\n","0 -2.264703 0.480027 0\n","1 -2.080961 -0.674134 0\n","2 -2.364229 -0.341908 0\n","3 -2.299384 -0.597395 0\n","4 -2.389842 0.646835 0"]},"metadata":{"tags":[]},"execution_count":5}]},{"cell_type":"markdown","metadata":{"id":"FgGq-YIkDMKB"},"source":["Τώρα μπορούμε να απεικονίσουμε τα κύρια συστατικά σύμφωνα με την κατανομή τάξης χρησιμοποιώντας τα δεδομένα στόχου. Αυτός ο κώδικας δημιουργεί ένα διάγραμμα σκέδασης από τα κύρια συστατικά και το χρώμα κωδικοποιεί τα δείγματα ανά τύπο λουλουδιού."]},{"cell_type":"code","metadata":{"id":"eagt3hRx86GT","colab":{"base_uri":"https://localhost:8080/","height":632},"executionInfo":{"status":"ok","timestamp":1604322446367,"user_tz":-120,"elapsed":1388,"user":{"displayName":"Parask Tz","photoUrl":"","userId":"08609487936413149826"}},"outputId":"c41cf79b-3224-4fb2-a2e0-9d74e621a685"},"source":["# Visualize Principal Components with a scatter plot\n","fig = plt.figure(figsize = (12,10))\n","ax = fig.add_subplot(1,1,1) \n","ax.set_xlabel('First Principal Component ', fontsize = 15)\n","ax.set_ylabel('Second Principal Component ', fontsize = 15)\n","ax.set_title('Principal Component Analysis (2PCs) for Iris Dataset', fontsize = 20)\n","\n","targets = [0, 1, 2]\n","colors = ['r', 'g', 'b']\n","for target, color in zip(targets, colors):\n"," indicesToKeep = iris['target'] == target\n"," ax.scatter(result_df.loc[indicesToKeep, 'PC1'], \n"," result_df.loc[indicesToKeep, 'PC2'], \n"," c = color, \n"," s = 50)\n","ax.legend(targets)\n","ax.grid()"],"execution_count":null,"outputs":[{"output_type":"display_data","data":{"image/png":"\n","text/plain":["
"]},"metadata":{"tags":[],"needs_background":"light"}}]},{"cell_type":"markdown","metadata":{"id":"EYaSQU6IDev0"},"source":["Μπορούμε να δούμε ότι οι τρεις κατηγορίες είναι αρκετά διακριτές και διαχωρίσιμες. Μπορούμε να συμπεράνουμε ότι η αναπαράσταση συμπιεσμένων δεδομένων είναι πιθανότατα επαρκής για ένα μοντέλο ταξινόμησης. \n","\n","Μπορούμε να συγκρίνουμε τη διακύμανση στο συνολικό σύνολο δεδομένων με αυτό που καταγράφηκε από τα δύο κύρια συστατικά το explained_variance_ratio_ \n","\n","Μπορούμε να δούμε ότι τα πρώτα δύο κύρια συστατικά μας εξηγούν την πλειονότητα της διακύμανσης σε αυτό το σύνολο δεδομένων (95,81%)! Αυτή είναι μια ένδειξη της συνολικής πληροφορίας που αντιπροσωπεύονται σε σύγκριση με τα αρχικά δεδομένα."]},{"cell_type":"code","metadata":{"id":"ekCl89CO9BVL","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1604326883637,"user_tz":-120,"elapsed":904,"user":{"displayName":"Katerina A","photoUrl":"","userId":"12077637925353215781"}},"outputId":"a32d087f-a9a4-43ba-f486-beaf960387b4"},"source":["# Calculate the variance explained by priciple components\n","print('Variance of each component:', pca.explained_variance_ratio_)\n","print('\\n Total Variance Explained:', round(sum(list(pca.explained_variance_ratio_))*100, 2))"],"execution_count":null,"outputs":[{"output_type":"stream","text":["Variance of each component: [0.72962445 0.22850762]\n","\n"," Total Variance Explained: 95.81\n"],"name":"stdout"}]},{"cell_type":"markdown","metadata":{"id":"WjA254c082Lo"},"source":["Αναλυτική παρουσίαση του PCA μπορείτε να βρείτε [εδώ](https://towardsdatascience.com/a-one-stop-shop-for-principal-component-analysis-5582fb7e0a9c)"]}]}