{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"name":"Άσκηση  01 Pima Indians.ipynb","provenance":[]},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"collapsed":true,"id":"Yxvq-hnA8Iz-"},"source":["# Άσκηση: Συγκρίνετε dummy classifiers και Gaussian Naive Bayes στο Pima Indians Diabetes Data Set \n","\n","**Η άσκηση είναι μόνο για εξάσκηση ζητείται παράδοση και δεν υπάρχει βαθμολογία**\n","\n","![1889 Photograph shows half-length portrait of two Pima Indians, facing front, wearing bead necklaces.](https://i.pinimg.com/236x/60/05/76/600576905d4ad5bb1a9c3e3387b397ca--pima-indians-native-american-indians.jpg \"1889 Photograph shows half-length portrait of two Pima Indians, facing front, wearing bead necklaces.\")\n","\n","Το \"Pima Indians Diabetes data set (ή Pima)\" περιλαμβάνει 768 δείγματα από γυναίκες άνω των 21 με καταγωγή από τους ινδιάνους Pima (Pima people). Με βάση 8 βιολογικά χαρακτηριστικά προσπαθούμε να αποφασίσουμε αν ένα άτομο είναι διαβητικό ή όχι.\n","Κατεβάστε το αρχείο csv από [εδώ](https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv). Κάντε δεξί κλικ και \"Save As\".\n","Η τελευταία (έννατη) τιμή είναι η κατηγορία, 0 μη διαβητική, 1 διαβητική.\n","\n","1. Ανεβάστε το pima-indians-diabetes.data\" στο notebook σας και διαβάστε το σε ένα numpy array. Χρησιμοποιήστε τον κώδικα από το Classification 1.1 για το cloud που χρησιμοποιείτε.\n","2. Ποιά είναι η κατανομή (συχνότητα) των δύο κλάσεων; Τί ποσοστό επί τοις εκατό του dataset είναι η κάθε κλάση; Με δεδομένο ότι το ποσοστό των κλάσεων στο Wisconcin ήταν 37.3% - 62.7% πιο dataset είναι πιο ισορροπημένο (κοντά στην ίση κατανομή των δύο κλάσεων); Σημείωση, για να δουλέψει η bincount πρέπει να κάνουμε τα labels int με .astype(int)\n","3. Χωρίστε τα δείγματα κατά 60% training set και 40% test set.\n","4. Ορίστε ένα λεξικό \"pima_accuracy\". Εκπαιδεύστε πέντε dummy classifiers με τις εξής στρατηγικές: “uniform”, “constant 0”, “constant 1”, “most_frequent”, “stratified”. Εκπαιδεύστε τους στο training set και αποθηκεύστε για τον καθένα στο \"pima_accuracy\" το όνομά του στο κλειδί και την πιστότητά του στο test set του 40%.\n","5. Εκτυπώστε το \"pima_accuracy\" με αύξουσα σειρά πιστότητας.\n","6. Εκπαιδεύστε έναν Gaussian Naive Bayes στο ίδιο split του dataset και προσθέστε το όνομα και την πιστότητά του στο \"pima_accuracy\". Εκτυπώστε το \"pima_accuracy\" ξανά με αύξουσα σειρά πιστότητας.\n","7. Πώς σχολιάζετε τις επιδόσεις των ταξινομητών; Δοκιμάστε μερικά runs του Pima και του Wisconsin και παρατηρήστε τη συγκριτική απόδοση του uniform και του stratified. Που μπορεί να οφείλεται;\n","8. Τί παρατηρείτε για την επίδοση του Gaussian Naive Bayes στο Pima σε σχέση με την επίδοση του στο Wisconsin Breast Cancer; Τί μπορεί να σημαίνει αυτό για τον Gaussian NB και για κάθε dataset;"]}]}