Πρόκειται για τον κώδικα που περιλαμβάνεται στην Πτυχιακή μου Εργασία με τίτλο "Τεχνικές Ταξινόμησης/Συσταδοποίησης Μεγάλων Συλλογών Διαδικτυακών Δεδομένων" στα πλαίσια της Θεματικής Ενότητας ΠΛΗ40 του Ελληνικού Ανοικτού Πανεπιστημίου (Επιβλέπων καθηγητής Ιωάννης Αναγνωστόπουλος).
Περιλαμβάνει όλα τα python αρχεία που μνημονεύονται στο κυρίως σώμα του τόμου καθώς και τρία IPython Notebooks όπως παρακάτω:
- Ταξινόμηση στο Six Categories of Amazon Product Reviews Dataset
chapter4_2_1.ipynb
- Ταξινόμηση στο Amazon movie reviews Dataset
chapter4_2_2.ipynb
- Η μέθοδος Latent Dirichlet Allocation (Topic model)
chapter4_3_1.ipynb
Η μέθοδος συσταδοποίησης μέσω μασκών/πινάκων συνάφειας βρίσκεται στο αρχείο chapter4_2_2.ipynb
Σχόλια και παρατηρήσεις ευπρόσδεκτα.
Σχετικό project εμπλουτισμού του Amazon movie reviews Dataset με ground truth labels εδώ.