Skip to content

This project's object is to study and develop mechanisms to address the problem of large Internet data collections classification/clustering. Existing algorithms will also be examined relating to the classification/clustering of large collections of Web objects (websites, blog posts, social media posts etc) with traditional textual analysis algo…

License

Notifications You must be signed in to change notification settings

bazakoskon/Classification-clustering-Thesis

Repository files navigation

Τεχνικές Ταξινόμησης/Συσταδοποίησης Μεγάλων Συλλογών Διαδικτυακών Δεδομένων

Περίληψη

Πρόκειται για τον κώδικα που περιλαμβάνεται στην Πτυχιακή μου Εργασία με τίτλο "Τεχνικές Ταξινόμησης/Συσταδοποίησης Μεγάλων Συλλογών Διαδικτυακών Δεδομένων" στα πλαίσια της Θεματικής Ενότητας ΠΛΗ40 του Ελληνικού Ανοικτού Πανεπιστημίου (Επιβλέπων καθηγητής Ιωάννης Αναγνωστόπουλος).

Περιλαμβάνει όλα τα python αρχεία που μνημονεύονται στο κυρίως σώμα του τόμου καθώς και τρία IPython Notebooks όπως παρακάτω:

  • Ταξινόμηση στο Six Categories of Amazon Product Reviews Dataset chapter4_2_1.ipynb
  • Ταξινόμηση στο Amazon movie reviews Dataset chapter4_2_2.ipynb
  • Η μέθοδος Latent Dirichlet Allocation (Topic model) chapter4_3_1.ipynb

Η μέθοδος συσταδοποίησης μέσω μασκών/πινάκων συνάφειας βρίσκεται στο αρχείο chapter4_2_2.ipynb

Σχόλια και παρατηρήσεις ευπρόσδεκτα.

Σχετικό project εμπλουτισμού του Amazon movie reviews Dataset με ground truth labels εδώ.

About

This project's object is to study and develop mechanisms to address the problem of large Internet data collections classification/clustering. Existing algorithms will also be examined relating to the classification/clustering of large collections of Web objects (websites, blog posts, social media posts etc) with traditional textual analysis algo…

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published