Μία «ελληνική πρόταση» για το Semantic Web

αναρτήθηκε στις 2 Οκτ 2010, 11:08 π.μ. από το χρήστη Γιάννης Ανδριόπουλος   [ ενημερώθηκε 2 Οκτ 2010, 11:11 π.μ. ]
Μία ελληνική επιστημονική ομάδα διακρίθηκε πρόσφατα στο εξωτερικό με μία έρευνά της πάνω στις δυνατότητες που προσφέρει το Διαδίκτυο στην καθημερινή μας χρήση και ειδικότερα στη χρήση του Semantic Web ή Σημασιολογικού Ιστού.

του Νίκου Ιτσινέ από την "Καθημερινή"

Πώς θα σας φαινόταν αν θέτατε στη μηχανή αναζήτησης που χρησιμοποιείτε την ερώτηση «Είναι ελεύθερη η Τζένιφερ Λόπεζ;» και η απάντηση ήταν απλά ένα «ΝΑΙ», αντί των εκατοντάδων αποτελεσμάτων, που οδηγούν σε άρθρα του 2004 ή σε ιστοσελίδες που δεν έχουν καμία σχέση με αυτό που επιθυμείτε;

Ο Νίκος Κωνσταντίνου, Διδάκτορας ΕΜΠ και ερευνητής στο Athens Information Technology (AIT), και οι Υποψήφιοι Διδάκτορες Δημήτριος - Εμμανουήλ Σπανός και Περικλής Σταύρου, μέλη της ερευνητικής ομάδας Επικοινωνιών Πολυμέσων και Τεχνολογιών Παγκόσμιου Ιστού της Σχολής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Εθνικού Μετσόβιου Πολυτεχνείου, με υπεύθυνο τον καθηγητή Νικόλαο Μήτρου, μελέτησαν τους λόγους για τους οποίους ενώ η σχετική τεχνολογία έχει ωριμάσει ο Σημασιολογικός Ιστός δεν χρησιμοποιείται στην πράξη.

Όπως αναφέρει σε συνέντευξή του στο kathimerini.gr ο Δρ. Νίκος Κωνσταντίνου: «Οι μηχανές αναζήτησης δε λαμβάνουν υπόψη σημασιολογικά εμπλουτισμένη πληροφορία και επομένως μια εταιρεία ή ένας χρήστης δεν έχει κίνητρο να δημοσιεύσει σημασιολογικά εμπλουτισμένη πληροφορία». Γι' αυτό το λόγο προτείνουν στην μελέτη τους τρόπους μέσω των οποίων οι τεχνολογίες του Σημασιολογικού Ιστού θα γίνουν μέρος της καθημερινής εμπειρίας χρήσης του Διαδικτύου. Σύμφωνα με το όραμα του Σημασιολογικού Ιστού, «η προσθήκη σημασίας στην πληροφορία του Διαδικτύου θα απελευθερώσει πλήθος δυνατοτήτων για την πιο ευφυή εκμετάλλευση της πληροφορίας αυτής».

Άρα η αναζήτηση στο Διαδίκτυο δεν χρειάζεται να φέρνει στατικά αποτελέσματα. Με την χρήση του Σημασιολογικού Ιστού, το Διαδίκτυο θα γίνεται πιο έξυπνο, θα δίνει μία ολοκληρωμένη απάντηση και δεν θα παραπέμπει απλώς σε λύσεις και πληροφορίες άλλων πηγών.

Οι τέσσερις Έλληνες επιστήμονες προτείνουν τη γενίκευση της χρήσης του Σημασιολογικού Ιστού μέσω της εξέλιξης των μηχανών αναζήτησης. Όχι όμως αντικαθιστώντας την παρούσα τεχνολογία, αλλά απλά συμπληρώνοντάς την. Η τεχνική δυνατότητα υπάρχει ουσιαστικά εδώ και αρκετό καιρό, λείπουν ωστόσο πρακτικές εφαρμογές της, που θα βελτιώνουν την καθημερινή εμπειρία του χρήστη στο Διαδίκτυο.

Η ελληνική πρόταση προκάλεσε το ενδιαφέρον του ξένου Τύπου, αναδημοσιεύοντας τη μελέτη και κάνοντας συνέντευξη με τους ερευνητές.

Στη συνέντευξη του ο Δρ. Ν. Κωνσταντίνου εξηγεί για τους αναγνώστες του kathimerini.gr τι είναι το Semantic Web - σημασιολογικός ιστός, καθώς και την πρόταση της επιστημονικής ομάδας.

Τι είναι το Semantic Web;

Το Semantic Web, ή Σημασιολογικός Ιστός αναφέρεται σε ένα σύνολο τεχνολογιών και μεθόδων μέσω των οποίων οι υπολογιστές είναι σε θέση να αντιλαμβάνονται τη σημασία της πληροφορίας που διαχειρίζονται. Σύμφωνα με το όραμα των εμπνευστών του Σημασιολογικού Ιστού, η προσθήκη σημασίας στην πληροφορία του Διαδικτύου θα απελευθερώσει πλήθος δυνατοτήτων για την πιο ευφυή εκμετάλλευση της πληροφορίας αυτής. Ένας χρήστης του Διαδικτύου θα μπορεί, για παράδειγμα, μεταξύ άλλων δυνατοτήτων, να πραγματοποιεί ευφυείς αναζητήσεις, να λαμβάνει δηλαδή από μια μηχανή αναζήτησης αποτελέσματα τα οποία να είναι πιο σχετικά με αυτό που πραγματικά αναζητά.

Με τις υπάρχουσες τεχνολογίες, η αναζήτηση «is Jennifer Lopez single?» θα επιστρέψει μια λίστα με τα singles της καλλιτέχνιδας ενώ αυτό που ζητάει ο χρήστης είναι μια απάντηση ναι/όχι (το παράδειγμα ανήκει στο http://www.trueknowledge.com/). Αυτό γίνεται γιατί οι μηχανές αναζήτησης αντιμετωπίζουν τα ερωτήματά μας ως απλές λέξεις-κλειδιά, αγνοώντας τη σημασία που πιθανόν εμπεριέχουν. Στον κόσμο του Σημασιολογικού Ιστού, το σύστημα θα ήταν σε θέση να απαντήσει σωστά το ερώτημα αυτό αλλά και πιο σύνθετα.

Επιπλέον, ένα πληροφοριακό σύστημα που βασίζεται σε τεχνολογίες Σημασιολογικού Ιστού είναι σε θέση να εξάγει πληροφορία από την ήδη υπάρχουσα. Αν το σύστημά μας γνωρίζει για παράδειγμα ότι «ο Σωκράτης είναι άνθρωπος» και ότι «όλοι οι άνθρωποι είναι θνητοί», θα μπορέσει να συμπεράνει ότι «ο Σωκράτης είναι θνητός» χωρίς να χρειάζεται να το έχουμε δηλώσει ρητά. Το παράδειγμα αυτό της επαγωγής φανερώνει μια από τις πολλές δυνατότητες των τεχνολογιών του Σημασιολογικού Ιστού. Γενικότερα, δηλώνοντας μόνο μερικά γεγονότα στο πληροφοριακό σύστημα, αυτό θα είναι σε θέση να συμπεράνει περισσότερα, αξιοποιώντας τη σημασιολογία τους.

Η τεχνογνωσία και η τεχνολογία για να προχωρήσουμε στο επόμενο στάδιο του Διαδικτύου υπάρχει;

Οι τεχνολογίες που απαρτίζουν το «οικοσύστημα» του Σημασιολογικού Ιστού είναι πλέον σε ώριμο στάδιο. Οι γλώσσες περιγραφής σημασιολογίας, οι γλώσσες ερωτημάτων, οι διαδικασίες εξαγωγής συμπερασμάτων, οι σχετικές διεπαφές έχουν ωριμάσει υπό την έννοια ότι έχουν αναπτυχθεί τα αντίστοιχα πρότυπα από τις ρυθμιστικές αρχές του Διαδικτύου (όπως το W3C). Ξέρετε, η ανάπτυξη ενός προτύπου είναι συνήθως προϋπόθεση για ανταγωνιστές ενός χώρου να αρχίσουν να παρουσιάζουν τις δικές τους λύσεις.

Η τεχνογνωσία εξαπλώνεται συνεχώς. Ήδη, μαθήματα με αντικείμενο το Σημασιολογικό Ιστό έχουν περάσει από την έρευνα στα προγράμματα μεταπτυχιακών αλλά και στα μεγαλύτερα εξάμηνα προπτυχιακών σπουδών σχολών σχετικών με την επιστήμη των υπολογιστών. Οι απόφοιτοι, αν και μπορεί να μην είναι πλήρως εξοικειωμένοι έχουν σίγουρα ακούσει βασικές έννοιες του Σημασιολογικού Ιστού όπως οντολογία, μηχανή εξαγωγής συμπερασμάτων, RDF, OWL, κοκ.

Για ποιο λόγο δεν έχουμε κάνει αυτό το βήμα;

Η απάντηση είναι σύνθετη και βασίζεται κυρίως σε ένα πλήθος δυσκολιών που συνοδεύουν κάθε εγχείρημα μετάβασης σε νέες τεχνολογίες - είτε Σημασιολογικού Ιστού ή μη - και ενσωμάτωσής τους σε ήδη υπάρχουσες.

Επιπλέον, από τη μεριά των χρηστών αλλά και των εταιρειών που δραστηριοποιούνται στο Διαδίκτυο, πέραν της έρευνας δεν υπάρχει καταρχήν κίνητρο για δημοσίευση σημασιολογικά εμπλουτισμένης πληροφορίας. Εξάλλου, απαιτείται αυτός που θα πραγματοποιήσει την επισημείωση να είναι τόσο γνώστης του αντικειμένου όσο και καταρτισμένος τεχνικά ώστε να φέρει εις πέρας σωστά το έργο της επισημείωσης όγκου πληροφορίας.

Από τη μεριά των μηχανών αναζήτησης, στο [4], μηχανικοί της Google αναλύουν γιατί προτιμούν τη «στατιστική» από τη «σημασιολογική» ανάλυση του διαθέσιμου περιεχομένου στο Διαδίκτυο. Ενώ άλλες μηχανές αναζήτησης έχουν αρχίσει να αξιοποιούν σημασιολογία διαθέσιμη στο Διαδίκτυο, η Google η οποία και έχει το μεγαλύτερο μερίδιο στις προτιμήσεις των χρηστών εξακολουθεί να λειτουργεί με αλγόριθμους που βασίζονται σε τεχνολογίες ανάκτησης πληροφορίας (information retrieval).

Ποια είναι η δική σας διαπίστωση μέσα από την έρευνα που πραγματοποιήσατε;

Η προώθηση και αξιοποίηση του Σημασιολογικού Ιστού έχει εισέλθει σε έναν φαύλο κύκλο:

οι μηχανές αναζήτησης και εν γένει οι εταιρείες που έχουν ισχύ και ηγούνται των εξελίξεων στο Διαδίκτυο δεν αξιοποιούν σημασιολογικά εμπλουτισμένη πληροφορία, οι δε πάροχοι της πληροφορίας δεν έχουν κίνητρο να την επισημειώνουν σημασιολογικά. Η πλειοψηφία των τελικών χρηστών αγνοεί την ύπαρξη των τεχνολογιών αυτών ενώ οι εταιρείες που δραστηριοποιούνται στο χώρο του Διαδικτύου δεν έχουν κάποιο κίνητρο για δημοσιοποίηση σημασιολογικής πληροφορίας.

Κρίμα, γιατί τα ωφέλη που προκύπτουν είναι τόσο για τους χρήστες όσο και για τις μηχανές αναζήτησης. Οι χρήστες θα μπορούσαν να ωφελούνται από τα πιο ακριβή αποτελέσματα στις αναζητήσεις τους ενώ μια μηχανή αναζήτησης, με τη χρήση τεχνολογιών Σημασιολογικού Ιστού θα μπορούσε ουσιαστικά να βελτιώσει το προϊόν της.

Ποια ή ποιες είναι οι προτάσεις σας ώστε να κάνουμε το καθοριστικό βήμα και να μπούμε στην εποχή του Web 3.0;

Πριν δώσουμε την απάντηση, χρειάζεται να ξεκαθαρίσουμε καταρχήν ότι στο Διαδίκτυο, ο αριθμός εκδόσεων δε σημαίνει ότι γίνεται κάποιου είδους αναβάθμιση όπως για παράδειγμα αναβαθμίζει κανείς το λειτουργικό σύστημα στον υπολογιστή του. Ο αριθμός έκδοσης συνήθως αναφέρεται στην εμπειρία που αποκομίζει ένας χρήστης του Διαδικτύου. Η εποχή του Web 3.0 (ή 2.0+) αναφέρεται απλά στον εμπλουτισμό της παρούσας εμπειρίας από την πλοήγηση στον Ιστό, αναφέρεται αν θέλετε στον Ιστό όπως αυτός θα είναι στο κοντινό μέλλον. Η ενσωμάτωση τεχνολογιών Σημασιολογικού Ιστού θα καταστήσει την εμπειρία αυτή κατά πολύ πλουσιότερη.

Η πρότασή μας βασίζεται σε τρεις βασικούς άξονες:

Ο πρώτος άξονας εντοπίζεται στην ανάγκη για απλοποίηση στη διαδικασία παραγωγής σημασιολογικά εμπλουτισμένης πληροφορίας. Η απλοποίηση αυτή μπορεί να είναι αποτέλεσμα υψηλού επιπέδου αυτοματοποίησης στη σημασιολογική επισημείωση πληροφορίας. Ο ανθρώπινος παράγοντας είναι πολύ εύκολο να οδηγήσει σε λάθη και σε επισημειώσεις που καθίστανται γρήγορα παρωχημένες ενώ βέβαια η απόπειρα χειροκίνητης επισημείωσης είναι ακριβή σε πόρους (χρόνο και χρήμα για μια εταιρεία).

Επίσης, χρειάζεται οι τεχνολογίες του Σημασιολογικού Ιστού να μην αντικαθιστούν τις υπάρχουσες πρακτικές στις τεχνολογικές προσεγγίσεις αλλά να τις συμπληρώνουν και να τις εμπλουτίζουν. Δεν είναι δυνατό για έναν μηχανικό λογισμικού, πόσο μάλλον για μια εταιρεία λογισμικού να μεταπηδήσει σε νέες τεχνολογίες διαγράφοντας την υπάρχουσα τεχνογνωσία. Αυτό είναι πλέον εφικτό καθώς είναι δυνατό η σημασιολογική επισημείωση να λειτουργήσει παράλληλα με συμβατικές - και πιο ώριμες - τεχνολογίες όπως οι σχεσιακές βάσεις δεδομένων.

Τρίτος και σημαντικότερος άξονας είναι η υιοθέτηση των τεχνολογιών αυτών από τις εταιρείες που ηγούνται των εξελίξεων στο Διαδίκτυο, όπως είναι οι μηχανές αναζήτησης (Google, Yahoo!, Bing). Θυμηθείτε το φαύλο κύκλο που αναφέραμε προηγουμένως.

Στην ουσία, αυτή που φαντάζει ως πιο πολλά υποσχόμενη λύση βασίζεται στον τρίτο άξονα. Αυτό που προτείνουμε ως διέξοδο από τον φαύλο κύκλο είναι το πρώτο βήμα να γίνει από τις μηχανές αναζήτησης. Μια τέτοια κίνηση θα είναι ωφέλιμη στις μηχανές αναζήτησης καθώς δεδομένα που εμπεριέχουν σημασιολογία - για παράδειγμα δεδομένα της κίνησης Linked Open Data (http://linkeddata.org/) - έχουν υψηλό βαθμό αξιοπιστίας και θα μπορούν να δώσουν ισχυρό ανταγωνιστικό πλεονέκτημα στην μηχανή αναζήτησης/εταιρεία. Θα ήταν λογικό επομένως τέτοια πληροφορία να εμφανίζεται υψηλότερα στις σχετικές αναζητήσεις χρηστών, κάτι που θα έδινε το κίνητρο για δημοσίευση σημασιολογικά εμπλουτισμένης πληροφορίας. Μια τέτοια κίνηση θεωρούμε ότι θα δρούσε ως καταλύτης για την ευρύτερη εξάπλωση του Σημασιολογικού Ιστού και των ωφελειών που αυτό συνεπάγεται.

Πως δικαιολογείτε ότι οι καθιερωμένες μηχανές αναζήτησης όπως η Google και γενικά οι εταιρείες που ασχολούνται με το Internet δεν έχουν προχωρήσει προς το Web 3.0;

Το κυριότερο μέλημα μιας ιδιωτικής εταιρείας κερδοσκοπικού χαρακτήρα, όπως αυτών που παρέχουν μηχανές αναζήτησης, είναι η παραγωγή κέρδους. Οι υπάρχουσες τεχνολογίες οι οποίες βασίζονται στις λέξεις-κλειδιά (keywords) είναι πλέον τμήμα τόσο της κουλτούρας του Διαδικτύου όσο και αντικείμενο εμπορικής εκμετάλλευσης. Στον κόσμο του Web 2.0 οι χρήστες επισημειώνουν με σχετικές λέξεις κλειδιά περιεχόμενο όπως εικόνες (flickr), videos (youtube), bookmarks (del.icio.us) κ.ο.κ. Επιπλέον, στον τομέα της διαφήμισης στο Διαδίκτυο όπου η δημοτικότητα της κάθε λέξης-κλειδί καθορίζει και την αξία του, οι λέξεις κλειδιά φαίνονται να είναι βασικό δομικό συστατικό της online επιχειρηματικότητας. Οι χρήστες είναι εξοικειωμένοι με την έννοια της λέξης-κλειδί. Με λίγα λόγια, γιατί να αλλάξεις κάτι το οποίο δουλεύει καλά;

Σίγουρα, χρειάζεται να σημειωθεί ότι το να κάνεις κάτι να δουλέψει καλύτερα δεν είναι επιχείρημα αρκετό από μόνο του για να ωθήσει σε αλλαγές. Η ιδέα για παράδειγμα της εικονικής μνήμης (virtual memory) άργησε πολύ να υιοθετηθεί από τα λειτουργικά συστήματα.

Η ελληνική επιστημονική ομάδα που έκανε τη διαπίστωση αυτή και την πρόταση ήταν η πρώτη ή υπήρχαν ήδη προτάσεις προς αυτή την κατεύθυνση από άλλες χώρες;

Όχι, δεν είμαστε οι πρώτοι που κάνουμε τη διαπίστωση. Το πρόβλημα έχει αναλυθεί και από άλλους ερευνητές. Ο J. Hendler, ο N. Shadbolt, αλλά και ο Sir T. Berners-Lee έχουν διαπιστώσει ότι παρά τις προσπάθειες, η απλή αυτή ιδέα παραμένει σε μεγάλο βαθμό μη υλοποιημένη [2][3]. Η βασική ιδέα συνοψίζεται στο ότι ενώ όλα τα δομικά συστατικά έχουν αναπτυχθεί, οι τεχνολογίες του Σημασιολογικού Ιστού δεν είναι τμήμα της εμπειρίας του μέσου χρήστη.

Ωστόσο, η κυριότερη συνεισφορά της εργασίας μας [1] είναι η πρόταση για το πώς θα μπορούσε να παρακαμφθεί το πρόβλημα της δυσκολίας εξάπλωσης του Σημασιολογικού Ιστού. Η πρότασή μας είναι προϊόν εκτεταμένης βιβλιογραφικής ανασκόπησης αλλά και προσωπικής εμπειρίας μετά από συναπτά έτη ενασχόλησης με το αντικείμενο.

Ποια ήταν η ανταπόκριση και οι αντιδράσεις από την Ελλάδα και το εξωτερικό πάνω στην έρευνά σας;

Η ιδέα άρεσε. Αρκετά πρακτορεία ειδήσεων σχετικών με την έρευνα και την τεχνολογία αναπαρήγαγαν τις ιδέες μας. Μένει να δούμε αντιδράσεις και απόψεις ερευνητικών ομάδων του χώρου. Ξέρετε, σαν άτομα της έρευνας και της καινοτομίας χαρακτηριζόμαστε από διάθεση για δημιουργικό διάλογο και από ενθουσιασμό για τον αντίκτυπο και τα αποτελέσματα των προτάσεων μας τόσο στον κύκλο των ειδικών όσο και στην ευρύτερη κοινωνία.

Πως νιώθετε γι' αυτή την επιτυχία; Μία ελληνική ομάδα να δημιουργεί έναν τέτοιο αντίκτυπο;

Σίγουρα είναι δυνατό το αίσθημα της επιτυχίας, ας είμαστε όμως ρεαλιστές: σύγχρονα εκπαιδευτικά ιδρύματα όπως το Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ) και το Athens Information Technology (AIT) έχουν και πολύ μεγαλύτερες επιτυχίες από τη συγκεκριμένη. Το ξεχωριστό χαρακτηριστικό πάντως της εργασίας μας είναι η απλότητα στην εξήγηση της συνεισφοράς του Σημασιολογικού Ιστού ακόμη και σε άτομα μη εξοικειωμένα με το χώρο.

www.kathimerini.gr

Αναφορές

[1] Konstantinou, N., Spanos, D-E., Stavrou, P. and Mitrou, N. (2010) 'Technically Approaching the Semantic Web Bottleneck', Int. J. Web Engineering and Technology, Vol. 6, No. 1, pp.83-111.

[2] Hendler, J. (2008) 'Web 3.0: Chicken Farms on the Semantic Web', IEEE Computer, Vol. 41, No. 1, pp.106-108.

[3] Shadbolt, N., Berners-Lee, T. and Hall, W. (2006) 'The Semantic Web Revisited', IEEE Intelligent Systems, Vol. 21, No. 3, pp.96-101.

[4] Halevy, A., Norvig, P. and Pereira, F. (2009) 'The Unreasonable Effectiveness of Data', IEEE Intelligent Systems, Vol. 24, No. 2, pp.8-12.
   
   


Comments