Παρασκευή 27 Μαΐου 2011

Google - Πώς λειτουργεί εν συντομία


Η μηχανή αναζήτησης Google δόθηκε προς χρήση το 1998 και είναι σήμερα η δημοφιλέστερη μηχανή αναζήτησης στο WWW, διεξάγοντας περίπου 200 εκατομμύρια αναζητήσεις κάθε ημέρα, που προέρχονται από 200 χώρες και διατυπώνονται σε 88 διαφορετικές γλώσσες. Σε έρευνα που πραγματοποίησε η εταιρία OneStat.com το φθινόπωρο του 2002, η Google βρέθηκε να είναι μακράν η δημοφιλέστερη μηχανή αναζήτησης του Ιστού, αφού διεξάγει το 55.1% του συνόλου των αναζητήσεων στο Web. 
Η Yahoo ήταν στη δεύτερη θέση με ποσοστό 20.6% ενώ η κάποτε κραταιά και κυρίαρχη Altavista ήταν στην έκτη θέση με ποσοστό μόλις 2.4% επί του συνόλου των αναζητήσεων. Η Google δημιουργήθηκε από τους Larry Page και Sergey Brin, δύο διδακτορικούς φοιτητές, τότε, του Πανεπιστημίου του Stanford. Οι Brin και Page χρησιμοποίησαν για την αξιολόγηση μιάς τυχαίας ιστοσελίδας έναν αλγόριθμο που βασίζετε στην ανάλυση των συνδέσμων (link analysis) που οδηγούν στην προς αξιολόγηση ιστοσελίδα. Οι Brin και Page ήταν οι πρώτοι που σκέφτηκαν να χρησιμοποιήσουν τους πολυάριθμους συνδέσμους (links), που δρώντας σαν κόμβοι συνδέουν τις ιστοσελίδες μεταξύ τους και δομούν το οικοδόμημα του Παγκόσμιου Ιστού (World Wide Web, WWW, ή Web), για να προσδιορίσουν την ποιότητα του περιεχομένου μίας ιστοσελίδας. Έτσι έφτιαξαν τον αλγόριθμο PageRank, ο οποίος αξιολογεί ξεχωριστά κάθε σύνδεσμο που οδηγεί στην ιστοσελίδα που πρόκειται να βαθμολογηθεί.
Έστω Α η ιστοσελίδα που πρόκειται να βαθμολογηθεί και Τ1, Τ2, ... , Τn οι ιστοσελίδες που έχουν σύνδεσμο προς την Α. Έστω επίσης ότι C(A) είναι ο αριθμός των "εξωτερικών" συνδέσμων της ιστοσελίδας Α (των συνδέσμων που οδηγούν έξω από την Α). Τότε η βαθμολογία PR(A) της ιστοσελίδας Α, σύμφωνα με τον αλγόριθμο PageRank, είναι: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) όπου d είναι μία παράμετρος απόσβεσης με τιμή μεταξύ 0 και 1.
Εάν αθροίσουμε τις βαθμολογίες όλων των ιστοσελίδων παίρνουμε 1, δηλαδή η PR(A) είναι μία κανονικοποιημένη κατανομή πιθανότητας. Η συνάρτηση PR(A) είναι μία ποσοτικοποιημένη έκφραση της συμπεριφοράς ενός τυχαίου χρήστη του Ιστού, ο οποίος ξεκινώντας από μία τυχαία αρχική ιστοσελίδα, ακολουθεί κάποιους συνδέσμους και πηγαίνει σε άλλες σελίδες μέχρι να βαρεθεί και να σταματήσει. Η πιθανότητα ο τυχαίος αυτός χρήστης να επισκεφτεί την ιστοσελίδα Α είναι PR(A). Ο παράγοντας απόσβεσης d είναι η πιθανότητα να σταματήσει ο χρήστης σε κάθε σελίδα. Το d μπορεί να οριστεί για κάθε ιστοσελίδα, δηλαδή για κάθε κλικ που κάνει ο χρήστης σε κάποιον σύνδεσμο, ή για ένα σύνολο ιστοσελίδων.

Πότε μία ιστοσελίδα έχει υψηλή βαθμολογία;

Σύμφωνα με τον αλγόριθμο PageRank, μία σελίδα Α λαμβάνει υψηλή βαθμολογία εάν υπάρχουν πολλές άλλες ιστοσελίδες με σύνδεσμο προς την Α ή εάν οι ιστοσελίδες με σύνδεσμο προς την Α έχουν λάβει υψηλή βαθμολογία. Αυτό μπορούμε να το αντιληφθούμε και διαισθητικά: οι ιστοσελίδες που "φαίνονται" από πολλά και διαφορετικά μέρη του Ιστού είναι ποιοτικά αξιόλογες. Επίσης οι ιστοσελίδες που "φαίνονται" από λίγα αλλά σημαντικά μέρη του Ιστού είναι και αυτές αξιόλογες σε ποιότητα και λαμβάνουν υψηλή βαθμολογία. Για παράδειγμα, εάν υπάρχει ένας σύνδεσμος προς την ιστοσελίδα σας από το site της βιβλιοθήκης του Koγκρέσου των ΗΠΑ αυτός θα αξιολογηθεί με πολύ μεγαλύτερο βάρος από ότι ένας αντίστοιχος σύνδεσμος από μία άλλη τυχαία ιστοσελίδα. Εκτός από τον αλγόριθμο PageRank υπάρχουν και άλλοι παράγοντες αξιολόγησης μίας ιστοσελίδας Α. Ένας τέτοιος παράγοντας είναι το κείμενο των συνδέσμων που οδηγούν στην Α. Πολλές μηχανές αναζήτησης σχετίζουν το κείμενο ενός συνδέσμου με την ιστοσελίδα στη οποία βρίσκεται ο εν' λόγω σύνδεσμος. Η Google συσχετίζει το κείμενο ενός συνδέσμου με την ιστοσελίδα που βρίσκεται ο σύνδεσμος αλλά και με την ιστοσελίδα που δείχνει. Με άλλα λόγια, το κείμενο που υπάρχει σε ένα link που οδηγεί προς τη σελίδα σας - σύμφωνα με την Google - ανήκει στην σελίδα που υπάρχει ο σύνδεσμος αλλά ταυτόχρονα ανήκει και στη δική σας σελίδα. Στους συνδέσμους μπορεί να βρει κανείς πιο ακριβείς και σύντομες περιγραφές του περιεχομένου μιάς ιστοσελίδας απ' ότι εάν προσπαθήσει να αναλύσει το περιεχόμενο της ιστοσελίδας χρησιμοποιώντας κάποιο Web Robot. Επιπρόσθετα οι σύνδεσμοι μπορούν να δείχνουν σε αρχεία (εικόνες, προγράμματα κλπ.) τα οποία δεν είναι δυνατόν να κατηγοριοποιηθούν από μηχανές αναζήτησης που βασίζονται αποκλειστικά στο κείμενο που περιέχουν οι σελίδες. Θα πρέπει να σημειώσουμε ότι η πρώτη μηχανή αναζήτησης που συσχέτισε το κείμενο ενός συνδέσμου με την ιστοσελίδα που αυτός οδηγεί ήταν η WWWW (World Wide Web Worm, το Μαμούνι του Παγκόσμιου Ιστού) που δημιουργήθηκε το 1994 και ήταν μία από τις πρώτες μηχανές αναζήτησης του Παγκόσμιου Ιστού. Ένας άλλος παράγοντας αξιολόγησης που χρησιμοποιεί η Google στηρίζεται στην ανάλυση του HTML κώδικα που υπάρχει στη ιστοσελίδα. Για παράδειγμα οι λέξεις που είναι γραμμένες με μεγαλύτερα ή με έντονα γράμματα αξιολογούνται ως σημαντικότερες από τις υπόλοιπες λέξεις. Το κείμενο που βρίσκεται μέσα στις ετικέτες h1, h2, κλπ. θεωρείται σημαντικότερο από το υπόλοιπο κείμενο της ιστοσελίδας. Η ετικέτα title είναι επίσης σημαντική για την Google.

Πως διεξάγεται μία αναζήτηση

Μία μηχανή αναζήτησης είναι βασικά ένας τεράστιος κατάλογος ιστοσελίδων. Ο κατάλογος αυτός είναι κατάλογος λέξεων, φράσεων (γενικά κειμένου) και μοιάζει κάπως με το ευρετήριο όρων που συνήθως υπάρχει στο πίσω μέρος ενός βιβλίου. Βέβαια είναι ασύγκριτα μεγαλύτερος και διαφορετικά δομημένος απ' ότι το ευρετήριο όρων ενός βιβλίου. Η ποιότητα του καταλόγου, και ο τρόπος με τον οποίο μία μηχανή αναζήτησης χρησιμοποιεί το κείμενο που αυτός περιέχει, καθορίζουν την ποιότητα των αποτελεσμάτων μιάς αναζήτησης που η εν' λόγω μηχανή διεξάγει. Η Google είναι μία αυτοματοποιημένη μηχανή αναζήτησης που χρησιμοποιεί robots, γνωστά και ως αράχνες (spiders) ή ερπετά (crawlers), που έρπουν στον Ιστό μία φορά κάθε μήνα, και ακολουθώντας συνδέσμους (links) πηγαίνουν από το ένα site στο άλλο, συλλέγουν ιστοσελίδες και δημιουργούν τους καταλόγους της Google. Η διαδικασία αυτή ονομάζεται crawling . Έρποντας στον Ιστό, τα robots της Google, συλλέγουν κάθε μήνα περισσότερες από 3 δισεκατομμύρια ιστοσελίδες ενώ χρειάζονται κάμποσες εβδομάδες για να ολοκληρωθεί η διαδικασία της συλλογής (crawling). Όταν ο χρήστης πληκτρολογήσει κάποιες λέξεις-κλειδιά και τις υποβάλλει στην Google , ξεκινά η διαδικασία της αναζήτησης (query). Ο web server στέλνει τις λέξεις στους servers που είναι αποθηκευμένοι οι κατάλογοι-ευρετήρια της Google. Το περιεχόμενο των καταλόγων αυτών είναι όμοιο με το ευρετήριο όρων που υπάρχει στο πίσω μέρος των βιβλίων: λέει ποιές σελίδες περιέχουν λέξεις που είναι ίδιες οι παρόμοιες με τις λέξεις-κλειδιά του χρήστη. Ακολούθως η αναζήτηση μεταφέρεται στους doc servers οι οποίοι ανακτούν τις αποθηκευμένες ιστοσελίδες. Εν' συνεχεία δημιουργούνται οι ιστοσελίδες με τα αποτελέσματα της αναζήτησης. Οι σελίδες αυτές περιέχουν για κάθε αποτέλεσμα συνήθως τα εξής:
  • Τον τίτλο της ιστοσελίδας που είναι ταυτόχρονα και σύνδεσμος προς αυτή.
  • Μία σύντομη περιγραφή του περιεχομένου της, και
  • έναν ακόμα σύνδεσμο που οδηγεί στην αποθηκευμένη, στον κατάλογο της μηχανής αναζήτησης, ιστοσελίδα.
Τέλος, οι ιστοσελίδες με τα αποτελέσματα της αναζήτησης στέλνονται στον χρήστη, και έτσι ολοκληρώνεται η αναζήτηση. Η όλη διαδικασία διαρκεί συνήθως λιγότερο από 1 sec.

Υποβολή ιστοσελίδων

Η Google όπως αναφέραμε είναι μία αυτοματοποιημένη μηχανή αναζήτησης, που συλλέγει ιστοσελίδες χρησιμοποιώντας spiders και όχι συντάκτες (ανθρώπους). Αυτό σημαίνει ότι δεν είναι αναγκαίο να υποβάλλει κάποιος την ιστοσελίδα του στην Google για να συμπεριληφθεί αυτή στους καταλόγους της. Συνήθως τα robots της Google καθώς έρπουν τον Ιστό, περνάνε από την ιστοσελίδα σας και την συμπεριλαμβάνουν στον κατάλογο. Ωστόσο, εάν θέλετε να υποβάλλετε και αυτοπροσώπως την ιστοσελίδα σας, μπορείτε να το κάνετε απόεδώ. Μπορείτε να υποβάλλετε την ιστοσελίδα σας όσες φορές θέλετε και όσο συχνά θέλετε. Η Google δεν "τιμωρεί" ένα site που έχει υποβληθεί πολλές φορές. Ωστόσο, η πολλαπλή υποβολή δεν αυξάνει την πιθανότητα να συμπεριληφθεί η σελίδα σας στον κατάλογο, ούτε επισπεύδει την διαδικασία. Σημειώστε επίσης, ότι για να υποβάλλετε το site σας αρκεί να συμπληρώσετε το URL της πρώτης σελίδας μόνο, αφού τα robots, ακολουθώντας τους εσωτερικούς συνδέσμους, θα φτάσουν σε όλες τις υπόλοιπες σελίδες του site σας.
 Aναδημοσίευση από www.mixed.gr
Χρήσιμοι σύνδεσμοι:

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου