Back

ⓘ Υπολογιστική γλωσσολογία



                                     

ⓘ Υπολογιστική γλωσσολογία

Η υπολογιστική γλωσσολογία είναι ο διεπιστημονικός τομέας της γλωσσολογίας που ασχολείται με τη στατιστική ή τη βασισμένη σε κανόνες μοντελοποίηση της φυσικής γλώσσας από υπολογιστική σκοπιά. Ονομάζεται αλλιώς και Επεξεργασία του φυσικού λόγου.

Παραδοσιακά, η υπολογιστική γλωσσολογία εκτελούταν από επιστήμονες της πληροφορικής, οι οποίοι είχαν εξειδικευτεί στην αξιοποίηση υπολογιστών για την επεξεργασία της φυσικής γλώσσας. Οι υπολογιστικοί γλωσσολόγοι συνήθως εργάζονται ως μέλη σε διεπιστημονικές ομάδες, οι οποίες συμπεριλαμβάνουν γλωσσολόγους ειδικά εκπαιδευμένους στην γλωσσολογία, ειδικούς της γλώσσας άτομα τα οποία έχουν υψηλό επίπεδο ικανοτήτων σε γλώσσες σχετικές με κάποια δεδομένη εργασία, και επιστήμονες της πληροφορικής. Σε γενικές γραμμές, η υπολογιστική γλωσσολογία βασίζεται στη συμμετοχή και συνεργασία γλωσσολόγων, επιστημόνων υπολογιστών, ειδικών στην τεχνητή νοημοσύνη, μαθηματικών, επιστημόνων της λογικής, φιλοσόφων, γνωσιακών επιστημόνων, γνωσιακών ψυχολόγων, ψυχογλωσσολόγων, ανθρωπολόγων και νευροεπιστημόνων, μεταξύ άλλων.

Η υπολογιστική γλωσσολογία έχει τόσο θεωρητικές όσο και εφαρμοσμένες συνιστώσες: πιο συγκεκριμένα, η θεωρητική υπολογιστική γλωσσολογία ασχολείται με θέματα που απασχολούν την θεωρητική γλωσσολογία ενώ η εφαρμοσμένη υπολογιστική γλωσσολογία εστιάζει στα πρακτικά αποτελέσματα της μοντελοποίησης της χρήσης της ανθρώπινης γλώσσας.

                                     

1. Προέλευση

Η υπολογιστική γλωσσολογία ως κλάδος είναι προγενέστερος της τεχνητής νοημοσύνης, ένα πεδίο με το οποίο συνήθως συνεργάζεται στενά. Η υπολογιστική γλωσσολογία γεννήθηκε στις Ηνωμένες Πολιτείες την δεκαετία του 1950 όταν γίνονταν προσπάθειες να χρησιμοποιούνται υπολογιστές για να μεταφράζονται αυτόματα κείμενα από ξένες γλώσσες, κυρίως ρωσικά επιστημονικά περιοδικά, στα αγγλικά. Εφόσον οι υπολογιστές μπορουν να κάνουν αριθμητικούς υπολογισμούς πολύ γρηγορότερα και ακριβέστερα από τους ανθρώπους, θεωρήθηκε πως οι τεχνικές λεπτομέρειες θα μπορούσαν να ξεπεραστούν σε μικρό χρονικό διάστημα και, έτσι, θα τους παρεχόταν η ίδια αξιοθαύμαστη ικανότητα με σκοπό την επεξεργασία της γλώσσας.

Όταν η αυτόματη μετάφραση γνωστή επίσης και ως μηχανική μετάφραση απέτυχε στο να παρέχει ακριβείς μεταφράσεις άμεσα, η αυτόματη επεξεργασία των ανθρώπινων γλωσσών αναγνωρίστηκε ως εξαιρετικά πιο περίπλοκη από ότι είχε αρχικά υποτεθεί. Η υπολογιστική γλωσσολογία γεννήθηκε ως το καινούριο όνομα του επιστημονικού πεδίου αφιερωμένο στη ανάπτυξη αλγορίθμων και λογισμικού για την ευφυή επεξεργασία γλωσσικών δεδομένων. Όταν η τεχνητή νοημοσύνη καθιερώθηκε για πρώτη φορά τη δεκαετία του 1960, η υπολογιστική γλωσσολογία έγινε ο υποκλάδος της τεχνητής νοημοσύνης που ασχολούνταν με την κατανόηση και την παραγωγή των φυσικών γλωσσών σε ανθρώπινο επίπεδο.

Προκειμένου να μεταφραστεί μία γλώσσα σε μία άλλη, παρατηρήθηκε πως είναι απαραίτητη η κατανόηση της γραμματικής και των δύο γλωσσών, συμπεριλαμβανομένης και της μορφολογίας της γραμματικής των λεξικών μορφών και της σύνταξης της γραμματικής των προτασιακών δομών. Προκειμένου να κατανοήσει κάποιος ή κάποια την σύνταξη, έπρεπε επίσης να κατανοήσει και την σημασιολογία και το λεξικό, ή ακόμη και να καταλάβει κάτι σχετικά με την πραγματολογία της χρήσης της γλώσσας. Επομένως, αυτό που ξεκίνησε ως η προσπάθεια μετάφρασης δύο ξένων γλωσσών εξελίχθηκε σε μία ολόκληρη επιστήμη, η οποία έχει ως σκοπό να κατανοήσει πώς μπορούν να αντιπροσωπευτούν και να υποστούν επεξεργασία οι φυσικές γλώσσες με τη χρήση υπολογιστών.

Στην εποχή μας, η έρευνα μέσα από τη σκοπιά της υπολογιστικής γλωσσολογίας λαμβάνει χώρα σε εξειδικευμένα πανεπιστημιακά τμήματα υπολογιστικής γλωσσολογίας, σε εργαστήρια υπολογιστικής γλωσσολογίας, σε πανεπιστημιακά τμήματα πληροφορικής και σε ευρύτερα πανεπιστημιακά τμήματα γλωσσολογίας.

                                     

2. Προσεγγίσεις

Όπως η υπολογιστική γλωσσολογία μπορεί να εξεταστεί από ειδικούς σε ένα μεγάλο αριθμό επιστημονικών πεδίων και μέσω ενός μεγάλου εύρους πανεπιστημιακών τμημάτων, έτσι τα ερευνητικά πεδία μπορούν επίσης να αναφερθούν σε έναν ευρύ και ποικίλο αριθμό θεμάτων. Οι ακόλουθες ενότητες εξετάζουν μερική από την υπάρχουσα βιβλιογραφία, διαιρεμένη σε τέσσερις διαφορετικές ερευνητικές περιοχές: αναπτυξιακή γλωσσολογία, δομική γλωσσολογία, γλωσσική παραγωγή και γλωσσική κατανόηση.

                                     

2.1. Προσεγγίσεις Αναπτυξιακές προσεγγίσεις

Η γλώσσα είναι μία ικανότητα του εγκεφάλου η οποία εξελίσσεται καθ όλη τη διάρκεια της ζωής ενός ατόμου. Αυτή η εξελικτική διαδικασία έχει εξεταστεί με διάφορες τεχνικές, και η υπολογιστική μέθοδος είναι μία απ αυτές. Η ανάπτυξη της ανθρώπινης γλώσσας παρέχει κάποιους περιορισμούς, οι οποίοι καθιστούν εφικτή την υπολογιστική μέθοδο προκειμένου να την κατανοήσουμε. Για παράδειγμα, κατά την κατάκτηση της γλώσσας, τα παιδιά εκτίθενται σε μεγάλο βαθμό μόνο σε "θετικά στοιχεία". Αυτό σημαίνει πως κατά τη γλωσσική ανάπτυξη ενός ατόμου, του παρέχονται γλωσσικά στοιχεία τα οποία αποτελούν πάντα σωστές γλωσσικές δομές και ποτέ λανθασμένες. Επομένως, δεν υπάρχουν επαρκείς πληροφορίες για να στηρίξουν την υπόθεση που εξετάζει την επεξεργασία πληροφοριών τόσο περίπλοκων όσο είναι η ανθρώπινη γλώσσα, και έτσι παρέχει ορισμένους περιορισμούς ώστε να μπορέσει να μοντελοποιηθεί η γλωσσική ανάπτυξη και κατάκτηση ενός ατόμου, μέσω της υπολογιστικής μεθόδου.

Προσπάθειες έχουν γίνει να μοντελοποιηθεί η αναπτυξιακή διαδικασία της γλωσσικής κατάκτησης στα παιδιά από την υπολογιστική σκοπιά. Η ενασχόληση με αυτό το πεδίο έχει επίσης προταθεί και ως μία μέθοδος για να εξηγηθεί η εξέλιξη της γλώσσας στη διάρκεια της ιστορίας. Με τη χρήση μοντέλων, έχει αποδειχθεί πως οι γλώσσες μπορούν να κατακτηθούν πιο αποτελεσματικά με την σταδιακή έκθεση των παιδιών αρχικά σε έναν συνδυασμό απλών δεδομένων. Έτσι τα παιδιά αναπτύσσουν καλύτερη μνήμη και μεγαλύτερο εύρος προσοχής. Αυτό το συμπέρασμα τέθηκε ταυτόχρονα και ως η αιτία για την μεγάλη σε διάρκεια περίοδο ανάπτυξης των παιδιών. Και τα δύο παραπάνω συμπεράσματα βγάλθηκαν χάρη στην δύναμη του νευρικού συστήματος που δημιούργησε το εν λόγω ερευνητικό πρόγραμμα.

Η ικανότητα των νηπίων να αναπτύσσουν γλώσσα έχει επίσης μοντελοποιηθεί με την χρήση ρομπότ προκειμένου να εξεταστούν οι γλωσσικές θεωρίες. Με την ικανότητα να μαθαίνουν όπως μαθαίνουν τα παιδιά, δημιουργήθηκε ένα μοντέλο βασισμένο σε ένα "μοντέλο δυνατότητας" στο οποίο δημιουργήθηκαν χαρτογραφήσεις μεταξύ πράξεων, αντιλήψεων και αποτελεσμάτων, οι οποίες μετά συνδέθηκαν με προφερόμενες λέξεις. Το σημαντικό αποτέλεσμα της έρευνας ήταν ότι τα ρομπότ κατάφεραν να αποκτήσουν λειτουργικές χαρτογραφήσεις από τις λέξεις στα νοήματα τους χωρίς να είναι απαραίτητη κάποια γραμματική δομή, μέσω της υπεραπλούστευσης της διαδικασίας μάθησης, παρέχοντάς μας πληροφορίες που εμπλουτίζουν την μέχρι τώρα γνώση μας για την γλωσσική ανάπτυξη. Τέτοιου είδους γνώση θα μπορούσε να αποκτηθεί μόνο εμπειρικά μέσω της υπολογιστικής μεθόδου.

Καθώς η κατανόηση μας για την γλωσσική ανάπτυξη ενός ατόμου κατά τη διάρκεια της ζωής του συνεχώς βελτιώνεται χρησιμοποιώντας νευρικά συστήματα και ρομποτικά συστήματα τα οποία είναι ικανά να μαθαίνουν, είναι επίσης σημαντικό να θυμόμαστε πως και οι ίδιες οι γλώσσες αλλάζουν και εξελίσσονται με το πέρασμα του χρόνου. Οι υπολογιστικές προσεγγίσεις που έχουν βοηθήσει να κατανοήσουμε αυτό το φαινόμενο μας έχουν παρέχει πολύ ενδιαφέρουσες πληροφορίες. Χρησιμοποιώντας την εξίσωση του Πράις και τη δυναμική του στατιστικού μοντέλου του Πόλυα, οι ερευνητές έχουν δημιουργήσει ένα σύστημα το οποίο όχι μόνο μπορεί να προβλέψει τη μελλοντική γλωσσική εξέλιξη, αλλά επίσης να παρέχει γνώσεις σχετικά με το εξελικτική ιστορία των σύγχρονων γλωσσών. Τέτοιου είδους προσπάθεια μοντελοποίησης δεν θα ήταν εφικτή χωρίς τη βοήθεια της υπολογιστικής γλωσσολογίας.

Είναι εμφανές, λοιπόν, πως η κατανόηση της ανθρώπινης γλωσσικής εξέλιξης κατά τη διάρκεια οποιασδήποτε εξελικτικής περιόδου έχει βελτιωθεί σημαντικά χάρη στις εξελίξεις στο πεδίο της υπολογιστικής γλωσσολογίας. Η ικανότητα μας να μοντελοποιούμε και να τροποποιούμε συστήματα κατά τη θέληση μας διαθέτει στην επιστήμη έναν ηθικό τρόπο να επαληθεύονται επιστημονικές υποθέσεις, οι οποίες διαφορετικά θα ήταν τρομερά δύσκολο να ερευνηθούν.



                                     

2.2. Προσεγγίσεις Δομικές προσεγγίσεις

Προκειμένου να δημιουργηθούν καλύτερα υπολογιστικά μοντέλα για την γλώσσα, είναι αρκετά σημαντικό να μπορέσει να κατανοηθεί η ίδια η δομή της γλώσσας πρώτα. Με αυτό το σκοπό, η Ελληνική γλώσσα έχει μελετηθεί σχολαστικά και η έρευνα διαρκώς συνεχίζεται για να κατανοηθεί πως λειτουργεί η γλώσσα σε δομικό επίπεδο. Ένα από τα πιο σημαντικά ζητήματα προκειμένου να μπορέσει κάποιος ή κάποια να μελετήσει τη γλωσσική δομή είναι η ύπαρξη και διαθεσιμότητα μεγάλων σωμάτων κειμένων. Αυτά δίνουν επίσης στους υπολογιστικούς γλωσσολόγους όλα τα ανεπεξέργαστα δεδομένα τα οποία είναι απαραίτητα για να τρέξουν τα μοντέλα τους και να κατανοήσουν καλύτερα τις υποκείμενες δομές που βρίσκονται παρούσες στον μεγάλο όγκο δεδομένων, ο οποίος περιέχεται σε οποιαδήποτε γλώσσα. Ενδεικτικά, ανάμεσα στα ελληνικά σώματα κειμένων που παραθέτονται πιο συχνά βρίσκονται το Σώμα Νέων Ελληνικών Κειμένων, το οποίο περιέχει περίπου 7 εκατομμύρια λεκτικούς τύπους, και Το Σώμα Κειμένων του ΙΕΛ, το οποίο περιέχει περίπου 47 εκατομμύρια λεκτικούς τύπους. Και τα δύο προαναφερθέντα σώματα κειμένων έχουν επισημανθεί με πληροφορίες σχετικές με τα μέρη του λόγου. Τέτοιου είδους επισημασμένα σώματα κειμένων είναι που επιτρέπουν στους ερευνητές να εφαρμόζουν τις επιστημονικές υποθέσεις τους και να κάνουν τις απαραίτητες μετρήσεις τους σχετικές με τη γλώσσα.

Οι θεωρητικές προσεγγίσεις στις δομές των γλωσσών λαμβάνονται επίσης υπόψιν. Τέτοιου είδους έρευνες επιτρέπουν στους υπολογιστικούς γλωσσολόγους να έχουν ένα πλαίσιο εργασίας μέσα στο οποίο εξετάζουν τις υποθέσεις τους, οι οποίες επεκτείνουν τις γνώσεις μας για την κατανόηση της γλώσσας με πολλαπλούς τρόπους. Μία από τις αυθεντικές θεωρητικές διατριβές σχετικά με την ενοποίηση της γραμματικής και της δομής της γλώσσας πρότεινε δύο ειδών μοντέλα. Σε αυτά τα μοντέλα, οι κανόνες ή τα μοτίβα τα οποία μαθαίνονται αυξάνουν σε δύναμη ανάλογα με την συχνότητα με την οποία συναντιούνται. Η εν λόγω εργασία δημιούργησε και την παρακάτω ερώτηση: Πως είναι δυνατόν ένα παιδί να μαθαίνει μια συγκεκριμένη και μη-κανονική γραμματική Chomsky Normal Form, μία γραμματική, δηλαδή, η οποία δεν έχει προβλέψιμα χαρακτηριστικά και πιθανότητες, χωρίς να μαθαίνει μία υπεργενικευμένη εκδοχή της και να μην κωλύεται? Θεωρητικές προσπάθειες σαν κι αυτές κατευθύνουν την έρευνα νωρίς στη διάρκεια ζωής ενός ερευνητικού πεδίου και είναι κρίσιμες για την ανάπτυξη του εκάστοτε πεδίου.

Οι πληροφορίες για τη δομή της γλώσσας διευκολύνουν την ανακάλυψη και την εφαρμογή αναγνώρισης ομοιοτήτων μεταξύ ζευγαριών εκφράσεων κειμένου. Παραδείγματος χάρη, πρόσφατα αποδείχθηκε ότι, βασισμένα σε δομικές πληροφορίες παρούσες σε μοτίβα ανθρώπινου λόγου, εννοιολογικά πλέγματα επαναλήψεων μπορούν να χρησιμοποιηθούν ώστε να μοντελοποιήσουν και να εικονίσουν τις τάσεις των δεδομένων και να κάνουν αξιόπιστες μετρήσεις της ομοιότητας ανάμεσα σε φυσικές κειμενικές εκφράσεις. Αυτή η τεχνική είναι ένα πολύ δυνατό εργαλείο για την περαιτέρω διερεύνηση της δομής του ανθρώπινου λόγου. Δίχως την υπολογιστική προσέγγιση σε στο παραπάνω ζήτημα, η τόσο περίπλοκες πληροφορίες παρούσες στα δεδομένα του λόγου θα παρέμεναν απροσπέλαστες στους επιστήμονες.

Εκτός από την Ελληνική, πληροφορίες σχετικές με τα δομικά δεδομένα της γλώσσας είναι επίσης διαθέσιμα και σε πολλές άλλες γλώσσες. Μία από αυτές τις γλώσσες είναι η Ιαπωνική. Χρησιμοποιώντας υπολογιστικές μεθόδους, η Ιαπωνική γλώσσα αναλύθηκε και έτσι βρέθηκε ένα μοτίβο λογαριθμικής κανονικότητας σε σχέση με το μήκος των προτάσεων. Αν και η ακριβής αιτία της λογαριθμικής κανονικότητας παραμένει άγνωστη, παρόλα αυτά, η υπολογιστική γλωσσολογία σχεδιάστηκε να αποκαλύπτει ακριβώς αυτού του είδους τις ενδιαφέρουσες πληροφορίες, οι οποίες στην προκειμένη περίπτωση θα μπορούσαν να οδηγήσουν σε περαιτέρω ανακαλύψεις σχετικά με τις υποκείμενες δομές της Ιαπωνικής και θα μπορούσε να έχει πολυάριθμες επιδράσεις στην κατανόηση της Ιαπωνικής ως γλώσσα.

Η υπολογιστική γλωσσολογία πολύ γρήγορα προσθέτει καινούριες και συναρπαστικές πληροφορίες στην επιστημονική μας γνώση με λίγα περιθώρια για αμφιβολίες. Χωρίς τις υπολογιστικές προσεγγίσεις στη δομή των γλωσσικών δεδομένων ένα μεγάλο ποσοστό των γνώσεων που είναι διαθέσιμες αυτή τη στιγμή θα ήταν χαμένο και κρυμμένο μέσα στην απεραντοσύνη των δεδομένων οποιασδήποτε γλώσσας. Η υπολογιστική γλωσσολογία επιτρέπει στους επιστήμονες να αναλύσουν τεράστιες ποσότητες πληροφοριών και δεδομένων με αξιοπιστία και αποτελεσματικότητα, δημιουργώντας, έτσι, την δυνατότητα για καινούριες ανακαλύψεις που δεν θα ήταν δυνατές με την χρήση άλλων μεθόδων και προσεγγίσεων.

                                     

2.3. Προσεγγίσεις Προσεγγίσεις παραγωγής λόγου

Η παραγωγή της γλώσσας είναι εξίσου περίπλοκη σχετικά με τις πληροφορίες που μας παρέχει και τις απαραίτητες ικανότητες που πρέπει να έχει ένας άπταιστος ομιλητής μιας γλώσσας. Αυτό σημαίνει πως η κατανόηση της γλώσσας είναι μόνο η μία όψη του νομίσματος στην εξερεύνηση της ανθρώπινης επικοινωνίας. Η άλλη όψη του νομίσματος αφορά τον τρόπο που ένα σύστημα παράγει την γλώσσα και η υπολογιστική γλωσσολογία έχει κάνει πολλές ενδιαφέρουσες ανακαλύψεις πάνω σε αυτό το πεδίο.

Στο γνωστό του επιστημονικό κείμενο που δημοσιεύτηκε το 1950, ο Άλαν Τούρινγκ εξέφρασε την πιθανότητα ότι οι μηχανές θα μπορούν κάποια μέρα να διαθέτουν την ικανότητα της "σκέψης". Ως ένα νοητικό πείραμα για το τι θα μπορούσε να σημαίνει η έννοια ότι οι μηχανές σκέφτονται, πρότεινε ένα "τεστ μίμησης" στο οποίο ένας άνθρωπος θα έχει δύο κειμενικούς διαλόγους, ένα διάλογο με κάποιον άλλον επίσης άνθρωπο και ένα διάλογο με μία μηχανή η οποία θα επιχειρούσε να απαντάει όπως θα απαντούσε κανονικά ένας άνθρωπος. Ο Τούρινγκ πρότεινε πως εάν ο διαλεγόμενος δεν μπορούσε να ξεχωρίσει τις διαφορές μεταξύ του άλλου ανθρώπου και της μηχανής, αυτό θα μπορούσε να σημαίνει πως η μηχανή έχει την δυνατότητα της σκέψης. Σήμερα το τεστ είναι γνωστό ως το τεστ του Τούρινγκ και είναι μία ιδέα που ασκεί ακόμη επιρροή στο πεδίο της τεχνητής νοημοσύνης.

Ένα από τα πρώτα και πιο γνωστά παραδείγματα ενός προγράμματος υπολογιστή το οποίο σχεδιάστηκε από τον Τζόζεφ Γουάιζενμπάουμ στο MIT το 1966 για να διαλέγεται με φυσικό τρόπο με ανθρώπους είναι το πρόγραμμα ELIZA. Το πρόγραμμα μιμούνταν έναν προσωποκεντρικό ψυχοθεραπευτή ο οποίος απαντούσε στις δηλώσεις και στις ερωτήσεις κάποιου χρήστη. Φαινόταν σαν να ήταν ικανό να καταλαβαίνει τι του έλεγαν και απαντούσε έξυπνα σαν να ήταν νοήμον αλλά στην πραγματικότητα απλά ακολουθούσε μία τακτική ταιριάσματος μοτίβων που βασιζόταν στο να καταλαβαίνει μόνο κάποιες λέξεις-κλειδιά μέσα σε μία πρόταση. Οι απαντήσεις του παραγόντουσαν συνδυάζοντας ξανά τα άγνωστα κομμάτια μιας πρότασης με άλλες, σωστά μεταφρασμένες εκδοχές των ήδη γνωστών λέξεων-κλειδιών σε κάθε πρόταση. Για παράδειγμα, στην φράση "Φαίνεται πως εσύ με μισείς", το ELIZA καταλάβαινε τις λέξεις "εσύ" και "με", οι οποίες ταίριαζαν στο γενικό μοτίβο "εσύ με ", επιτρέποντας στο ELIZA να αλλάξει τις λέξεις "εσύ" και "με" στις λέξεις "σε" και "εγώ" και έτσι να απαντήσει με τη φράση "Τι σε κάνει να πιστεύεις πως εγώ σε μισώ?". Σε αυτό το παράδειγμα, το ELIZA δεν καταλάβαινε καθόλου τι σημαίνει η λέξη "μισώ" αλλά δεν ήταν και απαραίτητο για μία λογική απάντηση στα συμφραζόμενα αυτού του είδους την ψυχοθεραπεία.

Κάποιες έρευνες ακόμη προσπαθούν να επιλύσουν το πρόβλημα το οποίο δημιούργησε την υπολογιστική γλωσσολογία ως ξεχωριστό επιστημονικό πεδίο. Παρόλα αυτά, οι μέθοδοι είναι πλέον πολύ πιο εκλεπτυσμένοι και έξυπνοι, και ως κατά συνέπεια τα αποτελέσματα των υπολογιστικών γλωσσολόγων είναι πολύ πιο διαφωτιστικά. Σε μια προσπάθεια βελτίωσης της υπολογιστικής μετάφρασης, συγκρίθηκαν ορισμένα μοντέλα, συμπεριλαμβανομένου τα Λανθάνοντα μοντέλα Markov, τις τεχνικές εξομάλυνσης και τις αντίστοιχες βελτιώσεις τους, ώστε να τις εφαρμόσουν στην μετάφραση ρημάτων. Στο συγκεκριμένο παράδειγμα, το μοντέλο που παρήγαγε τις πιο φυσικές μεταφράσεις γερμανικών και γαλλικών λέξεων ήταν ένα βελτιωμένο μοντέλο ευθυγραμμίας με πρώτης τάξεως εξάρτηση και με ένα μοντέλο γονιμότητας. Τα μοντέλα επίσης παρέχουν αποτελεσματικούς αλγόριθμους εξάσκησης για τα εν λόγω μοντέλα τα οποία μπορούν να δώσουν στους επιστήμονες την ικανότητα να βελτιώσουν επιπλέον τα αποτελέσματά τους. Αυτού του είδους οι εργασίες διεξάγονται μόνο στην υπολογιστική γλωσσολογία και έχει εφαρμογές που θα μπορούσαν να βελτιώσουν την κατανόηση μας για το τρόπο που παράγεται και κατανοείται η γλώσσα από τους υπολογιστές.

Εργασίες έχουν επίσης διεξαχθεί πάνω στην παραγωγή λόγου από τους υπολογιστές με πιο φυσικό τρόπο. Χρησιμοποιώντας γλωσσικά δεδομένα από τους ανθρώπους, έχουν κατασκευαστεί αλγόριθμοι οι οποίοι είναι ικανοί να τροποποιήσουν το ύφος της παραγωγής λόγου ενός συστήματος βασιζόμενοι σε παράγοντες όπως τα ίδια τα γλωσσικά δεδομένα από τους ανθρώπους και σε πιο αφηρημένους παράγοντες όπως η ευγένεια ή οποιαδήποτε από τις πέντε βασικές διαστάσεις της προσωπικότητας. Η παραπάνω έρευνα χρησιμοποιεί υπολογιστική προσέγγιση μέσω μοντέλων εκτίμησης παραμέτρων ώστε να κατηγοριοποιήσει την αχανή παράταξη γλωσσικών υφών που παρατηρείται στους ανθρώπους και να την απλοποιήσει ώστε να μπορεί να ένας υπολογιστής να λειτουργεί με τον ίδιο τρόπο, κάνοντας έτσι την αλληλεπίδραση ανθρώπου-υπολογιστή πιο φυσική.

                                     

2.4. Προσεγγίσεις Προσεγγίσεις κατανόησης λόγου

Η εστίαση της έρευνας της υπολογιστικής γλωσσολογίας βρίσκεται σε μεγάλο βαθμό στην κατανόηση της γλώσσας. Με την επέκταση του Διαδικτύου και την αφθονία του εύκολα προσβάσιμου ανθρώπινου γραπτού λόγου, η δυνατότητα να δημιουργηθεί ένα πρόγραμμα που θα μπορεί να κατανοεί την ανθρώπινη γλώσσα θα είχε πολλές ενδιαφέρουσες δυνατότητες, συμπεριλαμβανομένου βελτιωμένες μηχανές αναζήτησης, αυτόματη εξυπηρέτηση πελατών και εκπαίδευση μέσω του Διαδικτύου online.

Η πρώτη εργασία πάνω στην κατανόηση συμπεριελάμβανε την εφαρμογή στατιστικής του Μπέυζ στο αντικείμενο της οπτικής αναγνώρισης χαρακτήρων, όπως έδειξαν οι Bledsoe και Browing το 1959, στην οποία δημιουργήθηκε ένα μεγάλο λεξικό πιθανών γραμμάτων "μαθαίνοντας" από παραδείγματα γραμμάτων, και έπειτα οι πιθανότητες ότι οποιοδήποτε από τα παραδείγματα, που είχαν μαθευτεί, ταιριάζει με τα καινούρια δεδομένα συνδυάστηκαν για να δώσουν το τελικό αποτέλεσμα. Άλλες προσπάθειες για να εφαρμοστεί η στατιστική του Μπέυζ στη γλωσσική ανάλυση περιλαμβάνει τη δουλια των Mosteller και Wallace 1963, στην οποία χρησιμοποιήθηκε μία ανάλυση των λέξεων από Ομοσπονδιακές εφημερίδες για να προσπαθήσουν να αναδείξουν τους συγγραφείς της καε εφημερίδας.

Το 1979, ο Τέρυ Γουίνογκραντ Terry Winograd ανέπτυξε μία μηχανή επεξεργασίας του φυσικού λόγου η οποία είχε τη δυνατότητα να ερμηνεύει φυσικά γραπτές εντολές μέσα σε ένα περιβάλλον επιβολής απλών κανόνων. Το πρωταρχικό πρόγραμμα ανάλυσης της γλώσσας σε αυτή την εργασία ονομαζόταν SHRDLU, το οποίο ήταν ικανό να συνδιαλέγεται σχεδόν φυσικά με κάποιον χρήστη με το να του δίνονται εντολές αλλά μόνο υπό την σκοπιά του περιβάλλοντος παιχνιδιού που είχε σχεδιαστεί ειδικά για την εν λόγω εργασία. Αυτό το περιβάλλον απαρτίζονταν από διαφορετικού χρώματος και σχήματος τουβλάκια, και το SHRDLU ήταν ικανό να ερμηνεύει εντολές του τύπου "Βρες ένα τουβλάκι που είναι ψηλότερο από αυτό που κρατάς και βάλε το μέσα στο κουτί" και να απαντάει σε ερωτήσεις με φράσεις όπως "Δεν καταλαβαίνω ποια πυραμίδα εννοείς" προς απάντηση στις ερωτήσεις του χρήστη. Αν και εντυπωσιακή, αυτού του είδους η επεξεργασία του φυσικού λόγου αποδείχτηκε πολύ πιο δύσκολη έξω από τη περιορισμένη σκοπιά του περιβάλλοντος του παιχνιδιού. Με παρόμοιο τρόπο, η ΝΑΣΑ ανέπτυξε ένα πρόγραμμα με το όνομα LUNAR που σχεδιάστηκε να παρέχει απαντήσεις σε φυσικά γραπτές ερωτήσεις σχετικά με τη γεωλογική ανάλυση σεληνιακών πετρωμάτων που είχαν επιστραφεί με το αποστολές Απόλλων. Τέτοιου είδους προβλήματα αναφέρονται και ως "Αυτόματη απόκριση ερωτήσεων".

Οι πρώτες προσπάθειες στην κατανόηση της ομιλούμενης γλώσσας βασίστηκαν στη δουλειά που έγινε πάνω στην μοντελοποιήση σημάτων στις δεκαετίες του 1960 και 1970, στην οποία ένα σήμα αναλυόταν για να ψάξει για μοτίβα και να κάνει προβλέψεις με βάση το ιστορικό του. Μία από τις πρώτες και μάλλον επιτυχημένες απόπειρες να εφαρμοστεί η μοντελοποίηση σημάτων στην γλώσσα επιτεύχθηκε με τη χρήση Λανθανόντων μοντέλων Markov, όπως επεξηγήθηκε με λεπτομέρειες από τον Ράμπινερ Lawrence R. Rabiner το 1989. Τέτοιου είδους προσέγγιση επιχειρεί να καθορίσει τις πιθανότητες για έναν αυθαίρετο αριθμό μοντέλων που θα μπορούσαν να χρησιμοποιηθούν στην παραγωγή λόγου, όπως επίσης και στην μοντελοποίηση των πιθανοτήτων των ποικίλων λέξεων που παρήχθησαν από το καθένα από αυτά τα πιθανά μοντέλα. Παρόμοιες προσπάθειες έγιναν και στις πρώτες προσπάθειες αυτόματης αναγνώριση ομιλίας τα τελευταία χρόνια της δεκαετίας του 1970 από την IBM χρησιμοποιώντας πιθανότητες ζευγών λέξης/μέρους του λόγου.

Στη σημερινή εποχή, αυτές οι στατιστικές τεχνικές εφαρμόζονται σε πιο δύσκολες εργασίες όπως για παράδειγμα η αυτόματη αναγνώριση θέματος χρησιμοποιώντας εκτίμηση παραμέτρων του Μπέυζ, ώστε να συμπεράνουν τις πιθανότητες των θεμάτων σε κείμενα εγγράφων.



                                     

3. Υποκλάδοι της υπολογιστικής γλωσσολογίας

Η υπολογιστική γλωσσολογία διαιρείται σε κύριους επιστημονικούς υποκλάδους ανάλογα με

  • την εργασία που εκτελείται, το αν δηλαδή αναλύεται η γλώσσα αναγνώριση ή συντίθεται παραγωγή
  • το μέσον της γλώσσας το οποίο είναι προς επεξεργασία, το αν είναι δηλαδή ομιλούμενος ή γραπτός λόγος

Η αυτόματη αναγνώριση ομιλίας και η αυτόματη σύνθεση ομιλίας αφορούν τον τρόπο με τον οποίο η γλώσσα μπορεί να κατανοηθεί και να δημιουργηθεί αντίστοιχα απο τους υπολογιστές. Η ανάλυση και η παραγωγή είναι υποκλάδοι της υπολογιστικής γλωσσολογίας που έχουν να κάνουν με την διάλυση και την συναρμολόγηση της γλώσσας αντίστοιχα. Η αυτόματη μετάφραση παραμένει ο υποκλάδος της υπολογιστικής γλωσσολογίας που αφορά την μετάφραση μεταξύ των γλωσσών από τους υπολογιστές.

Κάποια από τα υπόλοιπα επιστημονικά πεδία έρευνας της υπολογιστικής γλωσσολογίας περιλαμβάνουν:

  • τον σχεδιασμό προγραμμάτων επισημείωσης taggers όπως οι "επισημειωτές" των μερών του λόγου part-of-speech ή POS taggers
  • τον σχεδιασμό προγραμμάτων ανάλυσης parsers ή προγραμμάτων μερικής συντακτικής ανάλυσης chunkers
  • την υποβοηθούμενη από υπολογιστές γλωσσολογία σωμάτων κειμένων
  • την προσομοίωση και εξέταση της γλωσσικής εξέλιξης από τους κλάδους της ιστορικής γλωσσολογίας και της γλωσσοχρονολογίας
  • την μηχανική ή αυτόματη μετάφραση, μία από της πρώτες και πιο δύσκολες εφαρμογές της υπολογιστικής γλωσσολόγιας η οποία αντλεί γνώσεις από πολλούς υποκλάδους
  • την υπολογιστική πολυπλοκότητα, η οποία σε μεγάλο βαθμό χρησιμοποιεί μοντέλα βασισμένα στην θεωρία αυτομάτων και εφαρμόζεται από μηχανές Τούρινγκ που χρησιμοποιούν γραμματικές ευαίσθητες στα συμφραζόμενα και είναι οριοθετημένες γραμμικά
  • την υπολογιστική σημασιολογία, το πεδίο που ερευνά το πως μπορεί να αυτοματοποιηθεί η διαδικασία της σημασιολογικής ανάλυσης, συλλογισμών και λογικής των εκφράσεων της φυσικής ομιλίας

Η Ένωση Υπολογιστικής Γλωσσολογίας ορίζει την υπολογιστική γλωσσολογία ως:

".την επιστημονική μελέτη της γλώσσας από μία υπολογιστική σκοπιά. Η υπολογιστική γλωσσολογία ενδιαφέρεται να παρέχει υπολογιστικά μοντέλα για ποικίλων ειδών γλωσσικά φαινόμενα."

Free and no ads
no need to download or install

Pino - logical board game which is based on tactics and strategy. In general this is a remix of chess, checkers and corners. The game develops imagination, concentration, teaches how to solve tasks, plan their own actions and of course to think logically. It does not matter how much pieces you have, the main thing is how they are placement!

online intellectual game →