Μεταφορά Τεχνολογίας & Υποστήριξη Καινοτομίας στην Πράξη

Λογισμικό μετατροπής φωνής με δυνατότητα προσαρμογής σε εφαρμογές ήχου

Τεύχος

09/2015

Περίληψη

Ο ραγδαία εξελισσόμενος τομέας της πληροφορικής προσφέρει πολυάριθμες δυνατότητες που αλλάζουν τον τρόπο ζωής του ανθρώπου. Η μαζική είσοδος και ενσωμάτωση των smartphones στην καθημερότητα παρέχει τη δυνατότητα να αναπτυχθούν εφαρμογές που ενώ απαιτούν μεγάλη υπολογιστική ισχύ μπορούν να χρησιμοποιηθούν ευρέως από τους καταναλωτές. Παράλληλα, ανακύπτουν σημαντικές επιχειρηματικές ευκαιρίες σε πεδία όπως η παραγωγή ταινιών, οι εκδόσεις ηχητικών βιβλίων και η δημιουργία και ανάπτυξη ηλεκτρονικών παιχνιδιών. Η τεχνολογία που έχει αναπτυχθεί από γερμανική εταιρεία μετατρέπει μια φωνή-πηγή σε μια φωνή-στόχο χρησιμοποιώντας μόνο δύο δείγματα ήχου κατά τη διαδικασία μετατροπής. Το λογισμικό μπορεί να επιφέρει μεγάλες αλλαγές στην αγορά των διαδραστικών μέσων που απαιτούν χρήση φωνής. Δημιουργεί ένα νέο τρόπο διασκέδασης και ανοίγει ένα ευρύ φάσμα εμπορικών εφαρμογών, ιδίως για εφαρμογές B2B διαδραστικών μέσων όπως η εξατομίκευση φωνής στα παιχνίδια, μεταγλώττιση ταινών, εξατομικευμένη φωνή σε ηχητικά βιβλία, σε τραγούδια, το smartphone φωνής (π.χ. SIRI ™ - Apple ) καθώς και στον τομέα B2C μέσα από δημιουργικές και διαδραστικές εφαρμογές κινητών τηλεφώνων.

Περιγραφή

Παρά την εκτεταμένη ερευνητική δραστηριότητα στον τομέα της μετατροπής φωνής, παραμένουν ακόμα πολλές προκλήσεις οι οποίες πρέπει να επιλυθούν. Μια από αυτές είναι ότι η αντίληψη της ποιότητας και η επιτυχία της μετατροπής είναι σε μεγάλο βαθμό υποκειμενικές. Επιπρόσθετα, δεν υπάρχει κάποιο μοναδικό σωστό αποτέλεσμα μετατροπής: όταν ένας ομιλητής εκφωνεί μια δεδομένη πρόταση πολλές φορές, κάθε επανάληψη είναι διαφορετική. Για αυτούς τους λόγους, απαιτούνται χρονοβόρες δοκιμές ακρόασης προκειμένου να αναπτυχθεί και αξιολογηθεί ένα σύστημα μετατροπής φωνής. Συμπληρωματικά στη χρήση των δοκιμών ακρόασης μπορούν να χρησιμοποιηθούν κάποια αντικειμενικά ποιοτικά μέτρα, τα οποία προσεγγίζουν την υποκειμενική αξιολόγηση.
Η προτεινόμενη τεχνολογία έχει ήδη αναπτυχθεί σε λειτουργικό πρωτότυπο το οποίο έχει επιδειχθεί σε ενδιαφερόμενους φορείς. Στη παρούσα φάση μπορεί να διαχειρίζεται και να διαμορφώνει επιτυχώς φωνές χωρίς θόρυβο σε ποιότητα στούντιο. Οι αλγοριθμικές λύσεις που έχουν αναπτυχθεί αναπτύσσονται περαιτέρω για να φτάσει σε σημείο όπου να είναι δυνατή η λειτουργία σε περισσότερο απαιτητικά περιβάλλοντα όπως σε σύνθετα σύνολα φωνής ή σε φωνές που προέρχονται από όχι καθαρές πηγές, όπως μικρόφωνο, τηλέφωνο και ηχογραφήσεις που έχουν παραχθεί σε φυσικό περιβάλλον χρήστη. Επίσης, υπάρχει η πρόθεση να καταστεί η λύση ικανή να χειριστεί τη μετατροπή φωνής και εξατομίκευσης σε πραγματικό χρόνο, γεγονός το οποίο θα ανοίξει νέα πεδία εφαρμογών και δυνατοτήτων. Το λογισμικό απαιτεί μόνο λίγα λεπτά για την ανάλυση των ειδικών παραμέτρων του εκάστοτε προσώπου και τη μετατροπή σε οποιαδήποτε φωνή-στόχο. Για τη διαδικασία αυτή, ο χρήστης επιλέγει όχι μόνο το απαραίτητο κείμενο στο οποίο θα πρέπει να βασιστεί η φωνή-πηγή για την εγγραφή, αλλά και η επιθυμητή γλώσσα. Το αποτέλεσμα είναι μια προσωποποιημένη εμπειρία ακρόασης, σε εξαιρετική ποιότητα και σε οποιοδήποτε διάρκεια, ανεξαρτήτως του κειμένου ή μουσικού κομματιού που έχει επιλεχθεί.

Οι εμπορικά διαθέσιμες λύσεις για την εξατομικευμένη σύνθεσης ομιλίας απαιτούν τεράστιες βάσεις δεδομένων και αρκετές ώρες ηχογραφήσεων από τον ομιλητή-στόχο καθώς και συγχρονισμένες ηχογραφήσεις της πηγής και του στόχου για την επίτευξη υψηλής ποιότητας αποτελεσμάτων. Η προτεινόμενη λύση λογισμικού απαιτεί μόνο λίγα λεπτά εγγραφής φωνής του ομιλητή στόχου και παράλληλα ο αλγόριθμος δεν απαιτεί συγχρονισμένες εγγραφές για τη μετατροπή. Αυτό καθιστά το λογισμικό μοναδικό σε σύγκριση με τις υπάρχουσες λύσεις και αντιπροσωπεύει τη μοναδική πρόταση πώλησης (Unique Selling Position). Το λογισμικό παρέχεται μέσω ασφαλούς σύνδεσης ως υπηρεσία νέφους και αποτελεί την πρώτη πλατφόρμα εξατομικευμένης φωνής  παγκοσμίως. Οι πελάτες μπορούν να χρησιμοποιούν το λογισμικό, που τρέχει προστατευμένο στο παρασκήνιο, πάνω από την πλατφόρμα και πληρώνουν μόνο τη λήψη των μετατραπόμενων αρχείων ήχου. Η πλατφόρμα με μορφή ανοιχτής βιβλιοθήκης θα παρέχει ελεύθερα τις παρεχόμενες αποθηκευμένες φωνές και απότερος στόχος είναι αποτελέσει αποθετήριο περιεχομένου φωνών στο Διαδίκτυο. Με αυτόν τον τρόπο θα δίνεται η δυνατότητα οι παρεχόμενες φωνές να παρέχονται για παιχνίδια, ταινίες, ακουστικά βιβλία, μουσική κλπ. Παράλληλα για μοντέλα B2B εντοπίζονται επιχειρηματικές περιοχές όπως οι τηλεπικοινωνίες (με στόχο τη βελτίωση της φωνής), η ασφάλεια (ταυτοποίηση, φωνητική επαλήθευση) και η ιατρική περίθαλψη (υποστήριξη της θεραπείας για την άνοια, τον καρκίνο του λαιμού κλπ) ως τομείς που μπορεί να χρησιμοποιηθεί η προσφερόμενη λύση. 
Το ανταγωνιστικό πλεονέκτημα του λογισμικού βασίζεται σε μια σειρά από αλγόριθμους που αναλύουν τα σύνθετα χαρακτηριστικά της ανθρώπινης φωνής και επιτρέπουν την μετατροπή και την εξατομίκευση μιας ανθρώπινης φωνής (πηγή) σε μια άλλη φωνή αναφοράς (στόχος) με τη δημιουργία μιας νέας συνθετικής φωνής που είναι το αποτέλεσμα της διαδικασίας. Προς το παρόν, οι δύο μεγαλύτερες εμπορικές εφαρμογές της λύσης είναι η μεταγλώττιση ταινιών και η εξατομικευμένη φωνή στη βιομηχανία των αλληλεπιδραστικών μέσων.
 
Η επιχείρηση ενδιαφέρεται για τις παρακάτω μορφές συνεργασίας
- Επενδυτές και υποστηρικτές με στόχο την ανάπτυξη της διαδικτυακής πύλης μέσω υπηρεσιών νέφους με απώτερο στόχο την απευθείας σύνδεση με μεμονωμένους πελάτες. Η συνεργασία θα μπορούσε να περιλαμβάνει και τη λήψη μετοχών της εταιρείας.
- Εμπορικές συμφωνίες με εταιρείες όσον αφορά οποιοδήποτε πεδίο της εφαρμογής του λογισμικού.
- Επαφές με τους προγραμματιστές και σχεδιαστές για υπεργολαβίες.
- Επαφές με τους ερευνητές στον τομέα της επεξεργασίας ηχητικού σήματος και γλωσσική τεχνολογία όσον αφορά το βελτιωμένο ορισμό των παραμέτρων φωνής.