Ψηφιακές Τεχνολογίες Ήχου και Φωνής

Κωδικός Μαθήματος:

EEE.8-2.4

Εξάμηνο:

Η΄ Εξάμηνο - Επικοινωνίες και Δίκτυα - Β' ΚΥΚΛΟΣ

Κατηγορία:

ΜΕΕ

Ώρες:

3Θ + 1Ε

Μονάδες ECTS:

5


Καθηγητές Μαθήματος

Καραμπέτσος Σωτήριος

ΜΑΘΗΣΙΑΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Με την επιτυχή ολοκλήρωση του μαθήματος ο/η φοιτητής/ήτρια θα είναι σε θέση να παράγει πρωτότυπη σκέψη στο αντικείμενο, και συγκεκριμένα να:

  • Αντιλαμβάνεται κριτικά τις σύγχρονες τάσεις στο επιστημονικό πεδίο του Μηχανικού Ψηφιακού Ήχου και Επεξεργασίας Σήματος Φωνής και τη διασύνδεσή τους με την επιστήμη του Ηλεκτρολόγου και Ηλεκτρονικού Μηχανικού.
  • Κατανοεί και εξηγεί με διαγράμματα τις βασικές έννοιες και τα μαθηματικά εργαλεία ανάλυσης και αναπαράστασης σημάτων φωνής και ήχου
  • Εφαρμόζει βασικές τεχνικές και να αναπτύσσει αλγόριθμους για την ανάλυση, αναπαράσταση, μοντελοποίηση και παραγωγή σημάτων φωνής
  • Κατανοεί και περιγράφει τις σύγχρονες τεχνικές κωδικοποίησης και συμπίεσης σημάτων φωνής και ήχου
  • Αντιλαμβάνεται και εκτελεί υπολογισμούς που σχετίζονται με τον τρόπο εφαρμογής τεχνικών κωδικοποίησης και συμπίεσης σημάτων φωνής και ήχου σε υπολογιστικά περιβάλλοντα.
  • Κατανοεί, περιγράφει και κατηγοριοποιεί τις βασικές τεχνολογίες συστημάτων αναγνώρισης καισύνθεσης φωνής, τις τεχνικές που εφαρμόζουν καθώς και την ολοκλήρωση τους σε σύγχρονες εφαρμογές διεπαφής ανθρώπου μηχανής
  • Κατανοεί και περιγράφει την αρχιτεκτονική συστημάτων ψηφιακής επεξεργασίας ήχου, καθώς και αντίστοιχες δομές σε υλικό και λογισμικό.
  • Αξιοποιεί τεχνικές υποκειμενικής και αντικειμενικής αξιολόγησης ηχητικών σημάτων προς εκτίμηση πιστότητας ψηφιακών ηχητικών συστημάτων.
  • Αντιλαμβάνεται και αξιολογεί κριτικά τις προδιαγραφές και τις επιδόσεις συστημάτων ψηφιακής επεξεργασίας σημάτων ήχου και φωνής
  • Προσδιορίζουν τις παραμέτρους σχεδίασής συστήματος επεξεργασίας και εκτελούν τους αντίστοιχους υπολογισμούς σχεδίασης
  • Αντιλαμβάνονται και περιγράφουν τα διάφορα υποσυστήματα της αλυσίδας ψηφιακής επεξεργασίας σήματος φωνής και ήχου ανάλογα με την εφαρμογή, καθώς και τα τεχνικά στοιχεία λειτουργίας τους.
  • Αντιλαμβάνονται, αξιολογούν συγκριτικά και τεκμηριώνουν τα σχετικά πλεονεκτήματα και μειονεκτήματα εναλλακτικών τεχνολογικών προσεγγίσεων και λύσεων συστημάτων επεξεργασίας σημάτων ήχου και φωνής
  • Συνεργάζονται σε ομάδα για την ολοκληρωμένη αντιμετώπιση (ανάλυση – σύνθεση) σύνθετων προβλημάτων επικοινωνίας με βάση το φωνητικό ή/και το ηχητικό σήμα, την κριτική αξιολόγηση εναλλακτικών λύσεων και τη λήψη αποφάσεων προς υλοποίηση.

 

Γενικές Ικανότητες

  • Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών
  • Προσαρμογή σε νέες καταστάσεις
  • Λήψη αποφάσεων
  • Αυτόνομη Εργασία
  • Ομαδική Εργασία
  • Εργασία σε διεπιστημονικό περιβάλλον
  • Σχεδιασμός και διαχείριση έργων
  • Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης

 

ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Θεωρητικό μέρος
Το μάθημα διαιρείται στις παρακάτω ενότητες που καλύπτονται από τις αντίστοιχες διαλέξεις.

  1. Ενότητα 1 (1 διάλεξη) Εισαγωγή: Αποτελεί το θεωρητικό υπόβαθρο μελέτης και περιλαμβάνει την εισαγωγή στην ψηφιακή επεξεργασία σήματος φωνής και ήχου μέσω των βασικών αρχών της ψηφιακής επεξεργασίας σήματος. Ανασκόπηση της θεωρίας δειγματοληψίας, κβαντισμού και κωδικοποίησης σημάτων. Αναφορά στις τεχνικές υπερδειγματοληψίας και μορφοποίησης θορύβου. Αναπαράσταση των σημάτων στο πεδίο του χρόνου και της συχνότητας. Αριθμητική αναπαράσταση και αποθήκευση.
  2. Ενότητα 2 (3 διαλέξεις)Ψηφιακή επεξεργασία φωνής: Στην ενότητα εξετάζεται η παραγωγή και τα βασικά χαρακτηριστικά του σήματος φωνής, η αντίληψη φωνής, η ανάλυση βραχέως χρόνου (short time speech processing) στο πεδίο του χρόνου και της συχνότητας, η εκτίμηση και ο υπολογισμός μεγεθών στο σήμα (pitch, intonation, formants κτλ.), η αναπαράσταση και μοντελοποίηση του σήματος φωνής, το μοντέλο πηγής φίλτρου και οι τεχνικές γραμμικής πρόβλεψης σημάτων φωνής και η ομομορφική επεξεργασία φωνής (cepstrum). Παρουσιάζονται τεχνικές εκτίμησης παραμέτρων και εξαγωγής χαρακτηριστικών σήματος φωνής καθώς και η διανυσματική κβάντιση.
  3. Ενότητα 3 (3 διαλέξεις)Εφαρμογές και συστήματα επεξεργασίας σημάτων φωνής: Στην ενότητα εξετάζονται οι σύγχρονες τεχνολογίες και τα συστήματα που βρίσκει εφαρμογή η ψηφιακή επεξεργασία φωνής και οι τεχνικές που παρουσιάστηκαν στην προηγούμενη ενότητα. Περιλαμβάνει την ψηφιακή κωδικοποίηση και συμπίεση φωνής (speech coding) με τεχνικές όπως CELP/ACELP κτλ. και την εισαγωγή στις τεχνολογίες αναγνώρισης (automatic speech recognition) και σύνθεσης φωνής από κείμενο (text to speech synthesis).
  4. Ενότητα 4 (3 διαλέξεις) Κωδικοποίηση και Συμπίεση Ηχητικών δεδομένων: Στην ενότητα παρουσιάζονται πρότυπα κωδικοποίησης ηχητικών δεδομένων όπως PCM, Σ/Δ, PWM, αλγόριθμοι συμπίεσης ηχητικών δεδομένων (με ή χωρίς απώλειες), μέθοδοι υποκειμενικής συμπίεσης (με έμφαση στο φαινόμενο επικάλυψης). Ακολουθούν οι κωδικοποιήσεις κατά MPEG-1 (MP3), και πολυκαναλικές κωδικοποίηση ήχου (τυποποιήσεις MPEG-2 και Dolby AC3). Τέλος, παρουσιάζονται τυποποιήσεις για μετάδοση και αποθήκευση ηχητικών δεδομένων και συστήματα οπτικών δίσκων (CD, DVD, BD)
  5. Ενότητα 5 (3 διαλέξεις) Συστήματα και εκτίμηση: Η ενότητα ξεκινά από τη γενική δομή και τις κατηγορίες συσκευών και συστημάτων, και τα πρωτόκολλα ψηφιακής διασύνδεσης συσκευών. Ακολουθούν οι δομές και υλοποίηση μεθόδων σε υλικό και λογισμικό για την ψηφιακή επεξεργασία ηχητικών δεδομένων, ενώ δίνονται παραδείγματα συσκευών και συστημάτων για εφαρμογές όπως equalisation, compression, reverberation, sampling rate conversion, noise reduction, κλπ. Τέλος, εισάγονται οι έννοιες της υποκειμενικής και αντικειμενικής εκτίμησης πιστότητας και αντίστοιχα πρότυπα, όπως τα ITU-R BS.1387 και ITU-R BS.1284-1.

 

Εργαστηριακό μέρος

Πραγματοποιείται εργαστηριακή εκπαίδευση στα αντικείμενα:

  1. Θεωρία ψηφιοποίησης αναλογικών σημάτων (Δειγματοληψία, Κβαντισμός , Επίδραση jitter, αναδίπλωση, dither, υπερδειγματοληψία.
  2. Ανάλυση βραχέως χρόνου (short time speech processing) στο πεδίο του χρόνου και της συχνότητας και εκτίμηση μεγεθών στο σήμα φωνής
  3. Μοντέλο πηγής φίλτρου και γραμμική πρόβλεψη (linear prediction coding – LPC)
  4. Εισαγωγή στη κωδικοποίηση και συμπίεση φωνής. Μελέτη κωδικοποιητών απευθείας στην χρονική κυματομορφή (waveform coders) και κωδικοποίηση με παραμετρικά μοντέλα (vocoders)
  5. Συμπίεση ηχητικών δεδομένων και εκτίμηση σφάλματος συμπίεσης, αξιολόγηση πιστότητας
  6. Φαινόμενο ηχητικής συγκάλυψης (masking effect), μέτρηση διαφοράς αμφιωτικής ηχητικής συγκάλυψης (binaural masking level difference) / Μελέτη αντικειμενικών ψυχοακουστικών μεγεθών.

 

ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ

Η βαθμολογία του θεωρητικού μέρους του μαθήματος προκύπτει από μια τελική γραπτή εξέταση σε όλη τη
διδαχθείσα ύλη μέσω ανάπτυξης θεωρητικών ζητημάτων και επίλυσης αριθμητικών προβλημάτων.

Η βαθμολογία του εργαστηριακού μέρους του μαθήματος προκύπτει ως ο μέσος όρος όλων των επιμέρους βαθμών των ασκήσεων που έχουν διεξαχθεί με επιτυχία. Ο βαθμός κάθε άσκησης προκύπτει από το βαθμό της επί τόπου εξέτασης και της εργαστηριακής αναφοράς με βάρη 0.7 και 0.3 αντίστοιχα.

 

ΣΥΝΙΣΤΩΜΕΝΗ ΒΙΒΛΙΟΓΡΑΦΙΑ

  1. Rabiner L., Ψηφιακή Επεξεργασία Φωνής: Θεωρία και Εφαρμογές, ISBN: 9789604891535, Εκδόσεις ΠΑΣΧΑΛΙΔΗΣ, BROKEN HILL PUBLISHERS LTD, 1η έκδοση, 2011
  2. A. Antroniou, Ψηφιακή επεξεργασία σήματος, Εκδόσεις Α. ΤΖΙΟΛΑ & ΥΙΟΙ Α.Ε, ISBN: 978-960- 418-188-9 (κωδικός συστήματος εύδοξος: 18549117) McCLELLAN, SCHAFER, YODER, Θεμελιώδεις έννοιες της επεξεργασίας σημάτων, Εκδόσεις ΓΚΟΤΣΗΣ ΚΩΝ/ΝΟΣ & ΣΙΑ Ε.Ε., ISBN: 978-960-877-104-8
  3. Lawrence R. Rabiner and Ronald W. Schafer, Theory and Applications of Digital Speech Processing, Pearson, 2011
  4. T. F. Quatieri, Principles of Discrete – Time Speech Processing, Prentice Hall Inc, 2002
  5. J. Benesty, M. M. Sondhi and Y. Huang, Editors, Springer Handbook of Speech Processing and Speech Communication, Springer, 2008
  6. Ιan Vince McLoughlin, Speech and Audio Processing: A MATLAB-based Approach, Cambridge University Press, 2016.
  7. Pohlmann K.C., “Principles of Digital Audio”, McGraw-Hill, 2005.
  8. Bossi M., Goldberg R.E. “Introduction to Digital Audio Coding and Standards”, Kluwer Academic Publishers, 2003