Digititis (χυδαϊστί: "ψηφιακίλα")
Πριν 30 περίπου χρόνια παρουσιάστηκε το CD. Το εμπορικό του slogan ήταν απλό και αποτελεσματικό: "Perfect sound forever". Τελικά είχαν δίκιο μόνο στο δεύτερο μισό, στο forever, με την έννοια ότι τα ψηφιακά αρχεία είναι, με τον έναν ή τον άλλο τρόπο, αθάνατα. Perfect δεν είναι. Από τη στιγμή που η νέα πηγή, το CD, κλήθηκε να αντικαταστήσει την παλιά, το δίσκο βινυλίου, ήταν σαφές ότι ένα σωρό προβλήματα εξαφανίστηκαν ως δια μαγείας. Ταυτόχρονα, όπως ήταν αναπόφευκτο, το νέο μέσο παρουσίαζε τα δικά του προβλήματα, τα οποία ήταν εντελώς διαφορετικής φύσεως, διότι το μέσον ήταν εντελώς διαφορετικής φύσεως. Θα χρειαζόταν καιρός έως ότου το ανθρώπινο μυαλό αναλύσει αυτά τα νέα προβλήματα, κατανοήσει τη φύση τους και τις αιτίες τους, και βρει τρόπους να τα αντιμετωπίσει. Εν ολίγοις θα χρειαζόταν ένας νέος Αριστοτελισμός, μία εκ βάθρων νέα κατηγοριοποίηση. Είμαι βέβαιος ότι υπάρχουν πολλοί στο χώρο της ακαδημαϊκής κοινότητας, και πιθανόν αρκετοί στο χώρο της βιομηχανίας audio, που είναι ικανοί να δομήσουν στο μυαλό τους ένα σύστημα νέων Αριστοτελικών κατηγοριών και να δουν την νέα κατάσταση με τρόπο ολοκληρωμένο και επιστημονικώς βάσιμο.
Το δυσάρεστο είναι ότι στο χώρο του audio "Τύπου", έντυπου και ηλεκτρονικού, διεθνούς και εγχωρίου, δεν έχω διαπιστώσει κάτι αντίστοιχο. Και αν υπάρχει, δεν έχω αντιληφθεί την ύπαρξή του.
Μια και διαπιστώνω λοιπόν ότι (κατά το ανεκδοτολογικώς λεχθέν από τον Giulio Andreotti) "δεν περιστοιχίζομαι από γίγαντες"
παρουσιάζω μία "Μεγάλη Ενοποιημένη Θεωρία" για τα ελαττώματα του ψηφιακού ήχου. Κατανέμω τα προβλήματα σε 4 αδρές κατηγορίες, την πλειοψηφία των οποίων έχω ήδη συζητήσει στο παρελθόν, πρόσφατο ή απώτερο.
Πρόβλημα 1: ΚΒΑΝΤΙΣΜΟΣ
Το εποπτικό υλικό παρουσίασα και σχολίασα σε δημοσίευσή του Αυγούστου του 2008 στο Journal Club:
http://www.avmentor.eu/forum/showthr...B1%CF%84%CE%B1
Χάρη στην ιδιοφυή χρήση του dither, η παραμόρφωση από τον κβαντισμό αντιμετωπίζεται αποτελεσματικά, ακόμα και στην προδιαγραφή Red Book.
Το dither είναι θόρυβος που προστίθεται στο αναλογικό σήμα πριν αυτό κβαντισθεί, σε επίπεδο έντασης παρόμοιο με την ένταση που κωδικοποιείται από το "Ελάχιστα Σημαντικό Ψηφίο" (Least Significant Bit, LSB), δηλαδή το τελευταίο από τα 16 δυαδικά ψηφία που περιγράφουν την στιγμιαία τιμή ενός σήματος ανά 1/44100 του δευτερολέπτου (κατά το Red Book). Επιλογή διαφόρων μορφών dither, που έχουν να κάνουν με την φασματική κατανομή του χρησιμοποιούμενου θορύβου, διαφοροποιεί το αποτέλεσμα προς το καλύτερο ή το χειρότερο.
Το πρόβλημα καθίσταται ακόμα πιο ευεπίλυτο με την σταδιακή καθιέρωση των φορμά Υψηλής Ανάλυσης, που χρησιμοποιούν περισσότερα bit κωδικοποίησης, συνήθως 24 (αντί 16) και υψηλότερες συχνότητες δειγματοληψίας, συνήθως τη διπλάσια (88.2 kHz) ή την τετραπλάσια (176.4 kHz) της συχνότητας του RB (44.1 kHz), ή τα αντίστοιχα πολλαπλάσια (96 ή 192 kHz) της συχνότητας στην οποία λειτουργούσαν παλιά τα DAT (48 kHz). Σημειωτέον ότι το υλικό υψηλής ανάλυσης "αποκτά" αναγκαστικά dither, το οποίο οφείλεται στον θερμικό θόρυβο Johnson των ηλεκτρονίων καθώς αυτά κινούνται τυχαία μέσα στα στοιχεία του κάθε αναλογικού κυκλώματος. Η ισχύς αυτού του θορύβου, όπως έχουμε αναφέρει, εξαρτάται από την θερμοκρασία των στοιχείων του κυκλώματος, το συχνοτικό εύρος λειτουργίας του και την σταθερά Boltzmann (που συσχετίζει την ενέργεια του κάθε σωματιδίου χωριστά με το σύνολο των ενεργειών αυτών, όπως εκφράζονται σε "συλλογικό επίπεδο" από΄τη θερμοκρασία: έχει τιμή γύρω στα 1.38 επί 10 στην -23η δύναμη και μονάδες Joule ανά βαθμό Kelvin). Ο θόρυβος αυτός, για συνηθισμένα κυκλώματα σε θερμοκρασίες δωματίου, χοντρικά βρίσκεται περίπου 120 dB πιο χαμηλά από ένα συνηθισμένο σήμα line level, πράγμα που σημαίνει ότι τα 4 τελευταία bit μιας 24μπιτης λέξης, όπως αυτή παράγεται από έναν μετατροπέα A-to-D, αναλίσκονται σε κωδικοποίηση αναλογικού (=λευκού) θορύβου από τα κυκλώματα που προηγούνται (π.χ. από ένα μικρόφωνο και τα προενισχυτικά του). Αντιστοίχως η αναλογική έξοδος ενός μετατροπέα D-to-A περιέχει αναλογικό (=λευκό) θόρυβο σε παρόμοιο επίπεδο, περίπου 120 dB χαμηλότερο από το επίπεδο κορυφής.
Πρόβλημα 2: JITTER
Το εποπτικό υλικό παρέθεσα στο ομότιτλο νήμα στο Journal Club:
http://www.avmentor.eu/forum/showthread.php?713-Jitter
Εδώ θα εξετάσω την χρονική συνιστώσα: το jitter μπορεί να μεταθέσει τη χρονική στιγμή κατά την οποία ένα ηλεκτρονικό κύκλωμα ανιχνεύει ένα ψηφιακό bit, ή byte, και συνεπώς να επιφέρει αλλοιώσεις στην χρονική αλληλουχία των μικρογεγονότων που συναπαρτίζουν ένα ηχητικό συμβάν. Εκείνο που δεν μπορεί να κάνει, είναι να αντιμεταθέσει αυτά τα ψηφιακά δεδομένα, να ανατρέψει δηλαδή τη σειρά των 0 και 1 που περιγράφουν το ηχητικό σήμα. Το χρονικό διάστημα ανάμεσα σε δύο διαδοχικές τιμές του σήματος Red Book είναι 1/44100 του δευτερολέπτου, ή 22.7 μsec περίπου. Για σήμα δειγματισμένο στα 192 kHz, το διάστημα πέφτει στα 5.2 μsec. Μετατρεπόμενα σε απόσταση με βάση την ταχύτητα του ήχου στον αέρα (344 m/sec), αυτά μεταφράζονται σε 7.8 και 1.8 mm αντιστοίχως. Συνεπώς, εάν το jitter προκαλεί ασάφεια στερεοεντοπισμού, αυτή ακόμη και στην χειρότερη των περιπτώσεων φράσσεται προς τα πάνω μέχρι που να φτάσει σε σημείο αμελητέο.
Πρόβλημα 3: ΚΩΔΩΝΙΣΜΟΣ
Ένας ήχος μπορεί να αρχίσει πάρα πολύ απότομα: σκεφτείτε μια καστανιέτα. Ποτέ όμως δεν μπορεί να τερματισθεί πάρα πολύ απότομα, εκτός και αν είναι εντελώς τεχνητός, δηλαδή ηλεκτρονικά δημιουργημένος. Ακόμα και αν ένας φυσικός ήχος τερματίζεται πολύ απότομα, εκείνο που δεν μπορεί ποτέ να τερματισθεί το ίδιο απότομα είναι η ακουστική συμέριφορά του χώρου, μέσα στον οποίο ο ήχος καλείται να αναπτυχθεί. Η διαδικασία ψηφιοποίησης ενός μεταβατικού, όπως π.χ. του ήχου της καστανιέτας, προτυποποιείται από την μαθηματική επεξεργασία ενός παλμού Dirac:
http://www.avmentor.eu/forum/showthr...3B%26%23955%3B
Αποπειρώμενοι να απεικονίσουμε έναν παλμό Dirac στο πεδίο της συχνότητας, δηλαδή αναλύοντάς τον κατά Fourier, με λύπη μας θα διαπιστώσουμε ότι χρειαζόμαστε απείρου πλήθους αρμονικές περιττής τάξεως, πράγμα που δεν επιτρέπεται: σύμφωνα με το θεώρημα του Shannon, το συχνοτικό περιεχόμενο της προς περιγραφήν κυματομορφής δεν μπορεί να υπερβαίνει το ήμισυ της συχνότητας Nyquist. Άρα μας τέλειωσαν οι απείρου πλήθους αρμονικές: πρεπει να φιλτραριστούν επαρκώς στο αναλογικό πεδίο πριν τις πάρει είδηση ο μετατροπέας A-to-D, γιατί αλλιώς θα έχουμε aliasing:
http://www.soundonsound.com/sos/feb0...sing_piano.mp3
Το φιλτράρισμα όμως συνεπάγεται και φασικές ολισθήσεις. Μέχρι πρόσφατα η συμβατική σοφία υπαγόρευε τη χρήση φίλτρων τέτοιων, ώστε η φασική τους συμπεριφορά δημιουργούσε κωδωνισμούς:
http://cnx.org/content/m19834/latest/graphics22.png
Εύκολα μπορεί κανείς να αντιληφθεί ότι ο προ-κωδωνισμός (pre-ringing), αν είναι ακουστός ή έστω αισθητός, είναι ενοχλητικότερος από τον μετα-κωδωνισμό (post-ringing), γιατί ο πρώτος συμβαίνει πριν ο "κανονικός" ήχος αρχίσει, ενώ ο δεύτερος μπορεί έως έναν βαθμό να αποκρυβεί, ψυχοακουστικώς, από την εξέλιξη του ίδιου του ήχου μέσα στο χρόνο. Το θεωρητικό υπόβαθρο είναι οικείο σε όσους γνωρίζουν ψηφιακή επεξεργασία σημάτων:
http://upload.wikimedia.org/wikipedi...parsion%29.png
Η εταιρεία που πρώτη διαφήμισε την εμπλοκή της σε αυτό το ζήτημα ήταν η Meridian, όταν εξέλιξε και χρησιμοποίησε ένα φίλτρο που ονόμασε apodizing (αποδιστικό, δηλαδή που αποκόπτει τον "πόδα"):


Έτσι εξαλείφεται το pre-ringing, με τίμημα την αύξηση του post-ringing. Έκτοτε και άλλες εταιρείες ακολούθησαν την ίδια οδό, όπως π.χ. η Ayre:

(Μην εντυπωσιάζεστε από την "καλύτερη" συμπεριφορά αυτού του κωδωνισμού: προσέξτε ότι ο κατακόρυφος άξονας "Data in Volts" είναι αβαθμονόμητος. Άρα ένα είναι το σίγουρο: αν περιέχει "data", αυτά δεν είναι ορατά δια γυμνού οφθαλμού).
"Θαυμάζω την κομψότητα της μεθόδου σας. Πρέπει να είναι ωραίο να καλπάζεις με το άλογο των αληθινών Μαθηματικών, ενώ εμείς οι υπόλοιποι αγκομαχάμε στον ποδαρόδρομο" - ο Άλμπερτ Άινσταϊν στον Τούλλιο Λέβι-Τσίβιτα