Partiamo da due principali osservazioni:
- il formato PCM (quello alla base di un CD audio o di un file WAV, SuperAudio CD e DVD Audio) ha come unica finalità quella di riprodurre, e fissare nel dominio digitale, la forma d'onda originale dei suoni complessi con il maggior rigore possibile, senza che la principale preoccupazione sia sulla quantità di dati da immagazzinare
- lo sviluppo di un qualsiasi formato audio compresso, in relazione agli scopi per cui è pensato, diffusione via Internet, multimedia- lità ecc ecc, parte esattamente dal presupposto contrario: ridurre quanto più possibile la quantità di dati da immagazzinare accettando, possibilmente sempre meno, una 'qualche' degradazione qualitativa del documento sonoro trattato.
Tuttavia, le moderne teorie sulla psicoacustica hanno evidenziato alcune differenze sostanziali tra la percezione umana del suono e la percezione oggettiva degli strumenti di misura (su cui normalmente si basa anche lo sviluppo della tecnologia). Tali differenze possono essere spiegate sommariamente come effetti di mascheramento di segnali forti su segnali deboli adiacenti nel dominio spazio-temporale, effetti di spostamento della soglia di udibilità in relazione alla composizione spettrale, interazioni timbriche, alterazioni temporali tra suoni di diversa altezza, modulazioni, ecc ecc. In pratica, si afferma che il risultato psicoacustico di un normale ascolto musicale sarebbe una sostanziale inintellegibilità -da parte dell'ascoltatore umano, non degli strumenti di misura -di gran parte del contenuto sonoro che viene analizzato; al punto tale da ritenere di poter considerare 'irrilevanti ai fini dell'ascolto', e quindi in qualche modo eliminabili o almeno riducibili, molti dati sonori oggettivi che invece una registrazione digitale PCM raccoglie inevitabilmente e con pari dignità, con conseguenti enormi vantaggi sulla riduzione della quantità di informazioni da immagazzinare. E' praticamente impossibile però determinare quale sia il modello più adatto e il più rispondente alla realtà della percezione umana dell'ascolto musicale. Per orientarsi sarà allora utile tenere in mente alcuni concetti generali, estrapolati dal confronto dei meccanismi di compressione con l'unica realtà misurabile, vale a dire la PCM, lasciando poi all'iniziativa personale la traduzione in parametri relativi ai singoli prodotti. In lineadi massima le parti di segnale considerate irrilevanti, e quindi oggetto di elaborazione, sono quelle riconducibili, nell'analisi spettrale dei suoni complessi, a fenomeni di attacco e decadimento del suono, frequenza massima riprodotta, modulazione, interferenza, armoniche superiori e inferiori, transienti, in pratica tutto ciò che, in ultima analisi, definisce il 'timbro' di un suono, nel caso di uno strumento musicale, o la 'precisione' e la 'stabilità dell'immagine' nel tempo e nello spazio di un insieme di suoni, come, per esempio, nel caso della riproduzione stereofonica classica. Va ricordato che un codificatore per compressione -lo si considera, per comodità, regolato per la migliore qualità possibile e senza riduzioni della frequenza di campionamento, altrimenti l'aspetto qualitativo perde qualsiasi importanza nella discussione -non elimina completamente le parti di suono considerate inutili, piuttosto ne riduce proporzionalmente la profondità di quantizzazione, liberando bit su bit, e lasciandoli a disposizione delle parti considerate invece essenziali, le quali rimangono completamente inalterate. Poiché la riduzione della profondità di quantizzazione di una registrazione PCM, come ciascuno potrà sperimentare, genera una quantità rilevante di effetti di distorsione del segnale, con creazione di artefatti acustici, sarà evidente che una parte di tali effetti si dovrà produrre necessariamente anche sui dati soggetti alla compressione, fortunatamente confinati, in teoria, nelle zone di inintelleggibilità acustica. Tutto il processo, così sommariamente descritto, ha una forte impronta di relativismo: i punti di intervento sono definiti dal modello psicoacustico utilizzato dal produttore, la forza dell'intervento è in parte definita dall'utente che regola i parametri della compressione e la stessa sorgente può presentare caratteristiche non uniformabili, per genere musicale, tipo di strumenti utilizzati e complessità del segnale, tanto per citare alcuni aspetti principali. Sulla base di queste considerazioni è evidente che un ascolto consapevole di una qualsiasi sorgente audio soggetta, in qualche suo stadio, al processo di compressione software con codifica percettiva, va affrontata con particolare attenzione in quanto gli effetti del processo non sono praticamente più misurabili in fase di riproduzione e purtuttavia riguardano aspetti non del tutto marginali del tessuto sonoro complesso che si sta sperimentando. Quanto mai in questo caso quindi, l'ascoltatore dovrà indagare con competenza sulla mancanza di dettagli che componevano il suono originale.
Volendo descrivere in una maniera un po' provocatoria, ma efficace, la differenza tra i due sistemi generali si potrebbe affermare che mentre la PCM descrive la forma d'onda così come è nella fisica del suono, il formato compresso la descrive come potrebbe o dovrebbe essere nell'orecchio dell'ascoltatore.
A questo scopo sono dedicati i modelli psicoacustici posti alla base dei vari codificatori (MP3, WMA, AAC, Ogg Vorbis ecc ecc), prodotti e distribuiti da tante aziende di software.
La codifica del segnale audio digitalizzato si distingue in due categorie: distruttiva e non distruttiva. Quella non distruttiva (LOSSLESS) preserva esattamente i dati ottenuti dal campionamento (che a dir la verità è di per sé un'operazione distruttiva nel senso che c'è perdita di qualità rispetto al segnale analogico originale, seppur piccola a piacere). Quella distruttiva (LOSSY) non permette di riottenere il segnale digitale originale in maniera perfetta, ma in maniera approssimativa, col vantaggio però di una drastica riduzione del flusso dati necessario (da 1/50 a 1/5 in genere). Tale riduzione viene effettuata sfruttando principalmente il fenomeno del mascheramento ossia l'inudibilità di certe componenti spettrali del segnale a causa di una sorta di accecamento dovuto ad una parte di segnale spettralmente vicina e più intensa.
E' molto difficile riconoscere delle particolarità di ascolto di questi sistemi, soprattutto in relazione tra loro. In effetti le variabili sono talmente tante che sia la processione che la qualità dei suoni immessi, ne variano sensibilmente le realtà sonore, tanto da non averne mai riconosciuto uno migliore degli altri. Un buon ascoltatore, più che riconoscere di quale sistema si tratti, è bene che riconosca l'opportunità delle locazioni dei suoni e le qualità dei silenzi che aprono gli spazi agli eventi. Ultima, ma non di minore importanza la verosimiglianza spaziale che, come accennato, non si ricrea con la qualità del sistema, ormai provata, ma con la capacità di valorizzarne alcune caratteristiche di fase e velocità. Il famoso sistema THX ®, invece, si propone non come un processo di riproduzione alternativo al Dolby Stereo e alle sue evoluzioni (Dolby®Digital, Surround EX), ma come un insieme di regole e di requisitiai quali una sala deve rispondere. E' un brevetto della Lucas Entertainment Ltd e non è una particolare codifica, ma regola le caratteristiche dei diffusori: polarità, direzionalità e dinamica di 105 dB di picco, gli amplificatori THXrdovranno avere ugualmente le elaborazioni DSP tipiche del THX ®Mode, quindi il Re-equalization, Timbre Matching, Adaptive Decorrelation, Bass Management, Bass Peak Level Manager e Loudspeaker Position Time Syncronization.