Il 29 Giugno 2006, a seguito dell’incarico del 2 febbraio 2006, viene presentata una relazione tecnica, relativa al procedimento penale nr. 2782/2005 r.g.n.r. mod 21, del Capitano dei C.C. Claudio Ciampini su incarico del Sostituto Procuratore della Repubblica presso il Tribunale di Perugia Giuliano Mignini.
La relazione tecnica verte sulla registrazione fatta da Michele Giuttari a Paolo Canessa in data 21 maggio 2002.
Questa la relazione tecnica: 20.03.2006 Relazione Tecnica Claudio Ciampini
Questa la trascrizione:
Proc. pen. 92782/2005 R.G. N.R. MOD.21
– Relazione di Consulenza Tecnica –
PROCURA DELLA REPUBBLICA c/o TRIBUNALE DI PERUGIA
– sost. dr. Giacomo Mignini –
consulenza tecnico-fonica
nel procedimento penale
nr. 2782/2005 r.g.n.r. mod 21
il consulente
dr. cap. cc Claudio Ciampini
I N D I C E
CAPITOLO 1
1.1 Conferimento dell’incarico……………………… pag. 4
1.2 Quesito………………………………………………. pag. 4
1.3 Inizio delle operazioni tecniche…………………. pag. 5
1.4 Autorizzazioni concesse e rnvio………………… pag. 5
1.5 Reperto a disposizione……….…………………….. pag. 5
CAPITOLO 2
2.1 La Trascrizione……………………………………… pag. 8
2.1.1 Premessa………………………………..………….. pag. 8
2.1.2 Modus operandi e Legenda………….……….. pag. 15
CAPITOLO 3
3.1 Premessa sulle alterazioni nei nastri
registrati e procedure di analisi … ……………. pag. 18
3.2 Registrazioni digitali ………………………..………… pag. 23
3.3 Analisi del nastro ed eventuali riscontri……… pag. 25
3.4 Corrispondenza tre le registrazioni……………. pag. 31
3.5 Interpretazione degli eventi riscontrati………. pag. 32
CAPITOLO 4
4.1 Introduzione al confronto di voci………………. pag. 34
4.2 Produzione della voce – modello teorico……… pag. 40
4.3 Metodi utilizzati per la comparazione………….. pag. 46
4.3.1 Esame generale e lingustico……………… pag. 47
4.4 Pretrattamento del materiale fonico ai fini comparativi………………………………………..… pag. 51
4.5 Esame generale linguistico-fonometrico………. pag. 52
Risposta ai quesiti……………………………………… pag. 53
Bibliografia…………………………………………….. pag. 54
Allegati
Capitolo 1
1.1 conferimento dell’incarico
In data 01 febbraio u.s., in merito al Proc. pen. nr. 2782/2005 R.G.N.R. mod. 21, il dr. Giuliano Mignini, Sostituto Procuratore della Repubblica presso il Tribunale di Perugia, conferiva allo scrivente dr. Cap. Claudio Ciampini effettivo al Reparto Investigazioni Scientifiche di Roma, incarico di consulenza tecnico-fonica.
1.2 quesito
1.3 inizio delle operazioni tecniche
L’inizio delle operazioni tecniche veniva fissato contestualmente alla data del conferimento con la visione ed estrapolazione di copia di atti ed all’acquisizione di parte dei reperti da analizzare.
1.4 autorizzazioni concesse e rinvio
Per l’espletamento dell’incarico demandato, gli scriventi venivano autorizzati:
a ritirare il reperto magnetico;
a prendere visione del fascicolo processuale;
avvalersi di ausiliari tecnici;
utilizzo del mezzo proprio;
a depositare il presente elaborato in Cancelleria entro 50 giorni dalla data del conferimento.
reperti a disposizione
Sono a disposizione del perito il sottonelencato materiale:
un microregistratore marca DICTAPHONE –Voice Processor- in dotazione al G.I.De.S e utilizzato per la registrazione oggetto di consulenza (Foto 1);
Foto 1 | Microregistratore |
un CD-ROM marca Sony da 700 MB contenete copia della conversazione oggetto di consulenza, che per semplificare indicheremo come “CD-copia”;
Foto 2 | CD-ROM copia della registrazione |
una microcassetta marca TDK MC-90 numero BB514 contenente copia della registrazione oggetto di consulenza, che per semplificare indicheremo come “copia”
Foto 3 | Microcassetta copia della registrazione |
previa autorizzazione della Procura di Genova e del dr. Giacomo Mignini in data 17 febbraio lo scrivente si recava presso la Procura della Repubblica di Genova dove provvedeva ad analizzare visivamente la microcassetta TDK MC 90 n. ATAG 825 ed a riversarne il contenuto su personal computer, contenente la registrazione originale oggetto di consulenza (allegato 1), che per semplificare indicheremo come “originale”.
Foto 4 | Microcassetta originale |
CAPITOLO 2
2.1 La Trascrizione
2.1.1 Premessa
Tra le moderne tecnologie usate dagli investigatori, di professione o improvvisati, l’intercettazione delle conversazioni tra individui è sicuramente una delle più diffuse e note. A fronte di un qualsiasi sistema di intercettazione (telefonico, ambientale con registratore, ambientale con microtrasmettitore…) vi è come risultato una registrazione.
L’opera di trascrizione che ne deriva non è sempre di ordinaria amministrazione, benché sia diffusa l’idea che chiunque abbia un po’ di tempo e pazienza la possa svolgere facilmente. È successo, infatti, anche nelle aule dei Tribunali, che il contenuto della trascrizione venisse contestato.
Vi è un mezzo sicuro che consenta di provare che il parlatore abbia pronunciato una determinata parola, ad esempio “sbancato”, e non una molto simile come “sbiancato” o “stancato”?
È senza dubbio vero che le conversazioni audio presentano difficoltà intrinseche e le intercettazioni ambientali ne accentuino le problematiche, complicandone le attività di trascrizione.
Scopo di questa premessa è di mettere in luce i limiti di una trascrizione e fornire una chiave d’interpretazione corretta del contenuto, in considerazione della delicatezza del compito affidato al trascrittore in relazione al tipo di registrazione da analizzare.
Chiunque abbia provato a mettere su carta una lezione universitaria, registrata poggiando sulla cattedra un registratore a cassette, si è reso certamente conto di quanto sia faticoso e spesso impossibile trasformare una registrazione di un messaggio vocale in un testo chiaro e comprensibile.
Una esposizione verbale non equivale alla lettura di un testo. Anche se la lezione viene accuratamente preparata nell’esposizione sono abbastanza frequenti i cambi di argomento e i salti di livello (sia stilistico che linguistico);
l’esposizione non procede sempre in modo scorrevole a causa della costruzione spontanea degli enunciati e questo si manifesta in false partenze, pause, esitazioni: “emh, eh, dunque, allora, ecc “.
A volte l’oratore fa riferimento a immagini (formule alla lavagna, disegni) non presenti nella registrazione, per cui il discorso diventa completamente comprensibile utilizzando informazioni esterne al segnale stesso (ad esempio gesticolazioni o immagini della lavagna). Quando il contributo informativo esterno al segnale non è disponibile, il segnale è destinato a non essere pienamente compreso.
La comunicazione verbale, inoltre, è solitamente molto rapida e tende a favorire fenomeni di riduzione vocalica e consonantica, troncamenti di parola che spesso rendono inintelligibili alcune parole. Gli schemi enunciativi, come quelli che caratterizzano la lingua scritta, sono sovente sostituiti da costruzioni più libere che richiedono l’applicazione di regole grammaticali e sintattiche diverse da quelle tradizionali e scolastiche. Durante l’esposizione, poi, si possono verificare rumori di varia natura, il passaggio di un’auto o di una moto, l’apertura o chiusura di una porta, l’innesco del microfono nell’aula. Questi suoni possono mascherare, più o meno completamente, tratti di parlato. È infine da rilevare che il tempo necessario per effettuare una trascrizione è molto superiore a quanto si creda: per trascrivere un’ora di lezione, pur trattandosi di un segnale di qualità abbastanza buona e con un testo relativamente ben strutturato, occorrono più di quindici ore di lavoro, spesso noioso e ripetitivo.
Quando poi si passa dalla trascrizione di una lezione o di una conferenza alla trascrizione di una intercettazione sorgono ulteriori problemi che sono diversi, per vari aspetti, a seconda che si tratti di conversazioni telefoniche o ambientali.
Nel caso della conversazione telefonica gli interlocutori comunicano tra loro con il solo ausilio della voce e pertanto hanno cura di non fare riferimento ad elementi non visibili o, se ciò avviene, ne forniscono la descrizione; tendono a regolare il livello della voce per rendersi reciprocamente udibili, si segnalano eventuali problemi di comunicazione (ripeti, non ho capito, ecc.). Nel caso di intercettazioni ambientali, invece, nessun ausilio verbale viene fornito dai parlatori, che possono avvalersi di mimiche, gestualità, espressioni del volto o altri riferimenti non sonori; in questi casi il compito del trascrittore diviene decisamente più arduo, a partire dall’elemento basilare, la quantificazione del numero dei parlatori. Solitamente si indica il nome del parlatore quando questo viene esplicitato nel corso della conversazione, parimenti è consigliabile porre attenzione a tutti gli eventi che possono creare un cambiamento del numero degli astanti (apertura/chiusura porte, saluti, voci di sottofondo, auto in partenza/arrivo…), ma difficilmente si potrà stabilire a priori quanti siano effettivamente i presenti ad una qualsiasi discussione.
In molti casi, inoltre, a complicare la già difficile opera di trascrizione, vi potrebbe essere la qualità della registrazione, spesso scadente a causa degli apparati utilizzati (il registratore ed il sistema che accoppia il registratore alla linea telefonica) o dalla poca dimestichezza del soggetto registrante. Può accadere che l’interlocutore vicino al sistema di intercettazione “saturi” il sistema di registrazione imponendo un volume di voce superiore alla soglia di ricettività dell’apparato (provocando il fenomeno della distorsione della voce) mentre l’interlocutore lontano apparirà quasi inintelligibile, coperto dal rumore del canale o dell’ambiente; possono verificarsi fenomeni di sovrapposizione delle voci (situazione non districabile nemmeno con operazioni di filtraggio digitale), tratti ad intensità variabile perché le persone sono in movimento nell’ambiente, presenze di rumori accidentali dovuti al luogo di occultamento del microfono (es. strofinamenti se inserito nella tasca della giacca…) etc…
Vi è poi il problema del linguaggio; la comprensione di una parola all’interno di un messaggio dipende dall’informazione contenuta, dal segnale acustico che caratterizza la parola e dalle informazioni contenute nel modello linguistico relativo a quel messaggio. Il modello linguistico è in grado di prevedere la probabilità che in un dato punto del messaggio vi sia un particolare vocabolo o una particolare categoria di vocaboli (aggettivo, verbo, ecc.). Le parole alla cui comprensione il modello linguistico non può contribuire, ad esempio i cognomi, i toponimi, le sigle, possono essere oggetto di facili fraintendimenti (Boldi invece di Polti, D’Alema anziché Da Lena ecc…).In alcuni casi un’espressione o una sigla non trascritta nel corso della prima stesura diventa poi facilmente e sicuramente interpretabile quando viene suggerita, ad esempio dal Magistrato, sulla base delle informazioni in atti.
Un altro aspetto fondamentale è la qualità della registrazione; tra tutte le caratteristiche tecniche possibili, le più importanti legate all’intelligibilità del parlato, in particolare, sono: il rapporto segnale/rumore, generalmente valutato mediante algoritmi che calcolano il rapporto tra le energie della componente periodica e aperiodica del segnale: al di sotto di un rapporto di 10 dB, ovvero con intensità del segnale utile non superiore a 10 volte l’intensità del rumore, la comprensibilità inizia ad essere compromessa;
la larghezza di banda (la voce umana ha un’estensione che può arrivare fino a 8 KHz, mentre la maggior parte dei sistemi trasmissivi non consente una banda superiore ai 3 KHz);
la dinamica dell’apparato, che si riflette sulle soglie di intensità di segnale (minima e massima) entro le quali il registratore riesce a registrare senza distorcere.
Altri fenomeni, come già accennato legati al contenuto ed alla tipologia di conversazione ambientale, possono risultare di particolare impedimento alla comprensione. Citiamo:
la sovrapposizione di parlati, che viene valutata come ‘segnale utile’ dai software di misura ma, in realtà, rappresenta un handicap all’intelligibilità;
la distorsione del segnale, dovuta in genere ad effetti di saturazione, impedisce la fedele riproduzione di certe frequenze;
il rimbombo o eco.
Oltre che dalla ‘bontà’ del segnale intrinseco, la qualità complessiva può dunque dipendere, anche in modo determinante, dalla qualità della strumentazione impiegata (microfono, canale trasmissivo, registrazione, supporto magnetico), ma anche dal settaggio di alcuni parametri, quali per esempio la velocità di incisione; è noto, infatti, che maggiormente si condensano le informazioni sul nastro (bassa velocità), tanto peggiore sarà la qualità risultante.
Operazioni di ‘pulizia’ del segnale (in letteratura speech enhancement) possono migliorare a posteriori, sebbene solo in parte, alcuni degli aspetti sopra elencati, e rendere un po’ più preciso il risultato della trascrizione.
Qualunque sia la qualità della registrazione la trascrizione dovrà, comunque, essere effettuata ascoltando ripetutamente brevi tratti di 2-3 secondi che verranno immediatamente riportati su carta o su file, così di seguito fino al termine del brano. È evidente che, dove la qualità non fosse ottimale, il trascrittore dovrà riascoltare ogni singolo breve tratto un numero di volte decisamente superiore, operando le opportune correzioni del caso sul segnale fisico (lavorando, tramite specifici programmi di data signal processing sull’ampiezza e/o sulle frequenze del disturbo del momento) fino a quando non si sarà compresa in maniera sufficientemente chiara una parola/frase o, viceversa, non si abbia la convinzione che tale parola/frase sia effettivamente incomprensibile. Al termine della trascrizione del brano sarà, comunque, buona norma ricontrollare l’intero testo utilizzando il segnale originale, non ‘filtrato’.
In condizioni di segnale proveniente da intercettazioni ambientali, inoltre, è doveroso segnalare il problema dell’attribuzione del parlato: come già accennato è estremamente arduo riuscire a determinare con certezza il numero complessivo dei soggetti presenti ad una conversazione perché, semplicemente, qualcuno potrebbe essere presente pur non parlando. Ora, se qualche soggetto di quest’ultima tipologia (presente-silente), di tanto in tanto esprimesse un breve commento, annuisse o negasse, in condizioni di segnale non particolarmente nitido potrebbe creare dubbi interpretativi sull’attribuzione del parlato, inducendo il trascrittore ad associare le frasi ad uno dei personaggi già ‘noti’. In questi casi, infatti, il contesto e il contorno relazionale non aiutano come, invece, accade nei processi linguistici e logico-interpretativi che consentono l’attribuzione del parlato nei casi di dialoghi a ‘numero chiuso’ o, comunque, a numero limitato di interlocutori.
In aggiunta alle difficoltà interpretative ogni trascrittore deve affrontare e risolvere un ulteriore problema: la modalità espositiva.
Una trascrizione ‘troppo’ fedele implica uno stillicidio di parole tronche, di commenti indiretti, di note a piè pagina o simboli più o meno standard per definire il contorno intonativo, il numero e la durata delle pause, i suoni ambientali presenti… Nel complesso si creerebbe un testo sicuramente preciso ma estremamente complesso nella lettura. D’altro canto, una stesura ‘speditiva’, pur con il vantaggio di una estrema leggibilità, rischia di produrre uno scritto ‘interpretato’ e, probabilmente, poco preciso, con il rischio magari, di disattendere le aspettative proprio in quei punti ‘chiave’ sui quali potrebbe vertere il dibattimento…
Tipicamente l’esperienza nel settore fa sì che si possa comunque raggiungere un buon compromesso tra fedeltà testuale e leggibilità, nell’ottica di privilegiare sicuramente il primo aspetto pur con l’accortezza di snellire il più possibile eventuali legende e commenti.
Per facilitare la lettura delle trascrizioni effettuate si riporta, al paragrafo seguente, la descrizione del modus operandi seguito nella redazione dei testi, unitamente ad una breve legenda illustrativa della simbologia adottata.
2.1.2 Modus operandi e Legenda
In base a quanto esposto, per ottimizzare la resa della trascrizione, sono state adottate le seguenti procedure operative:
la registrazione di cui si dispone è stata riversata su CD, previo campionamento a 11.025 KHz e risoluzione a 16 bit (una copia del CD-R è stata consegnata in data 2 luglio 2003 all’avvocato MARZIALE Lucio, difensore di fiducia di Romano Antonio, così come autorizzato dal Tribunale di Cassino in data 3 aprile 2003);
su alcuni tratti della stessa si è reso necessario provvedere alle operazioni di ‘filtraggio on line’ del segnale audio, onde amplificare il segnale o limitare la presenza di fastidiosi rumori di fondo;
l’ascolto è avvenuto in cuffia, direttamente dal PC, per sfruttare al meglio le possibilità consentite dalla qualità della registrazione e dai ‘tools’ informatici;
al termine, la trascrizione è stata ulteriormente controllata utilizzando anche il segnale originario (ovviamente tramite cuffia);
nei punti dove, a causa della scarsa intelligibilità del parlato o perché gli interlocutori parlavano contemporaneamente, non fosse chiara la comprensione di una singola parola o frase, il testo è stato omesso e sostituito con le seguenti diciture:
(p.i.) = parola/e non comprensibile/i
(p.s) = parola/e sovrapposta/e
quando, pur non sussistendo la totale certezza letterale, è stato percepito comunque qualcosa che potrebbe essere utile alla comprensione della frase o di qualche riferimento, è stato trascritto quanto percepito con l’annotazione, tra parentesi ‘o termine/frase simile’;
i tratti di esitazione del parlato sono stati indicati con l’impiego dei classici puntini di sospensione (…);
nei casi relativi a nomi o sigle, ripetuti più volte nel contesto, con dubbi sull’esattezza (poiché il trascrittore spesso non ha la possibilità di un riscontro oggettivo), è stato comunque utilizzato sempre un medesimo termine, benché nei diversi punti possa essere apparso leggermente differente;
i termini dialettali pronunciati dagli interlocutori sono stati riportati in italiano; l’operazione non ha determinato cambiamenti del senso generale delle frasi;
In nero sono riportate le frasi relative alla conversazione registrata sulla microcassetta originale;
In rosso sono riportati parole o frasi presenti sul CD-rom e non sulla cassetta originale;
In blu sono riportate parole o frasi non presenti sulla microcassetta copia.
La trascrizione è riportata nel presente volume.
CAPITOLO 3
PREMESSA SULLE ALTERAZIONI NEI NASTRI REGISTRATI E PROCEDURE DI ANALISI
La registrazione magnetica permette di immagazzinare informazioni (voce, musica, suoni o qualsiasi altro messaggio sonoro) su di un particolare supporto, il nastro magnetico, che può essere raccolto in bobine o in cassette. Lo strumento che permette di fissare l’informazione sonora è il registratore che ne consente anche la successiva fruizione attraverso il riascolto. Le operazioni classiche offerte da un registratore sono, quindi, la registrazione e la riproduzione. Per l’esecuzione esso è munito di un dispositivo di incisione e lettura costituito nelle sue parti essenziali da due testine, rispettivamente di registrazione/lettura e di cancellazione. Il nastro, scorrendo dinanzi a quest’ultima testina, che ha lo scopo di eliminare eventuali incisioni preesistenti, è così pronto a ricevere informazioni tramite la testina di registrazione.
Un siffatto registratore, pertanto, cancella ogni segnale eventualmente presente immediatamente prima di registrarne uno nuovo. Lo strumento stesso consente, quindi, la possibilità diretta di cancellare tutta o in parte una registrazione o di intervenire mediante aggiunta o sostituzione di tratti preesistenti con altri.
Un simile intervento, in questo esempio di tipo analogico, può essere definito:
alterazione accidentale dell’originale se la variazione introdotta è causata da eventi involontari, come ad esempio la pressione temporanea sul tasto record in fase di riascolto (plausibile nel caso del microregistratore in esame, in quanto detto tasto trova alloggiamento all’interno del tasto Play);
manipolazione se l’intervento avviene volontariamente al fine di ottenere una registrazione non conforme a quella originale.
Generalmente l’attività di manipolazione è finalizzata ad una modifica sostanziale del contenuto. L’accertamento dell’integrità di una registrazione magnetica può risultare molto complesso se le operazioni di alterazione/ma-nipolazione sono state effettuate con attenzione da persone munite di specifica esperienza. A livello di intervento con tecnologia analogica può risultare possibile, tuttavia, individuare tracce di varia natura che testimonino un intervento sul naturale evolversi dell’evento sonoro. Ciò perché le testine, durante le operazioni di inizio registrazione e fine registrazione, sono interessate da transitori elettrici che lasciano delle tracce magnetiche sul nastro e nelle giunzioni il segnale eventualmente preesistente subisce una soluzione di continuità. Le tracce di una manipolazione sono generalmente identificabili in impulsi o oscillazioni smorzate che segnano l’avvio di una registrazione (impulso di start) o il suo arresto (impulso di stop), oppure sono rappresentate da tratti di nastro cancellato; in ogni caso sono indice di sovraincisioni.
Nel corso dell’analisi di una registrazione le anomalie possono essere rilevate attraverso un attento esame dell’andamento del segnale, previo riversamento del contenuto su memoria di massa di computer dotato di specifico software di controllo.
Si possono distinguere 3 tipi fondamentali di impulsi o interruzioni:
– i ‘click’, che non alterano il continuum della registrazione e sono costituiti da rumori impulsivi, generalmente della durata di pochi millisecondi;
– quelli imputabili all’azionamento dei tasti ‘stop’,’start’ o ‘pausa’, che alterano in varia misura il continuum della registrazione;
quelli imputabili all’azionamento automatico del sistema ‘vor’ (Voice Operated Recording) che, per loro stessa natura, interrompono una registrazione potendo causare, alla successiva ripartenza, una discontinuità logica.
Per quanto riguarda gli eventi del primo tipo (clicks), essi si manifestano come picchi isolati e possono essere attribuiti a falsi contatti nel collegamento microfonico, ad urti del microfono, a rumori impulsivi nell’ambiente o nel canale di trasmissione. Generalmente sono di natura accidentale, si presentano sovrapposti al segnale in acquisizione e, per la breve durata, non alterano la continuità dei dialoghi e dei rumori di fondo.
Per quanto attiene, invece, al secondo tipo di interruzioni, quelle consistenti in stop o start della registrazione, si può porre il problema della loro attribuzione ad un determinato modello di registratore.
L’impulso dovuto all’evento ‘stop’, per esempio, ha sempre una durata fissa, di lunghezza corrispondente alla distanza tra la testina di cancellazione e quella di registrazione. In caso si individuassero su un nastro più eventi ‘stop’, di lunghezze differenti, si potrebbe affermare che la registrazione è avvenuta con più apparati, di diverse caratteristiche tecniche.
Per quanto riguarda la funzione ‘vor’ si rappresenta che tale possibilità è ampiamente utilizzata nei casi di registrazioni di conversazioni (al fine di sfruttare al massimo l’autonomia del nastro in relazione al parlato) e consente automaticamente al registratore di fermarsi qualora l’intensità del segnale rimanga per un tempo prefissato sotto una determinata soglia. La registrazione riprenderà, sempre automaticamente, allorché il segnale risupera tale barriera.
Gli effetti del vor sono riscontrabili, in riproduzione, anche uditivamente, in quanto nelle due fasi di arresto e ripartenza modificano le caratteristiche fisiche del segnale.
Più precisamente nella fase di arresto, qualora fosse presente un parlato sotto il valore di soglia, si noterebbe un effetto (della durata di qualche decina di millisecondi) simile ad uno slittamento, dovuto alla decelerazione che il nastro subisce nel passare dalla normale velocità di scorrimento ‘v’ a zero.
Nella fase di ripartenza, invece, si riscontra un effetto simile ad un troncamento. In effetti i millisecondi iniziali del primo segnale utile sopra la soglia sono utilizzati dai sensori per la riattivazione della registrazione la quale, a sua volta, inducendo un’accelerazione del nastro da zero a ‘v’, produce l’effetto menzionato. A livello di analisi del segnale, considerando un’onda di riattivazione monocromatica, si osserverà, in riproduzione, una frequenza iniziale superiore a quella fornita, che progressivamente (in una decina di millisecondi) si stabilizzerà.
Ogni tipologia di registratore è progettata con specifiche caratteristiche in ordine al livello di soglia ed al tempo di reazione del vor, pertanto anche l’analisi di questi eventi può essere utile per l’indicazione del tipo di strumento utilizzato.
Avendo a disposizione il registrazione originale è possibile confrontare l’andamento temporale di tali impulsi (start, stop, vor…) con quelli ricavati dalle prove ottenute simulando tutte le possibili condizioni, al fine di poter attribuire una compatibilità o meno tra eventi riscontrati ed apparecchio.
La presenza di tali eventi, in una registrazione, non costituisce necessariamente elemento di alterazione o manipolazione, tuttavia riscontrare un complesso dei citati impulsi, in specifiche sequenze, può essere indicativo della presenza di sovraincisioni, che corrispondono a nuove immissioni/cancellazioni sul substrato magnetico. Sono fenomeni dovuti ad un azionamento del tasto start su un tratto di nastro preregistrato
Esse sono caratterizzate, generalmente, da tre tratti significativi:
– il primo, relativo alla porzione di nastro che al momento della sovraincisione era compreso tra la testina di cancellazione e quella di registrazione, che presenta un’attenuazione del segnale originario dovuta alla corrente di premagnetizzazione;
– il secondo tratto è costituito dal nuovo segnale registrato di durata variabile in dipendenza della durata di sovraregistrazione;
– il terzo tratto, infine, relativo alla breve porzione di nastro magnetico cancellato che, al termine della sovraincisione, si trovava tra la testina di cancellazione e quella di registrazione e che, essendo intervenuta la manovra di stop, non può essere ricoperto da alcun nuovo segnale.
Il terzo tratto potrebbe non essere presente qualora la sovraincisione termini a fine nastro.
Ricordando che nel caso di un registratore a cassette la posizione delle testine è vincolata da finestre appositamente previste nel contenitore, ne segue che eventuali modifiche nel registratore sono praticamente impossibili; gli impulsi lasciati da uno ‘stop’ sono dunque rappresentativi delle caratteristiche tecniche del tipo di apparato utilizzato.
Allo stesso modo le caratteristiche del ‘vor’ sono progettuali.
Va tenuto in debita considerazione, infine, che nel caso di registrazioni effettuate in presenza di rumori di fondo casuali, gli stessi eventi potrebbero essere più difficilmente rilevabili, in quanto mascherati dalla naturale presenza di altri disturbi ambientali.
In questi casi gli elementi più significativi che possono rivelare una avvenuta manipolazione sono da ricercare nella eventuale discontinuità del discorso, nel suo non naturale svolgimento o in repentine variazioni, inspiegabili, dei rumori di fondo.
3.2 REGISTRAZIONI DIGITALI
Quanto espresso finora è il quadro delle possibilità investigative inerenti le indagini di genuinità su nastri magnetici che si sospetta siano stati alterati in maniera analogica.
Nel caso di registratori digitali il segnale è presente sul nastro in forma numerica, l’azionamento dei vari comandi non lascia tracce e il contenuto può essere comodamente riversato su qualsiasi altro supporto (nastro, CD, Hard-Disk) senza l’introduzione di alcuna modifica.
In commercio, inoltre, esistono decine di programmi per computer (software di editing) che consentono, anche a persone non particolarmente versate nella materia, di effettuare modifiche sostanziali al contenuto di qualsiasi file audio.
Se l’operatore avesse, inoltre, specifiche competenze tecniche potrebbe anche attuare interventi ‘perfetti’, cioè senza creare quegli impulsi che caratterizzano le manipolazioni analogiche e attenuare le eventuali discontinuità in prossimità delle giunzioni.
Tali modifiche possono riguardare l’eliminazione di tratti, l’inserimento di effetti sonori, il ‘collage’ di parti del discorso o addirittura di parole.
Restando nel campo delle ipotesi non è possibile escludere, pertanto, che anche una qualsiasi registrazione analogica possa essere il frutto di un trattamento digitale. Ciò presuppone quattro operazioni:
una prima registrazione ‘base’,
un successivo riversamento su computer,
un ‘editing’ digitale,
un ultimo riversamento su supporto analogico.
In un simile contesto, seppur complesso, le chances di evidenziare con certezza l’avvenuta manipolazione, se ben realizzata, sono pressoché nulle.
Conseguentemente, se da un lato l’esame sulla genuinità di una registrazione che si sospetti essere alterata digitalmente non porterà quasi mai a risultati di certezza, d’altro canto, tuttavia, l’analisi della compatibilità degli eventi riscontrati con quelli prodotti dall’apparecchio in esame, il controllo della continuità linguistica e “logico-sintattica” del messaggio, della continuità dei rumori di fondo e delle eventuali repentine variazioni di livello sonoro, possono fornire comunque indizi estremamente indicativi. Si potrà parlare, quindi, di ‘ragionevole genuinità’ se nessun evento inspiegabile sarà emerso dalle analisi e di più o meno ‘ammissibile alterazione/manipolazione’ secondo la quantità e la natura degli eventi riscontrati e giudicati inspiegabili.
3.3 ANALISI DEL NASTRO ED EVENTI RISCONTRATI
A seguito di specifica richiesta veniva fornito anche il microregistratore in dotazione al G.I.De.S di Firenze utilizzato per la registrazione originale in disamina.
In data 17 febbraio 2006 lo scrivente si recava presso la Procura della Repubblica di Genova dove provvedeva ad analizzare la microcassetta TDK MC 90 n. ATAG 825.
Ad una attenta ispezione visiva, condotta facendo manualmente scorrere il supporto magnetico, il nastro reperto è risultato perfettamente integro (integrità meccanica) in ogni parte, non essendosi riscontrate né rotture né abrasioni né giunture. Analoga procedura veniva effettuata per la copia.
Il contenuto di entrambe le microcassette in verifica è stato riversato su personal computer, utilizzando schede audio professionali con risoluzione a 16 bit e frequenza di campionamento pari a 44,1 KHz.
Entrambi i nastri risultavano registrati ad velocità di scorrimento standard di 2,4 cm/sec e la registrazione di interesse è sul lato “A”.
Dall’ascolto della registrazione originale (integrità logica) e dall’esame delle caratteristiche elettroacustiche (integrità elettrica), rilevate attraverso l’attenta ispezione tramite specifico software (Adobe Audition) sono stati evidenziati gli eventi di seguito riportati:
impulso di “START” ad inizio di registrazione;
impulsi a circa 1,6 secondi (verosimilmente stop/start in quanto si ha un discontinuità nei discorso);
impulsi a circa 18 secondi (verosimilmente stop/start in quanto si ha un discontinuità nei discorso);
impulsi a circa 37 secondi (verosimilmente stop/start in quanto si ha un discontinuità nei discorso);
impulsi a circa 56 secondi (verosimilmente stop/start in quanto si ha un discontinuità nei discorso e mancanza di registrazione presente invece su CD-copia);
aumento di volume, presenta di un click (rumore impulsivo) ma continuità nel discorso a circa 2’30”;
impulsi a circa 26’22” (verosimilmente stop/start in quanto si ha un discontinuità nel discorso);
impulsi a circa 28’01” (si fa presente che vi è comunque continuità nel discorso);
impulsi a circa 28’09” (si fa presente che vi è comunque continuità nel discorso);
fine registrazione per fine nastro a 46’44 circa;
Dall’analisi in frequenza (all.3) si evince la presenza di varie frequenze continue caratteristiche del registratore in reperto (in particolar modo quelle comprese tra i 4000 e gli 8000 Hz) in quanto tali frequenze si riscontrano anche nell’analisi della registrazione di prova, pertanto non si evidenziano aggiunte effettuate con altri registratori;
frequenze evidenziate (la parte più chiara corrisponde alle tratto del prova)
per tutta la registrazione di interesse non vi è un rumore costante, ma vi sono rumori di varie origini dovuti al fatto che gli interlocutori si muovono fra questi menzioniamo i rumori presenti in un bar (da circa 3’ a 7’), i rumori di veicoli in transito (a circa 12’, 24’, 26’, 28’, 33’), di voci di terze persone, di campane (a circa 8’40”, 24’), questo spiega anche il diverso volume delle voci registrate.
3.4 CORRISPONDENZA TRA LE REGISTRAZIONI
L’analisi di tutte e tre le registrazioni ha evidenziato una non totale omogeneità in quanto si rivelano le seguenti discordanze:
assenza sulla cassetta copia:
l’inizio della registrazione dove vengono dette le parole “Che tu fai?”;
la parte finale dal minuto 46 e 27 secondi fino al termine della registrazione dovuto alla minor lunghezza del nastro su cui è stata sfatta la copia;
assenza sia dalla cassetta originale che dalla copia della frase “….di Marano….amico de” e presente sul CD-copia;
Presenza sulla cassetta copia di impulsi di cellulare a circa 8”, 1’37”, 3’43”, 10’30” e 35’41” non presenti sull’originale e derivanti verosimilmente dalla presenza di un cellulare durante le fasi della copiatura;
La registrazione contenuta nel CD-copia è stata saggezza verosimilmente a filtraggio in quanto alcune parti si sentono meglio dell’originale e sicuramente ha alcuni tratti dove il segnale è stato amplificato;
Presenza sul CD-copia di impulsi di cellulare a circa 27’30”, 29’05”, 40’01” e 42’44” non presenti sull’originale e derivanti verosimilmente dalla presenza di un cellulare durante le fasi della copiatura.
3.5 INTERPRETAZIONE DEGLI EVENTI RISCONTRATI
In merito al punto a) del §3.4 lo ‘START’ rilevato coincide con quello del registratore in reperto.
Dopo lo START del punto a) si rivelano degli impulsi vari dopo di che inizia la registrazione che viene interrotta più volte nei punti b), c), d) ed e). Sicuramente quella presente al punto e) è avvenuta durante la seconda fase di riversamento dall’originale alla copia in quanto sulla copia contenuta nel CD-ROM non è presente.
Dal punto e) fino al punto g) si ha continuità nella conversazione.
Al punto g) si rivela la presenza di un’altra interruzione.
L’evento di cui al punto k) è un fenomeno del tutto naturale a fine registrazione dovuta alla fine del nastro.
La presenza di salti di livello nel continuum trova spiegazione nella circostanza che l’operatore vari la distanza, nel corso della conversazione, del microfono del registratore dalla sorgente vocale.
La consequenzialità nello svolgimento del discorso, oltre a quanto rilevato in precedenza, induce a ritenere che nei tratti di conversazione comprese tra gli intervalli:
1,6 sec → 18”;
18” → 37”;
37” → 56”;
56” → 26’22”;
26’22” → 46’44”;
non sono state assemblate le parole.
Per quanto riguarda l’intera registrazione sia originale sia le varie copie esaminate, le analisi sugli impulsi elettromagnetici e l’analisi sulla corrispondenza del contenuto fanno ritenere che vi siano state delle manipolazioni verosimilmente accidentali per quanto riguarda la presenza di stop/start e di impulsi dovuti ad interferenze con le onde elettromagnetiche dei cellulari.
L’analisi dei rumori presenti nella registrazione fanno ritenere che la registrazione è stata effettuata in un luogo frequentato da persone, dove è presente almeno un bar e una chiesa, si parla nel finale della registrazione di vie e luoghi di Firenze, ma questi elementi non possono individuare univocamente la provenienza della registrazione.
In merito, invece, all’epoca della registrazione, sempre dalla sola analisi della conversazione e come indicato dalla Polizia Giudiziaria che ha effettuato la trascrizione preliminare si ritiene che essa sia avvenuta l’ultima decade del maggio dell’anno 2002. Infatti colui che la PG ha indicato come dr. GIUNTARI riferisce che intorno il 14 – 16 maggio (circa una settimana prima della registrazione) era stato pubblicato un articolo relativo ad una sensitiva alla quale si era rivolto il Capo della Mobile. Inoltre nella seconda parte della registrazione i presenti dialogano in merito a (come riferito dalla PG operante) due omicidi avvenuti in Firenze rispettivamente il 10 e 11 maggio del 2002.
CAPITOLO 4
4.1 Introduzione al confronto di voci
La richiesta di comparazione della voce per l’individuazione del parlatore deve considerare che nell’atto della verbalizzazione si propongono essenzialmente due tipi di informazioni: il segnale acustico dovuto alle caratteristiche fisiologiche dell’apparato fonatorio individuale ed il messaggio enunciato, formalizzato secondo uno schema linguistico codificato.
Voce e messaggio sono dunque espressioni diverse di un’unica sorgente: il soggetto parlante.
In termini generali, inoltre, l’oggetto dell’accertamento sarà costituito da conversazioni che necessariamente devono essere state registrate (mediante apparati tecnologicamente più o meno avanzati) su un supporto fisico. Il risultato finale, il reperto, è dunque il frutto di un’operazione di mediazione strumentale e potrebbe, per gli effetti prodotti dagli strumenti stessi, non rappresentare esattamente il segnale originario in tutte le sue caratteristiche. Questi effetti, benché possano essere teoricamente controllabili e riproducibili, influenzano comunque la qualità del segnale e le variabili fisiche in esso contenute. Le variabili di tipo linguistico, invece, non sono in generale sensibili alla curva di risposta dei sistemi riproduttivi/trasmissivi ma possono dipendere da altre circostanze quali lo stato emotivo dei parlatori, la natura della conversazione etc…
Da questi semplici ragionamenti preliminari si deduce che l’esame confrontuale tra voci potrà (e dovrà, per quanto possibile dal tipo di materiale) essere concentrato parimenti su due filoni d’indagine: la branca scientifica strumentale dell’analisi acustica e quella fonetico-linguistica, il tutto perché le informazioni ricavabili dalle due discipline sono tra loro indipendenti e complementari. L’obiettivo è quello di ottenere un quadro, il più descrittivo possibile, di quelle caratteristiche individuali che consentano la creazione di una sorta di un profilo tipo ‘carta d’identità del parlatore’, capace di essere quanto più oggettiva e completa per le successive comparazioni.
La storia della fonica insegna che una trattazione esclusivamente ingegneristica, che consideri la voce come un’impronta digitale o comunque come un marchio indelebile della persona (come è stato proposto verso la fine degli anni ‘60, con la realizzazione del sonografo, denominato troppo fiduciosamente voiceprint) dopo una breve fase di entusiasmo finì con lo smorzare le iniziali ambizioni. La variabilità, ineliminabile, del segnale vocale proveniente da qualsiasi parlatore rende il confronto tra le impropriamente nominate ‘impronte vocali’ decisamente diverso e molto più complesso rispetto al confronto tra impronte digitali[2]. Come si vedrà nel seguito l’ambito del confronto vocale si sviluppa su un numero elevato di variabili ‘dinamiche’, ed è pertanto impossibile effettuare confronti che non richiedano una trattazione statistica; le risposte stesse, quindi, non saranno categoriche ma dovranno contenere aspetti di gestione degli errori.
La difficoltà principale per un approccio scientifico è dato proprio dalla variabilità intrinseca della voce che, sommata alla variabilità delle condizioni di registrazione, pone un problema sopra un altro problema.
Vedremo, tuttavia, per tornare al discorso della valenza duale segnale + messaggio, che esistono caratteristiche che possono essere considerate stabili all’interno di opportuni intervalli di tolleranza e/o invarianti rispetto ad alcune condizioni al contorno, alcune per esempio non sono influenzate dal sistema di registrazione, altre non lo sono dal tipo di linguaggio… Poter contare su differenti branche d’indagine risulta quindi non solo un potenziamento del metodo, ma anche un sistema di verifica della stabilità dei risultati finali. Dall’insieme delle considerazioni fin qui riportate nasce spontanea l’esigenza di associare all’esame fisico-acustico anche un esame generale linguistico.
Anche per tutte le caratteristiche linguistiche esiste, comunque, una variabilità intrinseca più o meno accentuata. Alcune peculiarità sono tra esse indipendenti e meritano una trattazione separata. In particolare menzioniamo aspetti:
fonetici: acquisiti con l’educazione e consolidati nel tempo, caratterizzano le persone per le modalità dei processi di articolazione e collegamento dei suoni. Rappresentano un fattore seminconscio, sostanzialmente stabile nel parlato spontaneo, e scarsamente variabile nel medio termine. La sovrapponibilità delle mappature delle produzioni fonetiche tra individui è stringente per qualsiasi giudizio di compatibilità;
SEMANTICO-LESSICALI: incidono sull’identità e il significato del messaggio pronunciato in relazione ai suoni emessi o alla scelta di vocaboli operata (parola/significato, secondo un codice semantico), forniscono informazioni di carattere prevalentemente socio-linguistico, con riferimento alla zona geografica di appartenenza ed al livello culturale raggiunto dal soggetto;
PROSODICI: riguardano l’andamento (temporale e intonativo) dell’esposizione frastica, possono essere connessi con il carattere della persona e/o con l’ambiente di sviluppo/lavoro.
Gli aspetti intonazionali sono i più condizionati dallo stato emozionale, tuttavia altri aspetti temporali possono risultare estremamente stabili rispetto alle emozioni e quindi maggiormente utilizzabili.
foniatrici: riguardano le modalità di emissione acustica dei suoni dovute alle condizioni morfo-fisiologiche dell’apparato respiratorio.
Rappresentano la categoria meno controllabile dal cervello e più oggettivamente legata alla biometria dell’individuo. Sono i responsabili delle frequenze fonatorie emesse, e rappresentano l’oggetto degli esami strumentali.
Cerchiamo ora di spiegare le cause e le conseguenze del fattore ‘intrinseca variabilità’: la voce è soggetta a continue alterazioni non solo per l’aumentare dell’età o per l’insorgere di patologie specifiche dell’apparato respiratorio (più precisamente parleremo di variazioni ‘di lungo periodo’ del sistema Rino-Laringo-Faringeo), ma anche per cause ‘di breve periodo’ come un’anomala respirazione momentanea, l’assunzione di alcool o per improvvisi sbalzi umorali del parlatore.
Queste variazioni influiscono anche sulle componenti più prettamente fisiche della voce come è stato dimostrato, per esempio, per la frequenza di vibrazione delle corde vocali che dipende anche, per esempio, dall’intensità della voce e dalla tensione delle corde stesse [3].
Da tutto ciò si evince che, a livello intraparlatore, esiste una doppia variabilità che non può essere trascurata in fase confrontuale. Si sottolinea ‘doppia’ perché vi è la componente a breve termine, di natura occasionale (dovuta prevalentemente allo stato emotivo, quindi transitoria o idiosincratica) e quella sistematica dovuta all’invecchiamento fisiologico degli organi e delle membrane, talvolta affetti da patologie croniche.
Oltre alle variazioni intrinseche, dovute alla sorgente del segnale audio, vi sono poi le alterazioni indotte dal sistema strumentale di registrazione, che dipendono essenzialmente da:
– microfono
– canale di trasmissione
– apparecchio di registrazione
– supporto di registrazione
Ogni elemento del sistema introduce modifiche al segnale originale.
Tali variazioni possono risultare trascurabili o meno in funzione della qualità dei materiali, delle condizioni generali di configurazione del sistema di registrazione e, generalmente, la qualità finale del prodotto sarà determinata dalle caratteristiche del peggior componente.
Tra i fenomeni più critici, che possono alterare una registrazione fino a renderla inutilizzabile a fini comparativi, menzioniamo la saturazione del segnale, il taglio in frequenza dovuto al canale di trasmissione e i rumori di fondo ambientali (o voci sovrapposte)…
Per queste ragioni è necessario porre dei limiti ‘ab initio’ alla possibilità di comparare voci. La richiesta di attribuzione della voce ad un dato individuo dovrà basarsi sulla possibilità di disporre di segnali che, a livello di qualità, soddisfino una minimale serie di requisiti.
Possono considerarsi ragionevolmente utili ad un confronto completo coppie di voci:
– di soggetti adulti, (cioè linguisticamente e fisiologicamente formati),
– concernenti idiomi linguistici omogenei,
– presenti su registrazioni che distino, temporalmente, un intervallo di tempo sufficientemente breve da poter considerare trascurabili gli effetti dovuti al normale invecchiamento (stimabile intorno ai sei anni) o ad eventuali modifiche strutturali del cavo orale (operazioni chirurgiche, insorgenza di malformazioni…)
– registrate da conversazioni ove siano simili le condizioni emotive, l’ideale sarebbe poter trattare conversazioni nelle quali la voce si possa considerare ‘naturale’.
– incise con sistemi che rispettino maggiormente la fedeltà del segnale vocale originario (senza distorsioni, senza eco, senza disturbi che coprano il segnale…) o, comunque, siano il più possibile omogenei tra loro, per minimizzare le eventuali differenze dovute al canale di trasmissione o ai singoli componenti del sistema di registrazione.
È comunque da evidenziare che questi requisiti, pur soggiacendo alla corretta fattibilità delle varie analisi, strumentali e linguistiche, non sono tutti contemporaneamente necessari per poter comunque effettuare qualcuna delle analisi utili ad un confronto di voce; solamente si otterranno risposte più limitate rispetto a quanto si sarebbe potuto ottenere avendo la possibilità di approfondire tutti gli aspetti possibili.
È anche importante sottolineare come l’opzione di poter quantificare la probabilità nel processo di identificazione sia determinante soprattutto in caso di positività tra due voci. L’esame linguistico, che al momento non offre un risultato di tipo numerico, comporta una condizione necessaria non sufficiente per sostenere un’identificazione. Le analisi linguistiche, in effetti, consentono la possibilità di discriminare se due voci appartengano o meno ad un ‘gruppo socio-gergale’ circoscrivendo cioè la voce anonima ad una connotazione geografica definita e limitata ad un gruppo di persone ma non così stringente da poter appartenere univocamente ad un solo individuo. Eventuali sistematiche discrepanze sugli elementi linguistici possono condurre, invece, a collocare le voci dei soggetti a gruppi disgiunti, facendo così cadere la condizione necessaria all’identificazione e consentendo il giudizio di incompatibilità (= non identità) tra le voci. Per meglio far comprendere questo concetto è possibile ricorrere ad un semplice esempio: se si dovesse valutare l’identità delle persone sulla base di parametri quali altezza e peso, affermare che l’anonimo ed il sospettato presentano gli stessi valori significa indicare la compatibilità (che non è identità!) tra gli individui, tuttavia se si dimostrasse una differenza di 10 cm in altezza e 10 Kg in peso, a parità di condizioni temporali, saremmo sicuramente in grado di affermare la non identità tra i soggetti.
4.2 produzione della voce – modello teorico
La voce da un punto di vista fisico è un’onda acustica che necessita di un mezzo di propagazione per diffondersi, tipicamente l’aria.
Come ogni fenomeno ondulatorio è caratterizzato da alcune grandezze, alcune scalari, quali il periodo o la frequenza di oscillazione, altre vettoriali come il numero d’onda o la velocità di propagazione.
Alcuni parametri dipendono dal mezzo di propagazione (velocità, vettore d’onda…), altri sono determinati solo dalla sorgente emissiva; tra questi ultimi, più importanti per un’eventuale caratterizzazione, annoveriamo la frequenza.
Per lo studio di un’onda complessa come il suono vocale l’analisi strumentale verrà quindi condotta sullo spettro del segnale che è, giustappunto, la rappresentazione del segnale nella scomposizione delle proprie componenti in frequenza.
La voce è un suono complesso perché è il risultato acustico di più fenomeni:
il passaggio di aria attraverso la glottide che, a seconda della posizione delle corde vocali, genera rumore ma può produrre anche un treno d’onde;
il seguente passaggio attraverso un condotto acustico che, fungendo da cassa di risonanza, modula il segnale entrante;
la variabilità nel tempo della morfologia del condotto acustico, che permette l’emissione dei diversi suoni.
Tale condotto, chiamato tratto vocale, ha come estremità le labbra e dall’altra parte la glottide. La glottide è il sito della prima fonte di eccitazione (quasi) periodica, le corde vocali. L’uomo, nell’esposizione verbale, è capace di generare suoni in tre forme sonore basilari:
· vocaliche: sono suoni prodotti eccitando il tratto vocale con un flusso d’aria costituito dal treno di impulsi, quasi periodico, generato dalla vibrazione delle corde vocali;
· fricative: forme prodotte formando un restringimento nel tratto vocale provocando, al passaggio forzato di aria, una turbolenza e quindi un particolare rumore (es. le consonanti f,l,r,s…);
· OCCLUSIVE: prodotte chiudendo completamente l’estremità superiore del tratto vocale. All’apertura rapida, per effetto della pressione dell’aria forzatamente racchiusa, si genera il fono occlusivo (es. le consonanti b, p…).
Una differenza sostanziale tra le tre forme consiste nella rapidità con le quali il suono viene emesso.
Tutte e tre le forme corrispondono ad una eccitazione a larga banda del tratto vocale e sono rappresentabili matematicamente da un filtro che varia lentamente nel tempo e modifica con la propria risposta lo spettro di eccitazione. Il tratto vocale è intrinsecamente caratterizzato dalle sue frequenze naturali, che dipendono esclusivamente dalla forma e dalle dimensioni, che corrispondono a risonanze nelle sue caratteristiche di trasmissione. Dette frequenze prendono il nome di formanti e rappresentano le variabili cardine dei metodi strumentali per il riconoscimento del parlatore, per la riferibilità all’aspetto fisiologico del soggetto.
Delle tre forme basilari di fonazione la produzione delle vocali è quella che fornisce le condizioni di maggior stazionarietà al sistema matematico associato, nel senso che la conformazione del tratto vocale, nell’emissione di questi suoni, varia in tempi relativamente lunghi (anche oltre 50 ms) e può ragionevolmente considerarsi stabile nell’intervallo di misurazione.
Poiché i risultati delle analisi così condotte sono riproducibili, ed essendo la riproducibilità degli eventi il pilastro di ogni affermazione scientifica, ne segue che questa metodologia riveste un importante grado di attendibilità.
Supponendo che la sorgente di eccitazione e la forma del tratto vocalico siano approssimativamente indipendenti, la generazione della voce può essere rappresentata analiticamente da un sistema la cui uscita è data dalla convoluzione della risposta all’impulso del tratto vocale con la forma d’onda di eccitazione. Il modello proposto prende il nome di ‘filtro lineare’ (Fig. 1).
Un tale modello è idoneo non solo per l’analisi ma anche per la sintesi della voce, in tale caso s(t) sarà un generatore di frequenze, n(t) un generatore di rumore bianco e h(t) rappresenterà un filtro variabile nel tempo.
Nell’analisi delle vocali, per quanto detto, il filtro numerico rappresenta il tratto vocale come fisso nella produzione del particolare fonema e può pertanto essere caratterizzato dalla sua risposta in frequenza (o dalla sequenza di coefficienti relativi ad un filtro con risposta ad un impulso di durata infinita).
Dalla teoria dei sistemi di trasmissione si ha che la funzione di trasferimento, definita come la trasformata z della risposta all’impulso, rappresenta matematicamente l’ambiente risonante dovuto al cavo orale.
Questo filtro viene eccitato da un treno di impulsi s(n) in cui la distanza tra le creste corrisponde al periodo fondamentale, detto ‘pitch’. La frequenza associata è nominata Frequenza Fondamentale (FF0).
Le frequenze di risonanza del tratto vocale (da cui le formanti FFj) sono i poli della funzione di trasferimento e si ottengono dall’estrazione dei coefficienti ck della funzione di trasferimento [5] fattorializzata e complessa associata al sistema stazionario.
Data la difficoltà computazionale si comprende l’importanza di poter utilizzare un algoritmo di supporto che possa agevolare la ricerca di questi valori a partire dallo spettro generico (ottenuto come Trasformata di Fourier discreta) del segnale originario, uno di questi è basato sulla trasformata di Fourier del logaritmo dello spettro di potenza. Bogert e altri [6] chiamarono Cepstrum (anagramma di spectrum) tale funzione, e questo nome si è mantenuto fino ad oggi dall’epoca della pubblicazione del lavoro originale del 1963.
L’approccio mediante funzione Cepstrum, ancora oggi base di sviluppi applicativi, si adatta particolarmente bene all’analisi di classi di sequenze numeriche aventi trasformata z razionale fratta (caso in argomento), poiché fornisce con semplicità, e grazie ai moderni elaboratori anche con celerità, la possibilità di ottenere i valori delle FFj, ricavabili dallo studio dei punti di massimo relativo della funzione rappresentata (poli). Per completezza bisogna ricordare che tra le evoluzioni del Cepstrum figurano anche altri algoritmi (con relativi coefficienti, noti in letteratura) tra i quali citiamo, in particolare, il Mel-Cepstrum, l’LPC (Linear Predictive Coding–Cepstrum Derived )[15]. Per un sistema di misura di tipo semi-automatico, dove la misura è sempre controllabile dall’operatore significa, a livello grafico, rendere più facilmente interpretabile lo spettro ottenuto dal diagramma FFT (con coordinate frequenza e intensità relativa), evidenziando la curva di modulazione dovuta agli effetti di risonanza del tratto vocale. Grazie a questa facility i sistemi analitici di riconoscimento del parlatore di tipo semi-automatico sono particolarmente adatti per le esigenze forensi perché, a differenza di quelli totalmente automatici, consentono non solo la misura, ma anche la verifica (ed eventuali interventi correttivi) di ogni singola misura effettuata, a garanzia di un totale controllo.
FIGURA 2: Spettro di una vocale ‘a’ maschile. La curva rossa rappresenta la funzione LPC, quella blu la funzione cepstrum; le barre indicano le prime tre formanti..
Per l’interpretazione statistica dei dati è doveroso domandarsi quante, delle variabili misurabili, possano effettivamente considerarsi significative (o indipendenti).
Per quanto riguarda le formanti FFj, risonanze della cavità orale, è necessario puntualizzare che se il condotto fosse ipoteticamente un ‘tubo’ senza asperità con una estremità chiusa (la glottide) ed una aperta (la bocca), bisognerebbe aspettarsi la produzione di n risonanze legate dalla relazione matematica Fn=(2n-1)F1 (cioè verrebbero emesse solo armoniche dispari della prima frequenza di risonanza [18]), e significherebbe una rigida interdipendenza dei parametri (in pratica si avrebbe una sola frequenza indipendente e tante armoniche correlate). Questa situazione, fortunatamente, non si verifica nel parlato quotidiano, poiché il condotto vocale contiene strozzature dovute alla posizione della lingua, la protuberanza dell’epiglottide e tutti i restringimenti più o meno volontari riscontrabili nel canale stesso, che provocano risonanze indipendenti (seconda, terza formante ecc…) e limitano la produzione delle armoniche correlate. In alcune rare circostanze, tuttavia, si possono ritrovare condizioni assimilabili al caso del ‘tubo piatto’, con forte dipendenza delle frequenze emesse dalla prima formante, sono i casi dei fonemi particolarmente centralizzati, quale per esempio la forma allofonica del fonema ‘e’ inglese presente nell’articolo the o delle grida (talvolta anche di parole pronunciate con volume sostenuto), casi nei quali il tratto vocale viene realmente ‘appiattito’ nell’emissione sonora (effetto Lombard).
Un limite per l’applicazione del modello del filtro lineare è il presupposto che la risposta della cavità orale si comporti, appunto, in modo lineare; questa condizione si verifica con buona approssimazione nel parlato naturale o, comunque, non eccessivamente sforzato.
4.3 metodi utilizzati per la comparazione
Per quanto esposto in precedenza risulta evidente che la voce possiede caratteristiche fisiche parametrizzabili, misurabili e quindi comparabili.
Gli esami ‘fisici’ sul segnale, condotti sullo spettro delle vocali, offrono garanzie di oggettività e stabilità rispetto a variabili di ordine emotivo o idiosincratico, e producono risultati generalmente svincolati dall’intensità della voce e dal testo pronunciato, gli esami fonetico-linguistici, viceversa, sono generalmente stabili rispetto ad altre variabili quali il canale di trasmissione, il rumore di fondo e gli apparati impiegati, ma possono essere condizionati dal testo.
Descriviamo di seguito brevemente gli esami, generale-linguistico e fisico-oggettivo parametrico, che rappresentano i due pilastri del metodo di riconoscimento.
4.3.1 esame generale e linguistico
Normalmente è suddiviso in quattro analisi.
La prima è basata sull’ascolto ripetuto del segnale audio e ha lo scopo di stimolare la memorizzazione ‘inconscia’ delle voci. Dall’osservazione è noto che ogni voce diviene per tutti più familiare e, quindi, facilmente riconoscibile anche in presenza di condizioni sfavorevoli (qualità scarsa del segnale audio, presenza di alterazioni…) tanto maggiore è il tempo che questa viene elaborata dal nostro cervello.
Si è soliti effettuare la distinzione tra memoria a breve e lungo termine sulla base sia della quantità di tempo dedicata all’ascolto sia sulla capacità di ricordarne le caratteristiche a distanza.
Come esempio di memoria a breve termine possiamo riferirci ad ascolti ripetuti e concentrati nell’intervallo di una-due settimane, mentre per memoria a lungo termine l’esempio classico è configurabile dalla capacità che ognuno ha di riconoscere voci talmente ‘metabolizzate’ nel tempo (quali quelle dei congiunti stretti) che, di fatto, sono divenute patrimonio permanente della memoria. In simili condizioni sapremmo riconoscere queste voci anche dopo anni e, soprattutto, in qualsiasi condizione.
Le analisi di puro ascolto, chiamate anche ‘uditive’, sono basate sulla memoria a breve termine. Per questo genere di prova sono sufficienti pochi secondi di segnale, mentre per gli ulteriori accertamenti linguistici è necessario disporre di quanto più materiale possibile.
L’esame linguistico prosegue con tre analisi separate che tendono ad evidenziare:
Aspetti fonetici, consistenti nella mappatura delle forme allofoniche utilizzate per vocalizzare i fonemi all’interno delle parole. La lingua italiana, a differenza di altre (es. il francese), non viene scritta ponendo in risalto tutte le componenti soprasegmentali (p.es. gli accenti) e, pertanto, alcuni fonemi subiscono variazioni sistematiche nella pronuncia a seconda delle varie influenze dialettali-regionali. Per fare un esempio il numero tre può essere letto come tré o trè senza che ciò cambi il significato fonologico. Essendo queste caratteristiche seminconscie del parlatore, dovute principalmente all’ambiente di crescita (famiglia, città, scuola primaria…) e consolidate con gli anni, generalmente forniscono un quadro indipendente da fattori esterni o emozionali. La mappatura può quindi fornire indicazioni sull’area geografica di provenienza o, comunque, di scolarizzazione. L’analisi fonetica, inoltre, è tesa ad individuare non solo quale allofono dell’alfabeto IPA[19] sia stato utilizzato, ma anche ad evidenziare la presenza di eventuali difetti fonatori, quali, per esempio, la pronuncia gutturale del fonema ‘r’ o sibilante della ‘s’ ecc…, circostanze, cioè, che possono essere più discriminanti perché meno dipendenti da fattori ambientali. Il risultato di un’eventuale concordanza nel confronto delle mappature è condizione necessaria non sufficiente per l’identificazione. In caso di particolarità significative tale quadro può assumere un’importanza fondamentale.
Aspetti semantico-lessicali, che insistono su elementi più variabili, quali la lingua-dialetto, la pianificazione semantica e sintattica del discorso e di tutte le forme espressive utilizzate per esprimere significati. È evidente l’importanza che assume tale analisi per i confronti interni (che in genere si riferiscono a conversazioni del medesimo genere/contenuto) mentre, tuttavia, non sempre si possono ottenere riscontri attendibili a fini investigativi, poiché spesso la terminologia utilizzata nelle conversazioni informali differisce, di norma, da quella impiegata in un interrogatorio o nell’acquisizione di un saggio fonico. Un esame linguistico ‘perfetto’ richiederebbe, infatti, di poter disporre di tutto l’universo espressivo di un locutore [24].
Aspetti prosodici, infine, che investono le caratteristiche dell’andamento del discorso (speech flow), l’eventuale ‘contorno intonativo’, lo studio della velocità o della distribuzione delle pause ecc… Alcune di queste variabili, tuttavia, sono particolarmente sensibili alle condizioni emotive del parlante, pertanto a fini comparativi sarebbe preferibile lavorare con tratti che preservino quanto più possibile questo aspetto.
Lo scopo finale dell’esame generale-linguistico dovrebbe essere quello di ottenere un documentato quadro delle caratteristiche espressive che sia il più articolato possibile, con l’evidenziazione in particolare degli aspetti linguistici e fonetici generali, delle peculiarità del parlatore, degli eventuali difetti di articolazione dei fonemi o della frase ed eventuali elementi prosodici o lessicali di utilità, quali intercalari caratteristici, termini o frasi preferenziali ricorrenti, errori grammaticali o sintattici. La presenza di eventuali elementi ricorrenti di notevole rarità (da alcuni denominati contrassegni) può aumentare enormemente il valore identificativo del confronto.
In sintesi, agli effetti di una attribuzione del parlato, gli aspetti di carattere linguistico conducono in genere ad una associazione del parlatore ad un’area socio-geografica di provenienza, la corrispondenza delle mappature fonetiche tra sospettato ed anonimo sarà condizione necessaria per un giudizio di compatibilità ma non sufficiente per l’identificazione, mentre l’ulteriore determinazione di caratteristiche individualizzanti, siano esse prosodiche o particolarità articolatorie personali o rare forme di dislessia, oltre a consentire un giudizio di sicura incompatibilità (qualora non riscontrate nella voce in comparazione), possono essere di significativa importanza per l’attribuzione, poiché restringono la dimensione della popolazione dei possibili individui con caratteristiche fonatorie compatibili.
In tema di studi prosodici sono state proposte differenti possibilità, dalla misurazione della lunghezza delle vocali atone e toniche [8] allo studio della durata delle consonanti occlusive [9], tuttavia appare più percorribile e particolarmente discriminante, in ultima analisi, la misurazione di un’altra variabile, la velocità media di fonazione. Operativamente significa misurare, nei tratti di parlato continuo o real speech (cioè riferibili a brevi frasi, generalmente della durata di 1-2 secondi, che non contengano pause, né respiratorie né di esitazione o di micropianificazione del linguaggio), il numero di battute di sillabazione o sillabe fonetiche al secondo, seguendo la definizione di Articulation Rate come formulata nella letteratura internazionale forense [17].
Test sull’impiego di questa variabile, applicata alla lingua italiana, che è ad isocronia sillabica e non accentuale (a differenza p.e. dell’inglese), hanno recentemente mostrato l’utilità del parametro nel riconoscimento a scopo forense [34], anche in virtù di una buona stabilità rispetto allo stato emotivo del parlatore (che, invece, ha riflessi sul numero e sulla durata delle pause [25]).
Pretrattamento del materiale fonico ai fini comparativi
La prima attività è stata quella di riversare sulla memoria di massa di un Personal Computer dotato di adeguato processore e idonea scheda audio il segnale audio nel suo complesso. Successivamente si è proceduto a isolare la voce dei locutori anonimi, con creazione di files distinti.
Ogni singolo file è stato quindi riascoltato ripetutamente per stimolare la memoria a breve termine, fondamento per l’inizio dell’attività inerente gli esami linguistici.
Le operazioni di pretrattamento delle conversazioni hanno, in sintesi, seguito questo iter:
Ricerca delle voci di interesse;
Riversamento del segnale sulla memoria di massa di un PC, digitalizzando mediante campionamento a 44 KHz e risoluzione a 16 bit;
Editing (Cut & Paste) con creazione di files relativi alle voci dei presenti;
Familiarizzazione con le voci mediante ascolto ripetuto (stimolazione della memoria a breve termine);
4.5 esame generale linguistico-fonetico
Seguendo quanto previsto dalla metodologia si sono effettuate, separatamente e con i limiti esposti già al §4.3.1, le analisi che, nel loro complesso, costituiscono l’esame comparativo generale di tipo linguistico-fonetico.
L’ascolto della registrazione in esame ha evidenziato la presenza di più persone che dialogano tra loro, quelle maggiormente presenti e per le quali si può effettuare una analisi approfondita sono quelle che nella trascrizione sono indicate come GIUTTAR e CANESSA.
GIUTTARI
Dal materiale si sono estrapolate alcune caratteristiche utili per il profilo del parlatore, riportate in tabella.
Registrazione: | Ambientale |
Sesso | Maschile |
Età | Adulta (Secondo la classificazione proposta da L. Cerrato A. Paoloni e M. Falcone: “Subjective age of telephonic voices”. Speech Comumunication 31 (2000) pp. 107-112) |
(è possibile ipotizzare una fascia compresa dai 40 ai 60 anni) | |
Timbro | Baritono |
Lingua: | Italiana |
Inflessione: | Tipica dell’Italia del sud – zona Sicilia nord orientale (dagli elementi rilevati dal punto di vista fonetico generale compatibile con l’inflessione dialettale tipica di Messina anche se mitigato dal dialetto toscano). |
Intensità | alta |
Intonazione | normale |
Lessico | Informale – corretto – di estrazione culturale medio-alta (p.e. 1’15” …sia doveroso lasciare traccia…; 2’50” è tutta un’analisi di elementi di fatto…) – tecnico settoriale (p.e. 1’12” …gliele ha alzate le note?…; 2’17” …sai tutto dell’inchiesta…; ) |
Velocità di articolazione | ~5,42 sillabe/secondo |
Particolarità fonetiche: | raddoppio della plosiva b (p.e. …è impossibbile…; … è indimostrabbile…); omissione della pronuncia della consolante ‘r’ con conseguente raddoppio della consolante che la segue (p.e. …verificallo…;…pallavi…) |
Andamento prosodico | Regolare con assenza di pause che denotano una certa padronanza nel discorso trattato e una organizzazione ben strutturata in fase di micropianificazione del discorso. |
CANESSA
Dal materiale si sono estrapolate alcune caratteristiche utili per il profilo del parlatore, riportate in tabella.
Registrazione: | Ambientale |
Sesso | Maschile |
Età | Adulta (è possibile ipotizzare una fascia compresa dai 40 ai 60 anni) |
Timbro | Basso |
Lingua: | Italiana |
Inflessione: | Tipica dell’Italia centrale– zona Toscana (dagli elementi rilevati dal punto di vista fonetico generale è compatibile con l’inflessione dialettale tipica di Firenze). |
Intensità | Media |
Intonazione | normale |
Lessico | Informale – corretto – di estrazione culturale alta (p.e. …15’09” spiegami un po’ meglio, mi sembra un’illazione…; 16’44” …un uomo libero non ti delude…)– tecnico settoriale (p.e. 14’11” …nel rapporto che ho io, mi vieni a scrivere….; 26’22 …il dr DE LUCa collega GIP… ) |
Velocità di articolazione | ~6,09 sillabe/secondo |
Particolarità fonetiche: | pronuncia della consolante ‘c’ in modalità fricativa sorda ululare tipica fiorentina (p.e. …Mihele…non sai nemmeno di osa si tratta…); |
Andamento prosodico | Regolare con assenza di pause che denotano una certa padronanza nel discorso trattato e una organizzazione ben strutturata in fase di micropianificazione del discorso. |
4.6 risposta ai quesiti
DAll’ analisi della registrazione contenuta nella microcassetta tdk mc 90 nr. atag 825 è emerso che la registrazione non presenta una soluzione di continuità in quanto si sono evidenziate più interruzioni della stessa (in particolare a 1,6 sec, 18”, 37”, 56” e 26’20”). lo studio delle freuquenze ha confermato la presenza di tali interruzioni e l’assenza di aggiunte di altri tratti di registrazione effettuati con registratori diversi da quello in reperto. Comunque, il tratto di maggiore interesse che va da 56” a 26’20 non presenta interruzione e può essere considerato continuo.
l’assenza sulla registrazione originale di un tratto di conversazione, invece, presente sul CD-ROM in reperto fa ritenere che sull’originale ci siano state, volontarie o meno, delle manipolazioni;
in merito alla provenienza e all’epoca della realizzazione della registrazione si evince dal messaggio contenuto che verosimilmente è stato registrato per le strade di firenze e nell’ultima decade di maggio. niente si può dire sul peridio ed epoca delle manipolazioni ad eccezione del taglio a 56” che è sicuramente successivo al riversamento su CD-rom;
Per quanto rigarda la provenienza linguistica dei parlatori presenti solamente per tre di essi è possibile effettuare un’analisi adeguata. questi sono indicati nella trascrizione come MICHELE GIUNTARI, PAOLO CANESSA e UOMO 2.
In partiolare è emerso che:
MICHELE GIUNTARI → Sicilia nord orientale (Messina)
Paolo Canessa → Toscana – Firenze
Roma, lì 20.03.2006
Il Consulente del P.M.
________________________
BIBLIOGRAFIA
[1] O. Tosi: “Voice Identification-Theory and legal applications”, University Park Press Baltimore, 1979.
[2] Bolt et al. “Identification of a Speaker by Speech Spectrograms”, Science, Vol.166, 1969.
[3] Magno Caldognetto, Ferrero: “Macro e micro variazioni prosodiche dipendenti dalle scelte paralinguistiche del parlante”; VI giornata di studio del gruppo di fonetica sperimentale (A.I.A.) atti 1995 pp. 95-109.
[4] M.G.Rahim, Lee, Juang: “Discriminative utterance verification for connected digits recognition”; IEEE Trans. on Speech and Audio Processing : 5-1997, pp.266-277.
[5] A.V. Oppenheim, R.W. Schafer: “Elaborazione numerica dei segnali” 11° Ed. Franco Angeli 1996 pp. 541 e segg.
[6] B.P. Bogert, M.J.R. Healy, and J.W. Tukey: “The Frequency Analysis of Time Series for Echoes, Cepstrum, Pseudo Autocovariance, Cross Cepstrum and Saphe Cracking,” Proc. Symp. Time Series Analysis, M. Rosenblatt, Ed. New-York 1963, pp. 209-243.
[7] R.T. Sataloff: “La voce umana” Le Scienze, 294/1993 p. 66.
[8] C. Schirru; “Peculiarità temporali nel vocalismo dell’Italiano in Piemonte” VI giornata di studio del gruppo di fonetica sperimentale (A.I.A.) atti 1995 pp. 61-71.
[9] G.Ibba, A.Paoloni, B.Saverione:” Significatività della duratra delle consonanti occlusive ai fini del riconoscimento del parlatore” Rivista Italiana di Acustica Vol III N.1 – 1979
[10] P.C. Mahalanobis: “On the generalized distance in statistics”; Proc. Nat. Inst. Sci. India: vol. 12 1936 p. 49.
[11] E.S. Ventsel “Teoria delle probabilità”; Ed. MIR I ed. 1983 pp. 140-144.
[12] S.Pruzansky, M.V.Mathews,”Talker-Recognition procedure based on Analysis of Variance”; JASA Vol 36,1964 pp. 2041-2047.
[13] A. Paoloni et al.: “Sul contributo della frequenza fondamentale al riconoscimento del parlatore” Atti delle 5^ Giornate di studio del GFS, Nov- 1994.
[14] D.F. Morrison: “Metodi di Analisi Statistica Multivariata” : Casa Ed.Ambrosiana-Milano, 1976, pp.122-134
[15] R.Klevans, R.D.Rodman: “Voice Recognition” : Artech House-Norwood-MA-, 1997
[16] Il Corriere della Sera, Il Messaggero; ed. dell’8-6-1998
[17] H.J. Kunzel, “Some general phonetic and forensic aspects of speaking tempo”: Forensic Linguistic-: The University of Birmingham-University Press–, 4 (1)-1997,pp.48-83
[18] A. Giannini, M.Pettorino: “La fonetica Sperimentale” : Edizione Scientifiche Italiane, pp.122-125
[19] J.Wells, J.House: “The Sounds of the International Phonetic Alphabet”; Phonetics and Linguistics, University College London-1995
[20] A.Forte: “Analisi critica di metodi per la classificazione e l’identificazione del parlatore nelle scienze forensi”; Tesi di laurea in Matematica, Università di Tor Vergata-Roma-1998
[21] A. Paoloni: “Considerazioni sul riconoscimento del parlatore a scopo forense” Atti delle 6^ Giornate di studio del GFS, Nov- 1995.
[22] I.W.Evett and B.S.Weir: “Interpreting DNA Evidence-Statistical Genetics for Forensic Scientist” Sinauer Associates Inc.-1998
[23] A. Paoloni et al.: “IDEM: un sistema per l’analisi e la rappresentazione del segnale vocale” AIA XX convegno nazionale Roma, Apr-1992.
[24] L. Romito: “Manuale di fonetica articolatoria, acustica e forense”: Università della Calabria-Centro Editoriale e Librario –2000-.
[25] J.P. Köster: “The effect of physical effort and exertion on fundamental frequency, standard deviation, time structure and syllable”: In Conference 2000 of International Association of Forensic Phonetics; Roma, 5-7 Luglio 2000
[26] J Ortega Garcia et al.: “AHUMADA: a large speech corpus in Spanish for Speaker characterization and identification” SPEECH Communication,N.H. Elsevier 31 – July 2000 – pp. 255-264
[27] J Hennebert et al.: “POLYCOST: a telephon-speech database for Speaker Recognition” SPEECH Communication,N.H. Elsevier 31 – July 2000 – pp. 265-270
[28] C. Champod, D. Meuwly.: “The inference of identity in Forensic Speaker Recognition”: SPEECH Communication,N.H. Elsevier 31 – 2000 – pp. 193-203
[29] M. Sjerps, D.B.Biesheuvel.: “The interpretation of conventional and Bayesian verbal scales for expressing expert opinion: a small experiment among jurists”: Forensic Linguistics The University of Birmingham-University Press–, 6 (2)-1999,pp.214-227
[30] J. Wojcikievicz.: “Scientific Evidence in Judicial proceedings”: Institute of Forensic Research Publishers (Krakow-Poland)-, 2000
[31] I.W. Evett. Et al: “Reporting Conventions”: Second European Academy of Forensic Science Meeting, Kracow, 12-16 sept. 2000 –Atti–
[32] Schmidt-Nielsen, A. & Crystal, T.H. (1998). “Human vs. Machine Speaker Identification with Telephone Speech”, Proceedings ICSLP ‘98
[33] L.Cerrato et al. “Subjective age estimation of telephonic voices”, SPEECH Communication,N.H. Elsevier, Vol. 31 – June 2000 – pp. 107-112
[34] L.Mori, A.Paoloni, D.Zavattaro “Articulation rate and its application in forensic speaker recognition”, IAFP annual meeting – Wien june 2003
