¿Qué hay en una voz?

¿Qué revela la voz de una persona? ¿Es como el ADN? Se utiliza para identificar y perseguir. Pero una veintena de casos de uso controvertido de la voz en los tribunales llaman a la cautela

frecuencia de voz

frecuencia de voz / periodico

MICHELE CATANZARO, ASTRID VICIANO, PHILIPP HUMMEL Y ELISABETTA TOLA

Por qué confiar en El PeriódicoPor qué confiar en El Periódico Por qué confiar en El Periódico

En el 2001, el tejano David Shawn Pope salió a la calle tras 16 años en la cárcel. Una prueba de ADN acababa de exculparle de una violación perpetrada en 1985. Su condena se basaba, entre otras evidencias, en su voz. La víctima la había reconocido. Además, un experto había detectado su “huella vocal” en unos inquietantes mensajes grabados en el contestador de la mujer. Pero una llamada anónima empujó a los investigadores a comparar su ADN con los restos orgánicos del violador, lo que desmintió las pruebas fonéticas.

La historia de Pope es una entre una veintena de controvertidos casos de uso de la voz en los tribunales. Estas historias plantean preguntas básicas sobre la naturaleza de la voz. ¿Qué revela sobre la identidad de una persona? ¿Es como el ADN o la huella dactilar? ¿Cómo la procesa el cerebro? La intuición sugiere que la voz es una marca única e inequívoca de un individuo. Se usa para identificar a degolladores enmascarados del Estado Islámico; para adivinar la nacionalidad de refugiados indocumentados; para reconocer a defraudadores cuando llaman a un banco, o para rastrear mensajes de terroristas en millones de llamadas telefónicas. Pero la experiencia de su uso forense llama a la cautela

En España, la voz juega un papel en centenares de juicios cada año, según estimaciones de los expertos (no existe un registro de peritajes). Los peritos analizan interceptaciones telefónicas, mensajes de contestador, peticiones de rescate, llamadas de emergencia, grabaciones encubiertas o de interrogatorios policiales. Sus tareas son transcribir, comparar voces, deducir el origen de los hablantes y comprobar la autenticidad de las grabaciones.

EL 'PRIMING'

Oídos y cerebros distan de ser herramientas perfectas para estos fines. En 1994, el neozelandés David Bain llamó a la policía al encontrar en casa a todos sus familiares muertos por disparos. La grabación de esa llamada sería una pieza importante de su largo juicio. Primero, fue condenado a 16 años por ser el asesino. Luego, fue exculpado definitivamente en el 2009: el asesino suicida podría haber sido su padre.

A los policías les pareció oír en la grabación, entre los agitados respiros de Bain, una admisión de culpabilidad: “I shot the prick” (“yo disparé a ese capullo”). Si se escucha la cinta, esta transcripción parece razonable, apunta la lingüista australiana Helen Fraser. Sin embargo, si se plantea una transcripción alternativa (“I cannot breathe”, “no puedo respirar”) también parece razonable. Fraser ha expuesto a grupos de oyentes a transcripciones alternativas de una misma grabación real: asombrosamente, los grupos tienden a “oír” el texto que se les presenta.

“Una vez que has oído algo, es difícil desoírlo”, bromea Fraser. Este fenómeno, llamado 'priming', es la misma ilusión que explica los supuestos mensajes satánicos hallados en discos de rock reproducidos al revés. O las cómicas frases que se oyen en ciertas canciones en inglés, como “un chinito pecando” en lugar de “and she lit up a candle”, en 'Hotel California', de los Eagles.

Los jueces no deberían aceptar peritajes basados en la simple escucha, según sentencias del 2002 (Gran Bretaña) y el 2003 (Estados Unidos). Pero muchos expertos siguen alardeando de “oído de oro”: que se pueden familiarizar con la voz de un sospechoso hasta reconocerla en una grabación. En el 2000, un experimento llevado a cabo en Gran Bretaña expuso a un grupo de voluntarios a fragmentos de llamadas anónimas grabadas por amigos: algunos no alcanzaban a reconocer a los hablantes y uno no reconoció ni tan solo su propia voz.

El análisis de la voz ha sido exitoso en muchos juicios. La Policía Nacional estrechó el cerco alrededor de los secuestradores de Anabel Segura (1999) al detectar su acento de Toledo en llamadas interceptadas. Pero los fracasos podrían ser tan solo la punta de un iceberg.

En los últimos años han aparecido estudios titulados 'Identificación de personas por la voz: cautelas necesarias' (2003), 'Charlatanería en la ciencia forense del habla' (2007) y 'Distinguir entre ciencia forense y pseudociencia forense [de la voz]' (2014), entre otros.

CASOS FALLIDOS

Algunos casos parecen justificar la alarma. En el 2011, el perito italiano Roberto Porto identificó la voz de un narco como la de Óscar Sánchez. Este lavacoches de Montgat había sido extraditado a Italia por narcotráfico y condenado a 14 años en base al peritaje. Seis peritajes más lo desmintieron y Sánchez fue absuelto tras dos años en prisión: su español era peninsular; el del narco, latinoamericano. Porto desconocía el castellano. Su actuación fue polémica también en juicios anteriores: por ejemplo, presentó dos peritajes idénticos en dos juicios sin relación entre ellos. 

Casos así de sorprendentes no escasean. Un técnico de sonido holandés comparó la voz de unas llamadas anónimas con un vídeo de una actuación en YouTube.

Un perito italiano afirmó que la voz de un sospechoso tenía una frecuencia fundamental tres veces superior a la nota más alta cantada por María Callas. Un 'disc jockey' italiano actuó como experto en un caso de secuestro. Se trata de algo más que anécdotas. La mitad de las fuerzas de seguridad del mundo siguen utilizando métodos espectrográficos, entre los cuales el desacreditado sistema de la huella vocal: así lo apunta un estudio coordinado por el perito Geoffrey Stewart Morrison por cuenta del Interpol, presentado en una conferencia en julio. En Europa, lo hacen ocho de las 22 fuerzas encuestadas.

UN MÉTODO DESACREDITADO

Inventada en 1962, la huella vocal fue el primer sistema para analizar la voz con tecnología de la información. El método compara imágenes que representan las frecuencias del habla de un sospechoso (espectros) con otras sacadas de las grabaciones. En 1979, la Academia Nacional de Ciencias de EEUU le quitó validez científica, pero sigue en uso. La consultoría francesa Lipsadon, la mayor empresa privada del sector en Francia, autora de más de 200 peritajes según su información, sigue analizando espectrogramas. 

El mismo nombre huella vocal es engañoso. “La voz no algo es tan estable y distintivo como la huella digital o el ADN. Cuando discutes con tu pareja, tu voz es del todo distinta de cuando le haces bromas a tu bebé”, explica Juana Gil, directora del laboratorio de fonética del CSIC en Madrid.

“Un sospechoso, por ejemplo un hombre de 40 años, fumador, educado en una determinada ciudad, puede tener la misma frecuencia fundamental que una voz grabada. Es más: ¡podría ser que todos los hombres con esas características tuvieran esa misma frecuencia! No hay suficiente estadística de población para establecer con qué probabilidad podría ocurrir”, dice Gil. “No se pueden identificar hablantes: solo comparar voces”, añade. No obstante, la mitad de las fuerzas de seguridad encuestadas por Morrison expresan sus conclusiones en términos de identificación y exclusión (9 de 22 en Europa).

PERITAJES PRIVATIZADOS

En diversos países europeos, los peritajes de voz están privatizados y los honorarios son ajustados. Las cifras oficiales varían entre 50 y 250 euros por hora de trabajo en Europa. Sin embargo, los recortes a la justicia obligan a pagar menos. “Hacer un peritaje correctamente cuesta mucho tiempo y mucho dinero, pero los tribunales se han acostumbrado a tiempos cortos y precios bajos”, explica Morrison. “En Gran Bretaña había un laboratorio forense público que fue disuelto por David Cameron en el 2012. Ahora el trabajo se encarga a operadores privados, lo que ha provocado una reducción de la calidad”, observa un experto británico que prefiere mantener el anonimato. En España, la mayoría del trabajo lo hacen las fuerzas de seguridad –Guardia Civil y Policía Nacional– y centros de investigación, como el CSIC y la Universitat Pompeu Fabra (UPF), aunque también actúan empresas, como Cita, del perito madrileño Miguel Ángel Gallardo

“El sector está altamente desregulado. No existe ninguna ley que establezca los requisitos para ser perito lingüista”, explica Jordi Cicres, experto de la Universitat de Girona y colaborador del Forensic Lab de la UPFForensic Lab. Nada obliga al juez a ceñirse a peritajes con base científica demostrada. Por el contrario, “los jueces son víctimas del 'efecto CSI”, observa Gil. Es decir, de la creencia de que basta que una técnica tenga aspecto científico para que produzca pruebas de naturaleza superior, libres de incertidumbre, como ocurre en series como 'CSI'.

Cada país ha desarrollado su estrategia para aliviar esta situación. Tras la privatización, Gran Bretaña estableció una Oficina del Regulador de la Ciencia Forense, que debería ejercer un control de calidad. Los Países Bajos disponen de una lista de expertos acreditados (registro NRGD). Estados Unidos aplica desde 1993 los estándares de Daubert, que requieren que los jueces se aseguren la base científica de los métodos. Sin embargo, ninguna de estas soluciones es ley de obligado cumplimiento para los jueces.

La Unión Europea estableció en el 2009 que los datos de ADN y huellas dactilares intercambiados entre países deben ser producidos por laboratorios con acreditación ISO-17025. En el 2011, la presidencia polaca impulsó la creación de una Área Europea de Ciencia Forense para el 2020 (EFSA2020), que extendería estas garantías a otras disciplinas, entre ellas el habla. Sin embargo, la EFSA2020 está “en proceso de evaluación y es pronto para anunciar ninguna acción o evento”, afirma Milica Petrovic, portavoz de la Comisión.

DESACUERDOS EN LA COMUNIDAD CIENTÍFICA

Pero el problema de la voz en los tribunales no es solo de regulación. Hay desacuerdos profundos dentro de la misma comunidad científica. “Los fonetistas, que son sobre todo lingüistas, apoyan usar el software de forma supervisada, mientras que los ingenieros de audio dan más importancia a los sistemas automatizados”, explica Gil. Los primeros acuden sobre todo a los métodos acústico-fonéticos, que se afirmaron en los años 80 tras el fracaso de la huella vocal: los expertos escuchan las muestras, seleccionan ciertos fragmentos (por ejemplo, las vocales) y miden por ordenador parámetros acústicos y rasgos lingüísticos. Los segundos prefieren el reconocimiento automático del hablante, que surgió en los 90.

En este sistema, un ordenador extrae automáticamente los rasgos del habla y calcula coeficientes relacionados con la forma del tracto vocal de cada individuo. En España, el laboratorio de la Policía Nacional es más cercano al primer enfoque y el de la Guardia Civil, al segundo. De hecho, Agnitio, la mayor empresa en el mundo de reconocimiento automático del hablante, surgió del laboratorio de la Universidad Autónoma de Madrid (UAM), que colabora con la Guardia Civil. Agnitio se consolidó cooperando en las investigaciones del 11-M. “Lo que hacemos es cien por cien distinto de lo que hacen los lingüistas. Nuestro sistema tiene una precisión medible y es reproducible”, asegura Antonio Moreno, vicepresidente de Agnitio. 

PRINCIPALES CRÍTICAS

La subjetividad y la variedad de respuestas ante el mismo caso son las principales críticas hacia los métodos acústico-fonéticos. Pero desde este frente se replica a los ingenieros. “Hemos comparado voces que la máquina consideraba compatibles y hemos encontrado un montón de diferencias, por ejemplo, en el acento”, observa Gil. Incluso expertos que usan sistemas automáticos llaman a la cautela. “La presión económica requiere que los productores de sistemas automáticos vendan a muchos clientes, incluyendo quienes no saben cómo usar la herramienta que han comprado. Los usuarios deben entender lo que hacen: si meten basura, sale basura”, observa Morrison. 

Agnitio ofrece un curso de formación de tres años para usar su programa estrella, Batvox. Pero su director reconoce que tan solo entre un 20% y un 25% de los usuarios lo completa. La empresa ha vendido un centenar de licencias, por precios de entre 9.000 euros por el alquiler de un año y 100.000 por la compra de un programa multiusuario. “Siempre decimos que es importante que detrás del sistema haya un perito experto. Además, los grupos avanzados tienen equipos multidisciplinares”, afirma Moreno.

El problema es que los científicos aún no saben con precisión cómo varían en la población los múltiples rasgos de la voz. Imaginemos que un investigador encuentra una huella de talla 52 en la escena de un crimen, y el sospechoso tiene esa talla. En otro caso, el investigador encuentra una huella de talla 42 y el sospechoso tiene esa talla. En el primer caso, la prueba en contra del sospechoso será más fuerte que en el segundo, porque la talla 52 es mucho más rara que la 42. La moraleja de la historia es que no es suficiente considerar cuán parecidas son dos voces, sino hay que tener en cuenta también cuánto se da ese parecido dentro de la población. 

FALTA DE UNA MUESTRA AMPLIA

Sin embargo, para casi todos los rasgos de la voz se ignora la difusión (si son raros como una huella del 52 o frecuentes como una del 42). El coste y la dificultad de estudiarlos lo ha impedido, hasta ahora. A falta de estadísticas conclusivas, el remedio recomendado por la Red Europea de Institutos de Ciencia Forense (ENFSI) es comparar la voz del criminal no solo con la del sospechoso, sino también con una muestra amplia de voces que encajen con las condiciones del caso (sexo, edad, lengua, condiciones de grabación, etcétera). 

Sin embargo “muchos laboratorios dicen que no tienen bases de datos: esto es un problema”, observa Daniel Ramos, investigador de la UAM que colabora con la Guardia Civil. “La Guardia Civil rechaza llevar a cabo el peritaje cuando no dispone de las bases de datos adecuadas, es decir, más o menos en la mitad de los casos”, apunta.

La primera prueba fonética de la literatura occidental pone de manifiesto lo elusivo de la voz. En el 'Génesis', Jacob se presenta cubierto de pieles delante de su padre ciego, Isaac. Pretende simular el abundante vello corporal de su hermano mayor Esaú y conseguir la bendición del primogénito. Isaac observa: “La voz es de Jacob, pero las manos son de Esaú”, y cae en la trampa. Hoy, milenios más tarde, tomar decisiones en base a la voz sigue siendo un reto. 

*Este artículo ha sido desarrollado con el apoyo de Journalismfund.eu. Más información en  http://formicablu.github.io/hearingvoices