Cibernetia > Tesis doctorales
Búsqueda personalizada

Índice > CIENCIAS TECNOLOGICAS > TECNOLOGIA DE LOS ORDENADORES >

RECONOCIMIENTO Y SINTETIZACION DE HABLA



64 tesis en 4 páginas: 1 | 2 | 3 | 4
  • INTEGRACION DE AUDIO Y VIDEO EN RECONOCIMIENTO BIOMETRICO .
    Autor: CRUZ LLANAS SANTIAGO.
    Año: 2004.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: E.S.T. INGENIEROS TELECOMUNICACION .
    Centro de realización: ETSI TELECOMUNICACION.
    Resumen: La Tesis recoge un detallado estudio de las tecnologías de reconocimiento de locutor y de identificación facial, planteando y analizando diferentes estrategias de fusión de ambas tecnologías biometricas. La Tesis se divide en dos partes fundamentales. La primera es una introducción al ámbito de la biometría y una presentación del estado del arte en todos los temas que se abordan posteriormente desde una perspectiva práctica: verificación biométrica, reconocimiento de locutor, reconocimiento facila y biometría multimodal voz-cara. En la segunda parte de la Tesis se describen sistemas de reconocimiento de locutor y reconocimiento facial. En reconocimiento de voz se utiliza parametrización MFCC y modelos de mezclas gaussianas (GMM) entrenados mediante técnicas MAP. En reconocimiento facial se analizan diferentes diseños, aunque se presta mayor atención a los métodos relacionados con álgebra lineal, reducción de la dimensión y modelos estadísticos (PCA, LDA, etc.). La parte más innovadora de la Tesis es la correspondiente a fusión multimodal. Se analizan formas de combinar las puntuaciones ofrecidas por los reconocedores de voz y cara. Se proponen métodos de normalización de puntuaciones y diferentes reglas de fusión. Todos los experimentos realizados en la Tesis siguen el protocolo de evaluación de Lausanne asociado a la base de datos XM2VTS.
  • VERIFICACIÓN DE LOCUTORES MEDIANTE REDES NEURONALES DISCRIMINANTES .
    Autor: VIVARACHO PASCUAL CARLOS ENRIQUE.
    Año: 2003.
    Universidad: VALLADOLID.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: E.T.S.I. INFORMÁTICA.
    Resumen: La presente tesis aborda el problema de la autenticación de la identidad de un individuo por medio de su voz, tarea denominada verificación Automática de Locutores (VAL). Dentro de las distintas partes que componen un sistema de VAL: adquisición, extracción de características y clasificación, el estudio se ha centrado en la última, proponiendo el uso de Redes Neuronales Artificiales (RNA), como clasificador discriminante. Se entrena una RNA por individuo a verificar (cliente), de manera que aprenda a diferenciar entre muestras pertenecientes al cliente, y muestras pertenecientes al resto de la individuos, genéricamente denominados impostores; para lograrlo la red entrenada con ejemplos de ambas clases. Los trabajos realizados se pueden dividir en 3 grandes bloques: 1. Estudio comparativo del rendimiento de las RNAs frente al de los Modelos de Mezcla de Gaussianas (MMG), los más utilizados en verificación de locutores. Los resultados al usar como RNA un Perceptrón Multicapa (Multilayer Perceptron, MLP), muestran un comportamiento similar al de los MMG para vez telefónica (la de mayor interés desde el punto de vista práctico), siendo, a veces, incluso algo superior. En esta parte del trabajo también se ha estudiado la influencia de distintos parámetros del sistema basado en MLP, como son: el tamaño de la red, la normalización del vector de entrada y el método para igualar el tamaño de la red, la normalización del vector de entrada y el método para igualar el tamaño de los conjuntos de entrenamiento. 2. Análisis del rendimiento del sistema resultante de la parte anterior (sistema base) siguiendo una evaluación estándar: la propuesta por NIST (National Instutute of Standards and Technology, USA), la más importante a nivel mundial en VAL, y usando el subcorpus de la base de datos en castellano AHUMADA propuesto en las evaluaciones de los años 2000 y 2001. 3. Modificación del sistema base, proponiendo y probando diversas técnicas de mejora del sistema, que han permitido alcanzar resultados comparables a los de los mejores sistemas participantes en la evaluación NIST 2001, usando AHUMADA; como referencia, indicar que los mejores resultados encontrados para estos últimos son del 11-12% de Tasa de Equierror (Equal Error Rate, EER). En la presente tesis se han propuesto, y probado su eficacia en la mejora del rendimiento del sistema basado en RNAs, las siguientes técnicas novedosa: 1. Regla R262, consistente en identificar como entradas ruidosas a aquéllas que proporcionen valores de salida de la red intermedios, esto es, ni claramente asignables a la clase cliente, ni a la impostor. Estas salidas no significativas son eliminadas en el cálculo de la salida final por muestra. 2. Técnica de selección dirigida de ejemplos de la clase impostor para entrenar la RNA Selección en Entrenamiento (SE). Es la principal aportación de la tesis, resolviendo de manera eficaz el importante problema de la selección, de entre un amplio conjunto de candidatos, a aquellos que permitan un entrenamiento más discriminante de la RNA de cada cliente. No sólo se logra mejorar el rendimiento, sino que además se elimina el comportamiento no predecible del sistema debido a la solución tradicionalmente usada: la selección aleatoria. 3. Razón de probabilidades (RP) aplicada con RNAs. La salida final del sistema de verificación para una muestra de entrada X, será el resultado de dividir la salida de la RNA discriminante lc del hablante cliente C (P(lc/X), por la probabilidad de que X no pertenezca al cliente. Los mejores resultados conseguidos, siguiendo la evaluación NIST, subcorpus de AHUMADA, son del 13% de EER al usar R262 junto a SE, y del 11% de EER al incorporar la RP.
  • ESTRATEGIAS PARA LA MEJORA DE LA NATURALIDAD Y LA INCORPORACIÓN DE VARIEDAD EMOCIONAL A LA CONVERSIÓN TEXTO A VOZ EN CASTELLANO .
    Autor: MONTERO MARTÍNEZ JUAN MANUEL.
    Año: 2003.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN.
    Centro de realización: ETSI TELECOMUNICACIÓN.
    Resumen: En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frencuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases; una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también con voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta.
  • ESTIMACIÓN Y APLICACIÓN DE MEDIDAS DE CONFIANZA EN RECONOCIMIENTO AUTOMÁTICO DEL HABLA .
    Autor: SANCHIS NAVARRO JOSÉ ALBERTO.
    Año: 2003.
    Universidad: POLITECNICA DE VALENCIA.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: DEPARTAMENTO DE SISTEMAS INFORMÁTICOS Y COMPUTACIÓN.
    Resumen: En esta tesis se aborda el problema de la estimación y aplicación de medidas de confianza en reconocimiento automático del habla. Este problema es una de las líneas de investigación abiertas dentro del reconocimiento del habla y, en los últimos años, ha desperado un crecimiento interés por su utilidad. El objetivo es medir la fiabilidad de las palabras producto del reconocimiento, y detectar aquéllas que sean susceptibles de ser errores. En la tesis este problema se aborda como un problema clásico de clasificación en dos clases: correcta e incorrecta. Para ello, cada palabra se representa por un conjunto de características y, utilizando técnicas conocidas del reconocimiento de formas, se clasifica en una de las dos posibles clases. El trabajo de investigación se centra en dos frentes; por una parte, encontrar nuevas características que aporten información útil sobre la corrección de las palabras reconocidas, y por otra, definir un clasificador, dentro del marco estadístico, que obtenga resultados satisfactorios en la estimación de la medida de confianza. Se proponen cuatro nuevas características, las cuales se inspiran en observaciones que han sido utilizadas por otros autores. Una de ellas se basa en la variación de uno de los parámetros del reconocedor, denominado Grammar Scale Factor, y las otras tres se basan en la utilización de grafos de palabras. Así mismo, se propone una mejora computacional que trata de resolver el principal inconveniente de una de las características más útiles que aparecen en la literatura: Acoustic Stability. Respecto al clasificador, se adoptan dos modelos diferentes: el primero, es una de las aportaciones de la tesis, y consiste en un modelo probabilístico dependiente de la palabra, que estima la medida de confianza mediante la combinación naïve Bayes de características. Para tratar con el problema de escasez de datos de entrenamiento, el modelo se suaviza, utilizando técnicas importadas del modelado estadístico del lenguaje, con un modelo más general que no depende de la palabra. El segundo clasificador, se adopta de otra tesis, y está basado en la técnica de los K-vecinos más cercanos (KNN). Este clasificador integra una optimización de los parámetros del modelo con la selección automática de las características más relevantes. Los resultados obtenidos con ambos modelos muestran que la aproximación naïve Bayes obtiene resultados similares (o incluso mejores), que los que se obtienen con un modelo más complejo que ha sido utilizado con éxito en otros problemas de clasificación. Las características propuestas han mostrado ser especialmente útiles en el proceso de clasificación. El modelo naïve Bayes ha mostrado ser comparativamente un buen clasificador, obteniendo resultados realmente competitivos. Como trabajo final de la tesis, y uniéndose a una incipiente línea de investigación, se aborda el problema de la estimación de medidas de confianza en traducción automática. El problema se trata bajo el mismo paradigma de un problema de clasificación en dos clases. Se proponen un conjunto de características, y utilizando la misma aproximación naïve Bayes, se obtienen resultados que acreditan la aplicación del mismo marco formal a la estimación de medidas de confianza en otros problemas del reconocimiento de formas.
  • NUEVAS APROXIMACIONES AL RECONOCIMIENTO AUTOMÁTICO DEL HABLA MEDIANTE GRAFOS DE PALABRAS Y TÉCNICAS DE APRENDIZAJE NO SUPERVISADO .
    Autor: GÓMEZ ADRIÁN JON ANDER.
    Año: 2003.
    Universidad: POLITECNICA DE VALENCIA.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: DEPTO. DE SISTEMAS INFORMÁTICOS Y COMPUTACIÓN.
    Resumen: El habla es uno de los medios más naturales para el intercambio de información entre humanos. Esto ha despertado un crecimiento interés en construir máquinas que puedan aceptar la señal vocal como entrada y actuar en función de la información transmitida. La cantidad de aplicaciones en las que utilizar máquinas que fueran capaces de entender la voz humana es considerable. El propósito de un sistema de reconocimiento del habla continua es proporcionar un mecanismo eficiente y preciso para transcribir la señal vocal a texto. Empezando por el nivel más bajo, para el reconocimiento del habla mediante computadoras debemos asignar una unidad lingüística a cada trozo de señal vocal, y a partir de ahí combinar dichas unidades para formar palabras, frases, acciones, instrucciones, etc. En la mayoría de los sistemas estas unidades son los fonemas, los sonidos básicos de una lengua. Para pasar de las unidades básicas a las frases pronunciadas un sistma de reconocimiento del habla ha de combinar distintas fuentes de conocimiento: acústico, fonético, léxico y sintáctico. Si además, quiere ampliarse a comprensión del habla ha de aplicar conocimiento semántico. La aproximación estándar, ampliamente utilizada en nuestros días y que aporta mejores resultados, integra todas las fuentes de conocimiento en una sola etapa de reconocimiento. El trabajo presentado en esta tesis propone un sistema de Reconocimiento Automático del Habla desacoplado donde las distintas fuentes de conocimiento intervienen de manera secuencial. Frente a un único módulo nuestro sistema se compone de varios módulos dispuestos en serie. Cada módulo trabaja a un nivel de conocimiento diferente, desde el acústico-fonético hasta el semántico pasando por el léxico y el sintáctico. Uno de los puntos más importantes y delicados ha sido el diseño de las interfaces entre módulos, donde debía prevalecer un objetivo: transferir únicamente la información relevante sin pérdida de detalles. Las estructuras de datos elegidas para transferir la información entre módulos han sido los grafos, ya sea de fonemas, palabras o unidades semánticas. Durante el diseño y la implementación del sistema desacoplado se han desarrollado técnicas y métodos, destacando: 1,- El modelado acústico-fonético. 2,- La segementación automática a nivel fonético. 3,- Decodificación acústico-fonética a partir de los grafos de fonemas. 4,- Un algoritmo para construir grafos de unidades lingüísticas de un nivel a partir de otros de nivel inferior (fonemas ¿palabras y palabras? Unidades semánticas). 5,- Un algoritmo de búsqueda en los grafos cuya implementación permite usar modelos de lenguaje superiores a trigramas. Los modelos acústico-fonéticos propuestos se basan en una primera clasificación no supervisada a nivel acústico, que obtiene una participación del espacio d-dimensional formado por los vectores acústicos definida mediante una mixtura de gaussianas. Esto permite estimar la probabilidad de cada clase acústica dado un vector acústico, y a partir de las probabilidades acústicas calcular las probabilidades fonéticas. Para ello se utilizan probabilidades condicionales que relacionan las clases acústicas con las fonéticas. A nivel acústico-fonético cabe destacar que los modelos propuestos son entrenados automáticamente mediante un proceso de ajuste progresivo. Como futuro de este mismo proceso, una vez refinados los parámetros, se puede obtener la segmentación automática de corpus de voz sin la intervención de un experto humano. Lo que resulta de gran utilidad para varios fines, entre los que cabe destacar el entrenamiento otro tipo de modelos acústicos. También es destacable el método para obtener una segmentación inicial poco precisa, que permite orientar, desde un principio, el ajuste progresivo de las probabilidades condicionales frente a una segmentación en partes iguales que necesitaria de más iteraciones. La utilización de grafos en general (de fonemas, de palabras o de unidades semánticas) es idónea para representar la incertidumbre y la naturaleza secuencial de habla y resultan especialmente adecuados en las fases de reconocimiento y comprensión. La búsqueda del mejor camino en un grafo permite utilizar modelos de lenguaje basados en n-gramas con valores de ngrandes. En el trabajo se presentan resultados desde bigramas hasta 6-gramas.
  • MODELO DE PROCESADO DIGITAL PARA LA REGENERACIÓN DE LA VOZ ESOFÁGICA .
    Autor: GARCÍA ZAPIRAIN M. BEGOÑA.
    Año: 2003.
    Universidad: DEUSTO.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: DEUSTO.
    Resumen: Esta tesis presenta un novedoso algoritmo para el procesado digital de señales, diseñado específicamente para el tratamiento y mejora de las voces esofágicas. La calidad de estas señales, evaluada principalmente en función de su relación armónicos-ruido y su frecuencia fundamental o pitch, es muy baja por lo que se ha desarrollado un algoritmo que modifica los parámetros del modelo del tracto vocal de manera que la señal resultante sea más inteligible y clara. Los programas comerciales que trabajan sobre señales de voy permiten calcular los parámetros que la caracterizan como son el pitch, el jitter, el shimmer y la relación armónicos-ruido entre otros, pero cuando las señales son esofágicas los valores calculados no son correctos ya que éstas tienen una componente de ruido demasiado elevada que confunde a las funciones de medida. Por ello, se ha desarrollado una potente herramienta software que inegra la regeneración que el algoritmo prouesta en la tesis realiza sobre las señales vocales, en una aplicación que representa, transforma y caracteriza correctamente las señales de voz esofágica en función de los parámetros aceptados por la comunidad científica. La validación empírica del algoritmo propuesto se ha realizado contra una base de datos de señales de voz esofágica grabadas digitalmente a miembros de la Asociación Vizcaína de Laringectomizados. La efectividad de la transformación aplicada sobre las señales se evalúa de forma objetiva en una notable mejora tanto de la relación armónicos-ruido (HNR) com de la frecuencia fundamental de las señales de voz esofágica tratadas, lo cual se traduce en la mayor calidad de las mismas.
  • INFORMACIÓN ACENTUAL PARA EL RECONOCIMIENTO AUTOMÁTICO DEL HABLA .
    Autor: MILONE DIEGO HUMBERTO.
    Año: 2002.
    Universidad: GRANADA.
    Centro de lectura: CIENCIAS.
    Centro de realización: FACULTAD DE CIENCIAS.
    Resumen: A lo largo del tiempo, los sistemas de reconocimiento automático del habla se han ido beneficiando de la incorporación de numerosos aspectos relacionados con la producción y la percepción natural del habla. Aún lejos de alcanzar las habilidades humanas en el reconocimiento del habla, actualmente se sigue incorporándoles más y más conocimientos acerca del habla natural. Los rasgos prosódicos, y en particular la acentuación, forman parte de un gran grupo de conocimientos acerca del habla que aún no se utilizan en forma explícita para el reconocimiento automático. En esta Tesis se realiza un estudio de la relación entre las tres manifestaciones físicas más importantes de la prosodia y la acentuación en el discurso continuo. En base a estos estudios se diseña un sistema para obtener de forma automática la acentuación a partir de la señal de voz. Luego, esta información es utilizada para mejorar el rendimiento de un sistema de reconocimiento automático del habla en discurso continuo. La incorporación de esta información acentual se realiza a través de los modelos del lenguaje y los resultados finales muestran una significativa reducción del error de reconocimiento en un corpus de habla en español.
  • ARQUITECTURA NEURONAL PARA RECONOCIMIENTO DEL HABLA .
    Autor: CAÑAS VARGAS ANTONIO.
    Año: 2002.
    Universidad: GRANADA .
    Centro de lectura: INFORMÁTICA.
    Centro de realización: E.T.S.I. INFORMÁTICA.
    Resumen: Esta tesis investiga la utilización de redes neuronales artificiales en la construcción de sistemas sencillos de reconocimiento del habla. Se ha usado principalmente un modelo ampliado del perceptrón multicapa (MLP) -con capas bidimensionales y conectividad local- que hemos denominado XMLP (eXtended MultiLayer Perceptron). Se ha desarrollado una herramientas de simulación y entrenamiento del XMLP, con la que se han realizado experimentos de reconocimiento de fonemas y de palabras aisladas- Se ha estudiado el funcionamiento del XMLP con valores discretos, de cara a realizar implementaciones físicas. Algunos de los modelos de MLP/XMLP que han proporcionado buenos resultados se han implementado en FPGA (Field Programmable Gate Arrays) utilizando los lenguajes Handel-C y VHDL. Además se ha implementado una tarjeta de adquisición de sonido para PC y se han desarrollado el software de control y la interfaz gráfica de usuario necesarios para capturar una base de datos para el entrenamiento de una futura arquitectura autónoma.
  • EUSKARAZKO HIZKETA JARRAITUAREN EZAGUTZA AUTOMATIKOA EREDU ESTOKASTIKOEN BIDEZ .
    Autor: LÓPEZ DE IPIÑA PEÑA MIREN KARMELE.
    Año: 2002.
    Universidad: PAIS VASCO.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: FACULTAD DE INFORMÁTICA UPV/EHU.
    Resumen: La presente memoria culmina un proces de 10 años dedicados al desarrollo de recursos y sistemas de reconocimiento del habla continua (CSR) en euskera, que constituyen un trabajo pionero en esta lengua. En este trabajo hemos tenido que reproducir esfuerzos, trabajos y resultados que ya existían para otras lenguas, y también nos hemos beneficiado del estado del arte actual en muchos aspectos del desarrollo de los sistemas de reconocimiento automático del habla (ASR). Una parte fundamental del trabajo es el desarrollo de recursos para el análisis estadístico de la lengua y para la construcción de los sistemas de reconocimiento. Estos recursos abarcan textos de diversas fuentes, en un intento de realizar un muestreo exhaustivo de la lengua, así como una base de datos fonética de voz en la que se ha tratado de obtener una representación adecuada para las diversas variedades dialectales. También se incluyen tareas de complejidad controlada para la evaluación de sistemas de reconocimiento. Este trabajo, que normalmente se realiza con grandes equipos humanos y fuertes financiaciones, ha sido realizado por un grupo escaso de voluntarios que colaboraron de modo desinteresado en las diversas fases de la tesis, y con limitados recursos teóricos. Los trabajos se inician con la construcción de un decodificador acústico fonético para el euskera. El conjunto base de unidades subléxicas de tipo fonético independientes del contexto se escogieron de acuerdo a criterios lingüísticos y estadísticas fonéticas y fonológicas de la lengua. Posteriormente se realizo una selección de las unidades de mínima confusión para todas las variedades dialectales de la zona sur. Este sistema es la base y piedra angular de los posteriores desarrollados. Los trabajo se orientan a continuación a la selección de unidades léxicas para CSR. En muchas lenguas (ingles, francés o español) las unidades léxicas se identifican habitualmente con las palabras. En los lenguajes aglutinantes (turco, finlandés, etc.) las estructuras sintácticas se encastran en las palabras y las construyen. El euskera es un lenguaje aglutinante. En este caso, se produce una explosión combinatoria del tamaño del conjunto de palabras aun cuando el vocabulario básico sea reducido, lo que hace impracticable el desarrollo de sistemas basados en las palabras como unidades léxicas. Hemos abordado este problema asumiendo que existen unidades léxicas que se utilizan para componer las palabras en estos lenguajes. Definimos estas unidades léxicas sub-palabra para el euskera y estudiamos el rendimiento de un sistema basado en esta aproximación. Para ello adaptamos la salida lingüística obtenida mediante el segmentador morfológico automático de MORFEUS (creado por el grupo IXA) a las características específicas del tratamiento del habla. Si bien para tareas pequeñas, las nuevas unidades léxicas no parecen aportar mejoras considerables respecto de las palabras, se observa que conforme crece el vocabulario de la tarea, la distancia entre los rendimiento de los sistemas basados en palabras y en seudo-morfemas disminuye sistemáticamente. Este resultado nos anima a perseguir esta aproximación y a proponerla como solución para los sistemas de reconocimiento del habla continua para gran vocabulario (LVCSR) en euskera. Por último hemos estudiado la selección de unidades subléxicas contextuales y el diseño de las unidades de borde, que modelan las fronteras entre palabras y entre las palabras y el silencio. Para este estudio hemos empleado una metodología basada en árboles de decisión aplicada sobre las bases de datos desarrolladas en el marco de la tesis. Proponemos una nueva aproximación al modelado de los bordes de las unidades léxicas basado en la definición de unidades subléxicas semicontextuales, que proporcionan resultados muy interesantes. En la metodología básica utilizada se aportan dos mejoras relevantes. En primer lugar la adaptación de una metodología de generación de árboles de decisión basada en el algoritmo Growing and Prunning. En segundo lugar un método de data massaging para bases de datos de entrenamiento pequeñas, basado en la enfatización de los histogramas de los datos de las muestras de voz que, efectivamente, mejoran los resultados de la selección de las unidades mediante árboles de decisión.
  • MODELADO PROSÓDICO DEL EUSKARA BATUA PARA CONVERSIÓN DE TEXTO A HABLA .
    Autor: NAVAS CORDÓN EVA.
    Año: 2002.
    Universidad: PAIS VASCO.
    Centro de lectura: INGENIEROS INDUSTRIALES.
    Centro de realización: ESCUELA SUPERIOR DE INGENIEROS DE BILBAO.
    Resumen: En esta tesis se presenta el trabajo de modelado prosódico del euskara batúa, realizado para su aplicación a sistemas de conversión de texto a habla. Se han desarrollado modelos de entonación, de duración y de inserción de pausas. Los modelos han sido obtenidos siguiendo una misma metodología en la que se parte de un corpus representativo del fenómeno que se quiere estudiar, que es segmentado y marcado a todos los niveles necesarios, obteniéndose los parámetros característicos del modelo en desarrollo. Para la obtención de los modelos prosódicos realizados se han diseñado y grabado bases de datos específicas y se han desarrollado herramientas de parametrización y verificación de los parámetros. Estos parámetros se estudian estadísticamente para relacionarlos con información obtenida a partir del texto, de modo que pueda predecirse su valor con sólo conocer el texto de entrada. La calidad del modelo estadístico se evalúa objetivamente con medidas como la raíz cuadrada del error cuadrático medio o el error relativo y también subjetivamente con unas pruebas diseñadas específicamente para ello. Para el modelado de la entonación se ha adaptado el modelo de Fujisaki al euskara batúa y se han encontrado las restricciones lingüísticas que es posible aplicar en esta lengua. Todos los modelos prosódicos desarrollados han obtenido resultados objetivos comparables a los publicados para otras lenguas y buenas calificaciones en las pruebas de evaluación subjetiva, indicando que la calidad y la naturalidad del conversor texto-habla en euskara han aumentado gracias a este trabajo.
  • MEJORA DE SERVICIOS POR TELÉFONO CON RECONOCIMIENTO DE HABLA: NUEVA GENERACIÓN DE SERVIDORES VOCALES INTERACTIVOS .
    Autor: SAN-SEGUNDO HERNÁNDEZ RUBÉN.
    Año: 2002.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN.
    Centro de realización: E.T.S.I. TELECOMUNICACIÓN - U.P.M..
    Resumen: En este trabajo se ha realizado un análisis e investigación en tres aspectos importantes que forman parte de un Servidor Vocal Interactivo (SVI): reconocimiento automático del habla, obtención de medidas de confianza para la detección de errores en los módulos de reconocimiento y comprensión de lenguaje natural, y por último, se ha invertido un esfuerzo importante en el módulo de gestión del diálogo. En cuanto al módulo de reconocimiento, se ha realizado un estudio de la tarea de deletreo en castellano y se ha implemetnado el primer reconocedor de nombres deletreados en castellano con tasas de acierto comparables a los realizados en otros idiomas. En un primer paso se han evaluado diferentes estrategias de reconocimiento eligiendo una solución basada en una arquitectura de hipótesis y verificación que ofrece un mejor compromiso entre tasa de reconocimiento y tiempo de proceso. Sobre esta arquitectura, se han incorporado nuevas ideas para hacer frente a las peculiaridades de la tarea de deletreo en nuestro idioma, como la generación de modelos de silencios contextuales. Por otro lado, se ha desarrollado un reconocedor de habla continua para frases que expresan fechas y horas. Ambos sistemas han sido diseñados y entrenados para su funcionamiento por línea telefónica e independiente del locutor. En relación con el análisis de medidas de confianza, se ha trabajado fundamentalmente sobre el sistema DARPA Communicator desarrollado en el Centro de Investigación de Lenguaje Hablado (CSLR: The Center for Spoken Language Reserarch) de la Universidad de Colorado (Boulder) en Estados Unidos. Sobre este sistema se han realizado estudios independientes para los niveles de palabra, concepto semántico y frase completa. Por otro lado, también se han realizado análisis para los reconocedores implementados en la presente tesis, centrándonos en los niveles de frase para el sistema de nombres deletreados, y en el nivel de palabra para el reconocedor desarrollado en el dominio de fechas y horas. En esta parte del estudio se propone la utilización de las medidas de confianza como heurístico para la combinación de varias hipótesis de reconocimiento obtenidas de diferentes decodificadores. En relación con la gestión del diálogo se propone una metodología de diseño en la que se combina información de diferentes fuentes: análisis de base de datos, observación de conversaciones reales, simulación del servicio y funcionamiento con usuarios reales. Esta metodología está formada por 5 fases. En la primera fase se realiza un análisis de la base de datos con la información disponible para ofrecer el servicio. En la segunda etapa "diseño por intuición", se propone la técnica de "braim-storming" para plantear diferentes opciones de diseño. En el diseño por observación (fase tercera), se analizan conversaciones entre los usuarios y operadores humanos para evaluar diferentes alternativas de diseño. En la cuarta fase (diseño por simulación) utilizamos la herramienta de Mago de Oz para simular una interacción usuario-sistema. Por último, en la etpa de mejora iterativa se describe la utilización de medidas de confianza para el diseño de los mecanismos de confirmación y se describe una técnica para el modelado del usuario basada en niveles de destreza. La presentación de esta metodología se ha realizado mediante su apliación al caso de un servicio de información y reserva de billetes de tren.
  • RECONOCIMIENTO DE HABLA ROBUSTO FRENTE A CONDICIONES DE RUIDO ADITIVO Y CONVOLUTIVO .
    Autor: GALLARDO ANTOLÍN ASCENSIÓN.
    Año: 2002.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN .
    Centro de realización: E.T.S.I. TELECOMUNICACIÓN - U.P.M..
    Resumen: El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de RAH que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. En la presente Tesis se ha analizado el comportamiento de un sistema de RAH frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. Para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. Con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros "clásicas" basadas en el análisis de Fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (CMN y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. Asimismo, se ha estudiado la posibilidad de combinación de los parámetros obtenidos de este modo con los obtenidos mediante análisis de Fourier. Mientras que los parámetros basados en la transformada ondicular presentan un funcionamiento similar a los convencionales, la combinación propuesta mejora las tasas de reconocimiento del sistema de manera significativa. A continuación, hemos abordado el problema de la optimización conjunta de los parametrizadores basados en la transformada ondicular y el clasificador basado en modelos ocultos de Markov mediante la aplicación de técnicas de extracción discriminativa de rastos (DFE). Dicha propuesta ha sido evaluada en dos tareas de distinta complejidad, obteniendo unos resultados consistentemente mejores a los obtenidos con las parametrizaciones convencionales. Por último, en el contexto de las distorsiones provocadas por la presencia de ruido aditivo, se ha realizado un estudio comparativo entre técnicas de transformación de parámetros (substracción espectral generalizada) y transformación de modelos acústicos (combinación de modelos en paralelo, PMC). Se han propuestos diversas modificaciones a los algoritmos anteriores basadas en la aplicación de una función de entorno en el dominio de las energías en banda que presenta dos características importantes: conceptualmente, es muy similar para ambos tipos de transformaciones y es más realista que las utilizadas habitualmente. En concreto, en esta función de entorno se ha incorporado una estimación del término cruzado (que habitualmente es ignorado) y que está relacionado con la correlación del habla limpia y el ruido (o el habla ruidosa y el ruido). Se ha evaluado esta estrategia para dos ruidos estacionarios distintos a varias relaciones señale a ruido. Los resultados muestran que esta función de entorno modificada mejora las tasas de reconocimiento obtenidas con las técnicas conveniconales, especialmente en el caso de transformación de parámetros.
  • ANÁLISE E SÍNTESE PROSÓDICA DO GALEGO PARA CONVERSIÓN TEXTO-FALA .
    Autor: FERNÁNDEZ SALGADO JAVIER.
    Año: 2002.
    Universidad: VIGO.
    Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN.
    Centro de realización: E.T.S.I. TELECOMUNICACIÓN.
  • RECONEIXEMENT DE LA PARLA PER A SISTEMES DE DIÀLEG ORAL .
    Autor: PADRELL SENDRA JAIME.
    Año: 2001.
    Universidad: POLITECNICA DE CATALUÑA.
    Resumen: Cada vez más, está ganando interés la posibilidad de utilizar técnicas de reconocimiento del habla para acceder a información, por medio del teléfono, manteniendo un diálogo oral con un sistema automático. En este trabajo se estudia el reconocimiento del habla en estos tipos de servicios cuando el diálogo no es totalmente guiado sino mixto, de suerte que el usuario tiene un cierto control del diálogo y puede utilizar habla más natural. En este diálogo el usuario conserva cierta iniciativa para escoger el orden, el tipo y la cantidad de información que da en cada turno del diálogo. Para mantener una tasa de reconocimiento aceptable se estudian varias alternativas. El aumento de la robustez a los ruidos por parte de la parametrización, mejores modelos acústico-fonéticos, la utilización de modelos de lengua más complejos y el uso de la información que se ha obtenido en los turnos anteriores del diálogo. Para llevar a término el estudio de estas técnicas se ha desarrollado un prototipo de reconocimiento del habla en un torno a diálogo oral que proporciona información sobre los Ferrocarriles de la Generalitat de Catalunya a través del teléfono. En la primera parte de la tesis se trata el reconocimiento del hable en un entorno telefónico. En la segunda parte se estudia la adaptación del reconocimiento del habla a un entorno de diálogo semánticamente restringido mediante la integración del sistema de reconocimiento en el prototipo de diálogo. Se aborda la parametrización de la voz y el uso de la estimación espectral multiventana en esta parametrización para obtener una estimación más consistente de la envolvente. Se estudia la adaptación y la utilización del filtrado frecuencial en condiciones ruidosas. Se describe una nueva parametrización, combinación de las dos anteriores. Los resultados de las pruebas realizadas muestran como una combinación de estas características pueden dar una parametrización más robusta a las condiciones de ruido de un ambiente telefónico. La señal parametrizada se reconoce utilizando modelos de Markov ocultos. Estos se utilizan para modelizar semifonemas, palabras y ruidos de locutor. Se prueba a entrenar modelos de semifonemas bilingües con el objetivo de aprovechar las bases de datos en castellano en la creación de los modelos catalanes. En el prototipo, las palabras reconocidas se acompañan con una medida de confianza. Se describen y se utilizan dos tipos de medidas, la confianza basada en la observación y la confianza basada en la gramática. Lo que da mejores resultados es utilizar sólo dos modelos de lenguaje durante todo el diálogo, un biograma sin información semántica y una combinación de x-gramas con marcas semánticas. El primero se utiliza en el primer turno del diálogo, cuando se tiene menos información de lo que quiere el usuario y se realiza la pregunta más abierta. Las marcas semánticas del segundo modelo se utilizan para modificar el modelo de lenguaje en tiempo real. Para el módulo de comprensión del prototipo, se extiende el modelo de lenguaje CHRONUS, de manera que los estados en lugar de contener sólo palabras contienen también otros submodelos o clases. Se realizan pruebas utilizando este modelo en el reconocimiento del habla para aprovechar el conocimiento semántico que proporciona.
  • RECONOCIMIENTO DE HABLA MEDIANTE TRANSPARAMETRIZACIÓN: UNA ALTERNATIVA ROBUSTA PARA ENTORNOS MÓVILES E IP .
    Autor: PELÁEZ MORENO CARMEN.
    Año: 2001.
    Universidad: CARLOS III DE MADRID.
    Centro de lectura: ESCUELA POLITÉCNICA SUPERIOR.
    Centro de realización: UNIVERSIDAD CARLOS III DE MADRID.
    Resumen: Cada vez está cobrando más importancia, en el desarrollo de redes de móviles e IP, la posibilidad de que todo tipo de información transite por ellas, ya que esto permite la creación de nuevas aplicaciones a partir de su combinación. En los actuales sistemas de reconocimiento de habla, uno de los problemas que existen es el desajuste que se produce al trasladarnos del laboratorio al mundo real. En esta tesis estudiamos una de sus causas: la influencia del canal de transmisión. Para ello, nos centramos en la red GSM y las redes TCP/IP y proponemos una solución, que hemos denominado reconocimiento mediante transparametrización, con la que mejoramos las tasas de reconocimiento en ambos entornos. Las distorsiones que más afectan la precisión de los reconocedores son la distorsión de codificación y la producida por los errores de transmisión. Proponemos el análisis de la prametrización de la señal de la voz que lleva a cabo el codificador antes de su decodificación y la transformación de ésta en otra, más adecuada para el reconocimiento.
  • UN MODELO DE SEMÁNTICA LÉXICA PARA EL RECONOCIMIENTO INTEGRADO DE HABLA CONTINUA .
    Autor: VALVERDE ALBACETE FRANCISCO JOSÉ.
    Año: 2001.
    Universidad: CARLOS III DE MADRID.
    Centro de lectura: ESCUELA POLITÉCNICA SUPERIOR .
    Centro de realización: UNIVERSIDAD CARLOS III DE MADRID.
    Resumen: La tesis doctoral propone un modelo semántico integrado con un modelo acústico en el que se han generado algoritmos de exploración de grafos. El modelo computacional incluye modelos semánticos, acústicos, psicolingüísticos implementando diferentes niveles en los grafos.
  • TÉCNICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL PARA LA TELEOPERACIÓN DE ROBOTS .
    Autor: ÑECO GARCÍA RAMÓN PEDRO.
    Año: 2001.
    Universidad: MIGUEL HERNANDEZ.
    Centro de lectura: ESCUELA POLITÉCNICA SUPERIOR .
    Centro de realización: ESCUELA POLITÉCNICA SUPERIOR DE ELCHE.
    Resumen: La presente Tesis tiene como objetivo estudiar la interacción con el operador de un robot teleoperado utilizando una interfaz por voz en lenguaje natural. Se estudia la aplicación y adaptación de los algoritmos de procesamiento del lenguaje natural al caso específico. El estudio realizado aborda la actuación del operador sobre el robot de una forma global, analizando el procesamiento necesario para el análisis del comando emitido por el operador, la ejecución de éste, así como la posible realimentación del operador hacia el robot de los errores o incorrecciones que puede cometer. La tesis está dividida en cuatro áreas de investigación: 1,- El estudio de los algoritmos de análisis sintáctico, semántico y pragmático para la teleoperación directa de un brazo robot teleoperado, así como una arquitectura para comandar con lenguaje natural un robot móvil. 2,- Estudio y análisis de las representaciones geométricas del entorno de trabajo de robot para su uso en el procesamiento del lenguaje natural. 3,- Propuesta y análisis de técnicas para el tratamiento de la realimentación hacia el robot como consecuencia de las ejecuciones erróneas o imprecisas de las acciones solicitadas, así como las técnicas de recuperación y tratamiento de estas ejecuciones erróneas. 4,- Experimentación de técnicas de aprendizaje automático de las estructuras del lenguaje para su aplicación en la adaptación automática de la interfaz. Finalmente se describe la aplicación de los métodos propuestos a un proyecto de investigación en el que existe un brazo robot teleoperado integrado en un entorno de experimentación en tiempo real.
  • ARQUITECTURAS Y MÉTODOS EN SISTEMAS DE RECONOCIMIENTO AUTOMÁTICO DE HABLA DE GRAN VOCABULARIO .
    Autor: MACÍAS GUARASA JAVIER.
    Año: 2001.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN .
    Centro de realización: E.T.S.I. TELECOMUNICACIÓN - U.P.M..
    Resumen: La presente tesis doctoral, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los caso, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no parámetricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechado estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas; habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de sus bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto métricas y mecanismos originales de comparación.
  • ESTRATEGIAS PARA LA DETECCIÓN AUTOMÁTICA DE PATOLOGÍA LARÍNGEA A PARTIR DEL REGISTRO DE LA VOZ .
    Autor: GODINO LLORENTE JUAN IGNACIO.
    Año: 2001.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INFORMÁTICA .
    Centro de realización: FACULTAD DE INFORMÁTICA.
    Resumen: La comunicación oral es uno de los agentes más importantes en la habilidad que los seres humanos tenemos para interactuar y comunicarnos con nuestro entorno. La capacidad de hablar y ser entendido es central en nuestro desarrollo como individuos. Para aquellos que están privados de esta capacidad, bien sea desde nacimiento, bien sea por alguna enfermedad, se trata de una experiencia altamente frustante. Esta tesis recoge una nueva perspectiva en el análisis objetivo, medida, detección de la presencia de patología y clasificación de la calidad vocal, en locutores que sufren patología laríngea (incluyendo el cáncer de laringe). La mayoría de los desórdenes de la voz modifican el registro acústico. Estos desórdenes han de ser diagnosticados y tratados en un temprano estadio. El análisis acústico es una técnica no invasiva (basada en tratamiento digital de la señal) que se revela como una herramienta muy interesante para el diagnóstico de este tipo de desórdenes. Su interés se basa en que se trata de una herramienta no invasiva, proporciona un diagnóstico objetivo, e incluso puede ser usada en los procesos de evaluación de tratamientos farmacológicos, médicos y de rehabilitación, a la vez que sirve a médicos otorrinos, foniatras y logopedas para caracterizar voces patológicas. Se sabe que la presencia de patología laríngea no necesariamente causa cambios perceptibles en el registro acústico de la señal, o lo que es lo mismo, la presencia de patología vocal no necesariamente va acompañada de una pérdida perceptible de calidad en la voz (especialmente en etapas tempranas del cáncer de laringe). Para evaluar la calidad de la voz se han desarrollado multitud de algoritmos que en muchos casos han demostrado una gran correlación entre su desviación y la presencia o ausencia de patología. El principal problema que se subyace bajo estos parámetros es que no existen estudios poblacionales rigurosos y que, por otra parte, su cálculo está basado en una primera estimación de la frecuencia fundamental de la señal de voz, tarea automática especialmente difícil en presencia de patología. Actualmente, la identificación de patologías laríngeas se realiza mediante la observación directa de las cuerdas vocales mediante técnicas de videoendoscopia. Este tipo de exploración tiene múltiples desventajas, entre las que se encuentran su alto coste, la duración de la propia exploración, y el hecho de que se trata de una técnica de tipo invasivo. Como resultado final de la presente tesis doctoral se dispone de un sistema de bajo coste basado en ordenador personal orientado al médico de familia y a los especialistas en otorrinolaringología. El sistema final soporta la grabación, y edición de segmentos de voz proporcionando un análisis objetivo a partir del conjunto de parámetros acústicos extraídos del propio registro. La tarea más importante en la presente tesis doctoral se puede considerar relacionada con el estudio de distintos esquemas de parametrización y clasificación aplicados a de la detección automática de patología laríngea. Se han desarrollado y probado distintos esquemas de parametrización espectral y cepstral combinándolos con esquemas de clasificación estadísticos y/o neuronales. El sistema diseñado es capaz de discriminar tramas de voz normal y patológica (a partir de frases pregrabadas y/o vocales sostenidas) con una tasa de acierto sobre trama que alcanzó el 99.9 +- 0.1%. Esta tasa de error se obtuvo con parametrizaciones cepstrales tipo MFCC y clasificación mediante modelos de mezclas de gausianas. Asimismo se ha abordado la valoración automática de la calidad de la voz en escala GRABS con resultados que rondaron en el mejro de los casos el 68%.
  • SISTEMA HÍBRIDO DE CANCELACIÓN DE RUIDO EN SEÑALES DE VOZ BASADO EN FILTRADO ADAPTATIVO Y SUSTRACCIÓN ESPECTRAL .
    Autor: MARTÍNEZ OLALLA RAFAEL.
    Año: 2001.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: FACULTAD DE INFORMÁTICA.
    Resumen: El realce de voz en condiciones de alto nivel de ruido es una tarea muy difícil. El problema se vuelve crítico cuando el rudio cambia constantemente de nivel y de distribución espectral. Además, puede suceder que aparezcan señales de voz en el ruido que corrompe la señal deseada haciendo muy difícil la decisión de si esas señales de voz corresponden o no a una realización válida. Durante la fase de estudio preliminar se consideraron diferentes técnicas de cancelación de ruido para resolver el problema. Debido a la baja relación señal a ruido y a la característica fuertemente no estacionaria del ruido se decició utilizar un esquema de dos micrófonos. Uno de los micrófonos (principal) se sitúa cerca del hablante para recoger la señal de voz. El segundo micrófono (de referencia) debe estar situado a una cierta distancia, o bien se debe separar del hablante mediante una barrera física, de modo que obtenga una referencia del ruido lo más exacta posible al tiempo que evite el registro de la señal de voz (crosstalk). El esquema de cancelación propuesto consta de un filtro adaptativo en celosía - escalera (FACE) con un autómata de control y una unidad de segmentación de voz, seguido de un sustractor espectral. La principal ventaja de los filtros adaptativos considerados es que aseguran una cancelación aceptable incluso para niveles de ruido extremadamente altos, siempre que se asegure que la señal de referencia es un buen estimado del ruido ambiente. Por otro lado su principal inconveniente es su gran complejidad computacional. Cuanto mayor es el número de etapas de filtrado, mayor es la cancelación obtenida, pero la complejidad computacional se incrementa. Por tanto la longitud de los filtros está limitada por el coste computacional asumible. Además los problemas de estabilidad de los filtros se incrementan con su longitud (los errores se propagan por la estructura y son amplificados por las etapas sucesivas). El periodo de enganche de los filtros también aumenta con su longitud. Esto ha de ser tenido muy en cuenta cuando la distribución espectral del ruido cambia con rapidez. Por otro lado, el sustractor espectral propuesto puede garantizar un realce mayor que el del filtro adaptativo. Su principal limitación es que requiere una SNR mínima, en primer lugar para evitar que líneas espectrales totalmente enterradas en el ruido sean eliminadas, y en segundo lugar porque requiere una estimación de la presencia de voz para poder funcionar correctamente. La salida del FACE proporciona la SNR suficiente para garantizar el correcto funcionamiento del sistema. En la última parte de este trabajo se muestran numerosos ejemplos del funcionamiento del sistema. Además, para dar una medida de la calidad de voz procesada, se muestra un experimento de reconocimiento de voz.
64 tesis en 4 páginas: 1 | 2 | 3 | 4
Búsqueda personalizada
Manuales | Tesis: Ordenadores, Circuitos integrados...
english
Cibernetia