|
|
|
| 64 tesis en 4 páginas: 1 | 2 | 3 | 4 |
SINTESI DE LA PARLA PER CONCATENACIO BASADA EN LA SELECCIO . Autor: FERRER GODAYOL ALBERT. Año: 2000. Universidad: POLITECNICA DE CATALUÑA. Centro de lectura: INGENIEROS DE TELECOMUNICACION
.
Resumen: La conversion de texto o habla tiene el objetivo de imitar a un hablante en la capacidad de leer un texto, y permite trasladar la comunicación escrita entre las personas y las maquinas al habla. En el contexto de desarrollo del
sistema de conversion de texto a habla del TALP (UPC), se ha desarrollado un sistema de sintesis del habla por concatenacion basada en la selección de unidades.
La sintesis del habla de concatenacion de unidades clasica dispone de una instancia de cada una de las diferentes unidades que utiliza, habitualmente difonemas. Entonces, la voz sintetica se genera por concatenacion de las unidades necesarias.
Las limitaciones en la calidad del habla se deben a dos tipos de distorsion: a) de concatenacion: los segmentos de voz utilizados estan condicionados por la coarticulacion con el contexto de donde se extraen(en general diferente del contexto donde
se insertan), y b) de unidad: las caracteristicas prosódicas de los segmentos de voz son en general diferentes a la prosodia requerida para el habla sintetica (su modificacion introduce distorsion). Una forma de resolver estos dos problemas consiste
en poblar la base de unidades de varias instancias diferentes para cada una de las unidades, incrementando la variabilidad fonetica y prosodica de los segmentos de voz disponibles para la concatenacion.
En esta tesis se describe la generacion de un corpus de unidades de sintesis, y el procedimiento y los criterios utilizados para seleccionar estas unidades. La generacion del corpus de unidades se basa en un analisis de diferentes unidades a
considerar en la selección: difonemas, trifonemas y palabras, de las que se estudian los inventarios y distribuciones frecuenciales de las apariciones. Las unidades elementales para la la concatenacion que se usan en el sistema implementado son los
semifonemas, definidos como cada una de las dos partes de un fonema dependientes del contexto fonetico adyacente. En esta tesis, se describe el proceso de grabacion, segmentacion en semifonemas y etiquetado de los corpus de unidades generados.
La selección de la combinacion de unidades optima para la sintesis se basa en considerar los costes de unidad, que mide el parecido entre una instancia de una unidad en la base y la unidad ideal que se desea sintetizar, y de concatenacion, que
mide la calidad de la concatenacion de dos instancias particulares de unidades de la base. La selección se describe formalmente y se resueve con la programacion dinamica, con especial atencion a particularidades y optimizacones que permiten que la
implementacion consiga el funcionamiento en tiempo real del sistema.
En esta tesis tambien se describen los criterios de selección considerados en las diferentes funciones de coste, que se pueden dividir en criterios prosodicos, acusticos y fonológicos. APORTACIONES A LA MEJORA DE LOS SISTEMAS DE RECONOCIMIENTO . Autor: DOCIO FERNANDEZ LAURA. Año: 2000. Universidad: VIGO. Centro de lectura: INGENIEROS DE TELECOMUNICACION. Centro de realización:
E.T.S. DE INGENIEROS DE TELECOMUNICACION.
Resumen: El Reconocimiento Automatico de Voz(ASR-Automatic Speech Recognition) es un campo de investigacion de creciente
relevancia que dia a dia se gana más adeptos. El desarrollo de mejores algoritmos y de modelados mas precisos, junto con la aparición de sistemas informaticos más potentes y asequibles, posibilita la integracion de los sistemas de dialogo
hombre-maquina a traves de la voz que numeroso ambitos de la sociedad actual. Estos sistemas de dialogo permiten el acceso a una gran cantidad de informacion a traves de una forma de comunicación tan natural como es el habla, facilitando un elevado
número de servicios interactivos utilizando el telefono, la televisión o el ordenador como elementos de acceso.
Los sistemas ASR se encuentran con una serie de dificultades cuando el canal de comunicación con el que van a trabajar no es predecible. Este problema es crucial en el desarrollo de aplicaciones factibles en dominios prometedores como son la
telefonia y los coches. Los principales problema encontrados se deben al locutor y a la tarea, al uso de microfonos con diferentes caracteristicas, a la calidad variable de los canales de transmisión, a la reverberacion y ecos, en la distancia y
direccion variable al microfono introducida por el reconocimiento con manos-libres, y al ruido ambiente que distorsiona las señales de voz de entrada. El Reconocimiento Robusto de Voz trata con los desajustes entre entrenamiento y operación.
Las tecnicas más recientes para reconocimiento robusto de voz se han enfocado principalmente en : 1)tecnicas de pre-procesado robusto de la señal de voz, y 2) compensación de caracteristicas y modelos. Entre los metodos desarrollados para tratar
con los desajustes entre datos de entrenamiento y de operación, las tecnicas de adaptación/compensacion estan teniendo mucho interes debido a su capacidad para tratar con un ampli rango de variaciones de canal y ruido, junto con diferencias en
locutores y estilos de habla. Sin embargo, mientras que un ser humano es capaz de adaptarse a una nueva voz con una cantidad minima de datos de entrenamiento, la adaptacion instantanea y no supervisada es todavia un gran reto para las máquinas. El
interes surgido en la adapatación como procedimiento para resolver los problemas de robustez proviene del buen nivel de prestaciones alcanzados por los sistemas ASR y el esfuerzo dirigido hacia la insercion del ASR en aplicaciones del mundo real.
En esta Tesis se exploran en profundidad tres procedimientos de robustez que mejoran la capacidad de los sistemas de reconocimiento de voz a adaptarse a nuevos entornos acusticos: la sustraccion espectral, la normalizacion cepstral y la
combinacion de modelos en paralelo. El diseño de dichos procedimientos se basa en investigaciones previas en las que se ha logrado una significativa robustez al entorno. El presente trabajo extiende los resultados previos sobre un marco experimental
comun para todos ellos. La construccion de este marco expermental se debe a la falta de analisis comparativos sobre las prestaciones de las diferentes tecnicas de robustez en un marco universal.
Los algoritmos de robustez se han evaluado en terminos de su efectividad enmejorar la robustez al entorno y de su complejidad computacional, entre otros atributos. En concreto, se han realizado experimetnos controlados para evaluar el aporte de
robustez de los metodos a un factor especifico: ruido de coches.
Otro aspecto del ASR que ha sido tratado en esta Tesis es elde la evaluación de los reconocedores de voz. Aun cuando los metodos de evaluacion son cruciales en este campo no existe un estandar establecido ni un completo acuerdo en como se debe
evaluar un reconocedor. Asi, se han estudiado y analizado los metodos utilizados habitualmente llegando a la conclusión de que no son fiables. Esto ha motivado el desarrollo de un método que permite detectar los puntos debides de los algoritmos en
funcion de los errores reales cometidos por el reconocedor.
Otro aspecto importante que ha tenido en cuenta en el trabajo de investigacion realizado durante el desarrollo de esta Tesis es el de la segmentacion automatica de señales de voz. La motivacion inicial de este estudio ha sido la implementacion
del metodo de evaluacion de reconocedores arriba mencionado, pero el condicionante decisivo de todo el trabajo realizado en este campo ha sido la existencia de un conversor Texto-Voz(TTS) para Gallego en el grupo de Teoria de la Señal de la E.T.S.I.
De Telecomunicación de la Universidad de Vigo. Los sistemas TTS precisan de bases de datos segmentadas con elevada precision. La tarea de segmentacion que se hace habitualmente de forma manual resulta poco eficiente, por lo que resulta altamente
importante el desarrollo de una tecnica de segmentacion y etiquetado automatico que proporcione unas prestaciones similares a las obtenidas por los seres humanos. En esta Tesis se ha propuesto un sistema preliminar de segmentacion automatica que
proporciona unos resultados bastante satisfactorios. APLICACION DEL ANALISIS DISCRIMINANTE Y DE LA RED NEURONAL LVQ AL RECONOCIMIENTO SEMIAUTOMATICO DE
HABLANTES. Autor: GARCERAN HERNANDEZ VICENTE. Año: 1999. Universidad: MURCIA. Centro de lectura: INGENIEROS
INDUSTRIALES.
Resumen: La tesis implementa un sistema de reconocimiento de hablantes utilizando técnicas basadas en el reconocimiento de patrones, para su aplicación en la acústica forense. Propone un método para resolver el problema
de la identificación y la verificación de hablantes tanto en grupos cerrados como abiertos.
Para el reconocimiento de hablantes utiliza la información acústica del habla de una población de 11 hablantes, y para la modelización de éstos utiliza las técnicas del tratamiento de señal FFT, Cepstrum y LPC.
Concluye que el método basado en el análisis discriminante ofrece mejores resultados, pero sólo en sistemas en grupos cerrados.
La red neuronal de cuantificación vectorial con aprendizaje modificada con la tecnica de la distancia normalizada, para la medida del grado de similitud entre las grabaciones indubitadas y dubitadas, permite la creación de umbrales de decisión,
y en un método para el reconocimiento de hablantes en sistemas cerrados y abiertos.
ESQUEMAS EXPERIMENTALES PARA EL RECONOMIENTO AUTOMÁTICO DEL LOCUTAR(RAL) Y LA DECODIFICACION
ACUSTICO-FONETICA(DAF) . Autor: SILVA VARELA HERNANDO. Año: 1999. Universidad: VALLADOLID. Centro de lectura: CIENCIAS
. Centro de realización: FACULTAD DE CIENCIAS.
Resumen: Se aborda el tema del Reconocimiento Automático de la Voz(RAV) en sus modalidades de Reconocimiento Automatico del
locutor (RAL) y Reconocimiento Automático del Habla(RAH).
Se describe SERAL, un sistema para el reconomiento Automático del Locutor que usa la técnica de Alineamiento Dinámico Temporal(ADT).
Se presentan cuatro procedimientos para la Verificacion Automatico del Locutor (VAL) usando Modelos Ocultos de markov(MOMs).
Se aborda el tema de la Decodificacion Acústico-Fonetica(DAF) usando redes neuronales del tipo Perceptron Multicapa (PMC) con el fin de desarrollar un sistema para el fin de desarrollar un sistema para el reconocimiento Automatico del Habla
continua(RAHC). Se presenta un esquema de Clasificación Fonética por Etapas(CFE) que tiene una eficiencia computacional más alta que el de un sistema de clasificación fonética Directa(CFD). MODELOS K-EXPLORABLES EN SENTIDO ESTRICTO INTEGRADOS EN UN SISTEMA DE RECONOCIMIENTO AUTOMÁTICO DEL
HABLA . Autor: VERONA FERNÁNDEZ M. AMPARO. Año: 1999. Universidad: PAIS VASCO. Centro de lectura: CIENCIAS
. Centro de realización: FACULTAD DE CIENCIAS.
Resumen: Una de las etapas fundamentales en un sistema de RAH es la incorporación de conocimiento sintáctico y/o semántico mediante un Modelo de Lenguaje (ML). Uno de los principales objetivos de este trabajo ha sido
aplicar una aproximación grmatical al modelado de lenguaje, basada en la utilización de una subclase de las gramáticas regualares, conocidas como gramáticas k-Eplorables en Sentido Estricto (k-EE). Además, la construcción y evaluación de los ML se
ha realizado en base a resultados de reconocimiento.
Con la integración directa de las probabilidades acústicas y de ML no se logran los resultados de decodificación óptimos. En este trabajo se ha estudiado y evaluado los heurísticos que se utilizan tradicionalmente (ponderación lineal y
exponencial sobre las probabilidades del acústicas y de ML) para mejorar el comportamiento del sistema, junto con nuevas propuestas (aplicación de una funciónescalón, combinación de hurísticos, etc.).
El uso de las gramáticas k-EE permite integrar en un sólo modelo K autómatas k-EE deterministas (k=1.K) y la técnica de suavizado por back-off. La fomralización de este modelo ha sido también objetivo del trabajo. Además el suaviado de los ML
es fundamental para evitar las probabilidades igual a cero de las combinaciones de palabras que no aparecen en las muestras de entrenamiento. En este trabajo se han evaluado, dentro del sistema de RAH, varios descuentos usando la técnica de
back-off sintáctico: propuestas clásicas (Witten-Bell, Absoluto y Lineal) y nuevas propuestas (Sencillo y Acotado).
Para reducir el tamaño de los modelos se ha evaluado también el efecto que tiene en decodificación la poda de los modelos k-EE suavizados con los distintos descuentos evaluados previamente. Se compara el diferente comportamiento de los modelos
podados frente a los no podados. CONFIDENCE MEASURES FOR SPEECH RECOGNITION AND UTTERANCE VERIFICATION . Autor: HERNANDEZ ABREGO GUSTAVO ADOLFO. Año: 1999. Universidad: POLITECNICA DE CATALUÑA. Centro de lectura: INGENIEROS DE TELECOMUNICACION
.
Resumen: Esta investigación está dedicada al
estudio e implantación de métodos eficaces para medir los niveles de confianza de las hipótesis resultantes del reconocimiento automático del habla. Asi mismo, este trabajo se ocupa de una de las posibles aplicaciones de las medidas de confianza: la
verificación de las hipótesis de reconocimiento (en ocasiones llamada verificación de la elocución).
Tambien es proposito de esta investigación desarrollar sistemas eficientes y flexibles. El sistema etiquetador de confianza se plantea como un módulo agregado a cualquier sistema de reconocimiento de habla, respetando la configuración original
de dicho sistema y empleado datos procedentes exclusivamente de la salida del reconocedor. Estos datos se refieren a una serie de características del reconocimiento que contienen información relacionada con la exactitud del procedimiento
reconocedor. Dichas características se calculan mediante la comparación de la información de las hipótesis de reconocimiento con la información obtenida a partir de los resultados de un reconocedor alternativo. Debido al bajo nivel de restricciones
aplicado al sistema alternativo, este es capaz de manejar cualquier tipo de señal de voz, incluyendo ruidos perturbadores, palabras mal formadas y elementos de habla desconocidos por el sistema. Por otra parte, las hipotesis generadas por el sistema
alternativo rara vez son correctas. Sin embargo, un sistema alternativo como este es un buen punto de referencia para corroborar los resultados del reconocedor principal.
Las caracteristicas del reconocimiento pueden usarse como evaluadores de los niveles de confianza que, combinados de manera eficiente, generan una nueva medida compuesta cuyas prestaciones son superiores a las de las caracteristicas del
reconocimiento por si mismas. Diversos esquemas de combinacion de variables son probados abarcando desde los sistemas lineales hasta las redes neuronales y los sistemas de logica difusa.
Con el fin de examinar las prestaciones que un mismo método de medida de confianza presenta en diferentes aplicaciones, los sistemas desarrollados son probados en diversos tareas: reconocimiento de palabras aisladas, detección de palabras clave
y reconocimiento de habla continua. Debido a su particular complejidad, el tratamiento del habla continua aun representa un reto importante para la tecnologia del habla. El uso de la información contextual presente en las secuencias de palabras que
forman el habla continua ha incrementado las prestaciones de los reconocedores en este tipo de aplicaciones. En este trabajo también exploramos la inclusión de información contextual en el calculo de las medidas de confianza en aplicaciones de habla
continua.
Por último, en esta investigación se evalúa la utilización de las medidas de confianza para verificar los resultados del reconocimiento. Debido a su naturaleza imprecisa, las medidas de confianza pueden usarse para definir sistemas flexibles de
validación de hipotesis estableciendo diferentes niveles de aceptación acorde con los requerimientos de un procedimento de verificación determinado. Los resultados experimentales demuestran que nuestro enfoque obtiene buenas prestaciones. Los
procedimientos y sistemas desarrollado son eficientes midiendo la confiabilidad de las palabras detectadas en las tareas de reconocimiento de habla probadas, especialmente en aquellas aplicaciones en las que puede emplearse información contextual
para el calculo de confianza.
ESTUDIO DE TECNICAS DE RECHAZO Y VERIFICACIÓN DE PRONUNCIACIONES EN RECONOCEDORES DE NUMEROS
CONECTADOS MULTILINGÜES SOBRE LINEA TELEFONICA . Autor: CAMINERO GIL FRANCISCO JAVIER
. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN. Centro de realización: ESCUELA TECNICA SUPERIOR INGENIEROS
TELECOMUNICACIÓN.
Resumen: Se estudian técnicas de rechazo y verificación de pronunciaciones centrandose en reconocedores numericos multilingues
para entorno telefónico, buscando desarrollar un sistema que funcione en tiempo real.
Se adaptan también procedimientos de robustez ya esistentes como el CMN (normalización de la media cepstral) y el NSS (Substracción espectral).
Se propone una modificación al algoritmo de reconocimiento "N Best Lattice" de forma que sólo obtiene los N mejores candidatos de reconocimiento que se ajsuten a unas determindas reglas de conocimiento externo y de manera eficiente sin generar
candidatos semanticamente iguales.
Se detalla además las problemática de los sistemas reales y se describe el uso de una técnica emergente de uso de la información prosodica disponible para detectar y corregir errores de reconocimiento así como de ciertas ambigüedades.
"CARACTERIZACIÓN DE LOS RASGOS DINAMICOS DE LOS SONIDOS DEL ESPAÑOL, UTILIZANDO REPRESENTAICONES
ADAPTATIVAS" . Autor: HOMBRADOS LOPEZ MIGUEL ANGEL. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INFORMATICA. Centro de realización: FACULTAD DE INFORMATICA.
Resumen: -Codificar la señal de voz mediante los parametros Parcor utilizando un algoritmo recursivo.
-Caracterizar los sonidos no estacionarios de la señal de voz mediante la utilización de Redes Neuronales con Retardo Temporal (TDNN´s), determinación del orden de autorregresividad de los estimadores espectrales de la voz mediante celosías
autoagregativas, propuesta de un nuevo tipo de TDNN.
-Estudio de las características dinámicas de la señal de voz mediante la utilización de la Matriz Asociativa. RECONOCIMIENTO DE VOZ FLEXIBLE Y EFICIENTE PARA APLICACIONES ITO . Autor: LÓPEZ BARQUILLA RICARDO. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACIÓN
. Centro de realización: E.T.S.I. TELECOMUNICACIÓN.
Resumen: La Tesis presenta una aproximación al desarrollo de sistemas de Reconocimiento de Habla se presentan tanto técnicas de extracción de características, como procedimientos de modelado
basado en Modelos Ocultos de Amrkov (HMM) continuos para el Español. Especial importancia presenta la definición de técnicas de atado o compartición de estados o senones para reducir la carga computacional del proceso de decodificación. Resaltando
los experimentos basados en la proyección de Sammon.
También desde el punto de vista del decodificador, se plantea, discuten y evalúan diferentes procedimintos de poda o prunning para reducir el número de caminos que debe explorar el proceso de búsqueda del mejor camino reconocido.
El esquema global de reconocimiento que la Tesis plantea incluye el uso de gramáticas simples de estados para realizar el modelado de lenguaje. Se propone tmabién el uso de compartición de arcos para simplificar el proceso
de búsqueda a través de los nodos de la gramática.
Finalmente, se propone un esquema flexible y modular adecuado para la realización de reconocedores en procesadores de señal de potencia media. "APORTACION A LA EXTRACCION PARAMETRICA EN RECONOCIMIENTO DE VOZ ROBUSTO BASADA EN LA APLICACIÓN DE
CONOCIMIENTO DE FONETICA ACUSTICA" . Autor: ALVAREZ MARQUINA AGUSTIN. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INFORMATICA. Centro de realización: FACULTAD DE INFORMATICA.
Resumen: La hipótesis en la que se basa el desarrollo de esta tesis, se centra en la suposición de que la aportación de conocimiento directo, proveniente
del campo de la fonética acústica, al problema del reconocimiento automático de la voz, en concreto a la etapa de extracción de características, puede constituir una base solida con la que poder analizar el comportamiento y capacidad de
discriminación de dichos sistemas, asi como una forma de mejorar sus prestaciones.
Las investigaciones desarrolladas en este trabajo se han dividido en dos bloques fundamentales: analisis de los metodos actuales de extraccion de rasgos foneticos y un estudio de algunas posibles formas de incorporacion de conocimiento
fonético-acustico a dichos sistemas. En esta tesis se ofrecen abundantes resultados relativos a tasas de reconocimiento y medidas acerca de la calidad de este proceso, para un total de 50 modelos de extracción de parámetros.
Asi mismo, se incluyen los detalles de la implementación en tiempo real para una plataforma DSP, en concreto TMS320C31-60, de dos diferentes modelos de estracción de rasgos.
Además, se ha desarrollado un conjunto de las herramientas informáticas que pueden servir de base para construir y validar de forma sencilla, nuevos sistemas de reconocimiento. ROBUSTEZ EN RECONOCIMIENTO FONÉTICO DE VOZ PARA APLICACIONES TELEFÓNICAS. Autor: PUERTAS TERA JOSÉ IGNACIO. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACION
. Centro de realización: E.T.S.I. TELECOMUNICACIÓN.
Resumen: La tesis estudia diferentes técnicas orientadas a combatir las principales fuentes o causas de error en los sistemas de Reconocimiento
Automático de Habla que operan en aplicaciones Telefónicas.
Los trabajos comienzan con la presentación de los aspectos básicos de diseño de un reconocedor de habla basado en Modelos Ocultos de Markov.
Se consideran, estudian y evalúan técnicas de robustez orientadas, principalmente, a la diferente forma de hablar de locutores diferentes, a las variaciones del canal, y a la posible presencia de ruidos, distorisiones y palabras fuera del
vocabulario que emplee el usuario del sistema.
Concretamente se estudian técnicas como las sutracción de la media cepstral (CMN), y la técnica conocida como RASTA. Se discute también la utilización del procedimientos para el rechazo de pronunciaciones incorrectas.
La evolución de resultados se realiza sobre una base de datos telefónica capturada dentro de los trabajos de la Tesis, y que contiene un vocabulario reducido de dígitos, comandos y 100 nombres. "METODOLOGIA PARA LA VISUALIZACION DE LOS FORMANTES, BASADA EN LA TRANSFORMADA DE FOURIER, Y SU USO
EN EL ESTUDIO ESPECTRAL DE LA FONÉTICA ACUSTICA ESPAÑOLA" . Autor: BERNAL BEMUDEZ JESUS
. Año: 1999. Universidad: POLITECNICA DE MADRID. Centro de lectura: INFORMATICA. Centro de realización: FACULTAD DE INFORMATICA.
Resumen: Esta Tesis Doctoral muestra que es necesario utilizar ventanas temporales relativamente pequeñas para obtener el
espectro de la voz. Esto provoca que el espectro calculado sea el resultado de dos señales conjuntas: señal de voz y ventana temporal.
La hipótesis en la que se basa esta tesis es que mediante el análisis de las funciones Evolución se puede establecer un método para eliminar parte la energía del espectro que proviene de la utilización de ventanas temporales. Las funciones
Evolución han sido desarrolladas en este trabajo y son innovadoras, ya que no se ha encontrado ninguna documentación que las haga referencia.
El estudio de las funciones Evolución se desarrolla a través de tres etapas. En una primera etapa se realiza un análisis en variable continua estableciendo los fundamentos matemáticos en que se basa el método de eliminación de energía sobrante
del espectro. En una segunda etapa se estudia mediante la variable discreta en donde se desarrollan las bases del método. Por último, las funciones Evolución se estudian mediante la utilización de muestras de voz para ajustar los diferentes
parámetros que intervienen en el método.
Una vez finalizada las investigaciones, ha quedado validada la hipótesis inicial, ya que se ha desarrollado con éxito el método buscado. Como demostración de la eficacia del mismo, se aportan en esta tesis los espectros de un conjunto de
alófonos representativos de los fonemas del castellano.
Finalmente, se plantea un algoritmo propio para la extracción automática de formantes teniendo en cuenta las características especiales que poseen los espectros aquí presentados. Este algoritmo destaca por extraer todos aquellos formantes que
encuentra, sin limitarse a los n primeros. MODELATGE ACUSTIC ADAPTATIU PER AL RECONEIXEMENT DE LA PARLA. Autor: BATLLE MONT ELOI. Año: 1999. Universidad: POLITECNICA DE CATALUÑA. Centro de lectura: INGENIEROS DE TELECOMUNICACION
.
Resumen: El autor ha estudiado y desarrollado distintas técnicas de reconocimiento robusto del habla. La contribución más relevante y que da título a la tesis consiste en la propuesta, implementación y verificación de una técnica de adaptación al
ambiente que requiere poco cálculo y un tiempo de adaptación corto. También ha propuesto y experimentado una unidad fonética monoestado, sencilla y bien adaptada al objetivo de la tesis. Por último, ha contribuido a comprender mejor las técnicas de
transformación lineal de los parámetros espectrales desde el punto de vista doble de decorrelación y discriminación.# ENTRENAMIENTO DISCRIMINATIVO DE MODELOS OCULTOS DE MARKOV DE UNIDAD SUBLEXICA PARA SU APLICACION A
SISTEMAS DE RECONOCIMIENTO AUTOMATICO DEL HABLA CONTINUA. Autor: NOGUEIRAS RODRIGUEZ ALBINO
. Año: 1999. Universidad: POLITECNICA DE CATALUÑA. Centro de lectura: INGENIEROS DE TELECOMUNICACION.
Resumen: En esta tesis se aborda el entrenamiento discriminativo de unidades subléxicas utilizando bases de datos de propósito geneal. Las unidades subléxicas son la base de funcionamiento de los sistemas de reconocimiento de grandes vocabularios
en habla continua, los cuales constituyen uno de los retos de máxima actualidad y la puerta de acceso a otras propuestas aún más ambiciosas como el dictado automático o los sistemas de diálogo.
Por su parte, el entrenamiento discriminativo ha demostrado ser una herramienta sumamente potente en el modelado acústico de sistemas de reconocimiento del habla. Su funcionamiento se basa en aumentar la probabilidad de que el sistema reconozca
la frase correcta aplicando, más o menos, la misma regla de decisión empleada en condiciones reales de reconocimiento. Una limitación habitual de los sistemas de entrenamiento discriminativo propuestos hasta la fecha es la necesidad de bases de
datos formadas por material específico de la tarea a reconocer.
En la primera parte de la tesis se presenta la propuesta propia de esta tesis para la aplicación de entrenamiento discriminativo a unidades subléxicas para su aplicación a tareas de reconocimiento del habla continua: el entrenamiento de mínima
confusibilidad en segmentos acústicos de longitud limitada. Se proponen dos variantes. En la primera, el conocimiento del lenguaje de la tarea a reconocer es aprovechado para minimizar el número de errores de posible comisión en la tarea,
utilizando segmentos acústicos extraídos de una base de datos de propósito general. A continuación, esta misma idea se extiende al caso en que la tarea es desconocida, obteniéndose modelos acústicos de propósito general. Se muestran resultados
experimentales en el reconocimiento de las cadenas de dígitos en inglés TIDIGITS utilizando modelos de fonema y semifonema entrenados con TIMIT. En el caso de utilizar adaptación a la tarea se logra una reducción del 24% en la tasa de cadenas
erróneas, pasando del 3,7% al 2,8%. En el caso del entrenamiento independiente de la tarea, la reducción es del 16%, quedando en 3,1%. También se proporcionan resultados en un par de tareas en castellano utilizando la base de datos SpeechDat,
confirmándose resultados semejantes.
En la segunda parte se expone el método de optimización empleado en la aplicación del entrenamiento de mínima confusibilidad: el algoritmo de búsqueda adaptativa de gradiente. Este algoritmo permite eliminar la necesidad de parámetros
ajustables, propia de otros algoritmos típicos, como la búsqueda de gradiente, el algoritmo GPD o el debido a Gopalakrishnan et al. Además, proporciona un mecanismo apropiado para resolver de manera automática los problemas derivados de la
disparidad en el valor de los autovalores del hessiano de la función optimizada.# IMPROVED MODELLING FOR ROBUST SPEECH RECOGNITION. Autor: PACHES LEAL PAU. Año: 1999. Universidad: POLITECNICA DE
CATALUÑA. Centro de lectura: INGENIEROS DE TELECOMUNICACION.
Resumen: Una de las líneas seguidas en esta tesis es intentar conocer mejor nuevas estrategias para mejorar el reconocimiento del habla. En este trabajo, se presenta un nuevo algoritmo (MCA) para compensar las inhomogeneidades en el
dominio del Espectro de Modulación, que tiene cierto sentido perceptual y en el que se pueden representar las variaciones temporales de la señal. MCA es un procedimiento de Máxima Verosimilitud para la estimación automática de filtros en el espectro
de modulación, de cara a compensar distorsiones en este dominio.
Dos bases de datos de propósito general, SpeechDat española y SpeechDat catalana, se usan en este trabajo. La modelización independiente de la tarea, que consiste en entrenar modelos fonéticos generales a partir de frases equilibradas
fonéticamente, es la estrategia usada aquí. Se lleva a cabo un estudio sobre las unidades prácticas para crear sistemas independientes de la tarea de tamaño mediano. Unidades más sencillas que hacen suposiciones simplificadoras sobre los efectos
del contexto se comparan con los muy conocidos trifonemas. Métodos de ligadura de estados basados en árboles de decisión se usan ampliamente aquí para hacer entrenables las unidades dependientes del contexto usadas. Se efectúan dos estudios
independientes, uno para un sistema de reconocimiento en castellano y el otro para un sistema de reconocimiento en catalán.
Un diccionario fonético se necesita para entrenar un sistema de reconocimiento basado en unidades subléxicas. La obtención de un diccionario fonético es muy costosa en tiempo. Un conversor automático grafema-fonema, Segre, para la lengua
catalana ha sido desarrollado en el marco de esta tesis y se ha usado para construir sistemas de reconocimiento en catalán para la base SpeechDat. La característica principal de este transcriptor es que las reglas de conversión no están fijas dentro
del código del programa sino que se definen externamente en unos ficheros que carga el transcriptor. La disponibilidad de la base general SpeechDat catalana y de la herramienta de transcripción Segre ha hecho posible el desarrollo de sistemas de
reconocimiento en catalán de propósito general.# ALGORITMOS DE ENUMERACIÓN DE LOS MEJORES CAMINOS EN GRAFOS, Y APLICACIÓN EN RECONOCIMIENTOD EL
HABLA. Autor: JIMÉNEZ PELAYO VÍCTOR MANUEL. Año: 1999. Universidad: POLITECNICA DE VALENCIA. Centro de lectura: INFORMÁTICA. Centro de realización: FACULTAD DE INFORMÁTICA.
Resumen: Se propone un nuevo algoritmo eficiente de cálculo de los K caminos de mínimo peso entre dos nodos en grafos ponderados, que se deriva a
partir
de una generalización de las conocidas ecuaciones de Bellman para el cálculo del camino óptimo, y se realiza un estudio experimental comparativo con soluciones alternativas. También se propone una modificación del algorimo que permite la
enumeración de múltiples hipótesis en sistemas de reconocimeitno del habla que utilizan modelos estocásticos de estados finitos (modelos ocultos de Markov y gramáticas regulares estocásticas) y emplean el algoritmo de Viterbi para encontrar la
secuencia de palabras óptima.
La implementación del algoritmo popuesto puede encontrarse en la dirección de Internet http://terra.act.uji.es/REA. ESTRATEGIAS DE INCORPORACION DE CONOCIMIENTO SINTACTICO Y SEMANTICO EN SISTEMAS DE COMPRENSION DE
HABLA CONTINUA EN CASTELLANO. Autor: COLAS PASAMONTES JOSE. Año: 1998. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACION.
Resumen: Diseño e implementación de un sistema de comprensión flexible y robusto de habla en Castellano para dominios semánticos restringidos, basado en
autómatas finitos probabilísticos conceptuales con un concepto basura. La arquitectura tiene dos módulos principales: acústico y de comprensión. Se han estudiado y evaluado técnicas de mejora de la eficiencia en el proceso de reconocimiento acústico
("poda de caminos") preocupados por un funcionamiento en tiempo real del sistema, recuperación de errores acústicos aumentando las hipótesis de salida del mismo, diferentes gramáticas guiando el proceso (morfo-sintácticas genéricas del Castellano y
semánticas adaptadas al dominio de aplicación), soluciones alternativas en el proceso de comprensión destacando la descomposición de frases complejas en varias simples y funciones, esto simplifica enormemente el proceso de traducción a SQL desde
plantillas semánticas previamente generadas, además de ser más flexible, potente y fácil de ampliar. UTILIZACION DE METODOS DISCRIMINANTES EN EL MODELADO ACUSTICO DE LA VOZ. Autor: DIAZ PEREZ FRANCISCO. Año: 1998. Universidad: POLITECNICA DE MADRID. Centro de lectura: INFORMATICA.
Resumen: Se analizan las posibilidades y deficiencias de los modelos ocultos de Markov para el modelado acústico. El objetivo es elevar las propiedades
discriminantes de los referidos modelos para el reconocimiento del habla. Los estudios se enfocaron en tres direcciones: (1)Resalte de las características discriminantes contenidas en las plantillas espectrales mediante Análisis de Componentes
Principales (PCA) y el análisis de discriminación lineal (LDA), (2) Implementación de la cuantización vectorial con métodos alternativos conexionistas (mapas autorganizativos, y capas competitivas), y además se sugiere una métrica de distancia
vectorial; y (3) Desarrollo del entrenamiento discriminante de los modelos.
Se concluye que el uso de la transformación realizada acorde al análisis de discriminación lineal, conjuntamente con la reducción de la dimensión y el entrenamiento discriminante, es una combinación muy adecuada para aumentar la eficiencia de
los sistemas de reconocimiento de voz empleando modelos ocultos de Markov con funciones de probabilidades discretas. En los experimentos se mejora el método notoriamente el método clásico, pues en los conjuntos de entrenamiento de palabras aisladas
y fragmentos vocálicos se alcanza el 97,92% y el 95,48% de aciertos, con una mejora de un 11,88% y de un 22,38% respectivamente; mientras que con los conjuntos de evaluación se obtienen el 83,33% y el 72,14% de aciertos en cada tarea, lo que supone
una mejora del 7,61% y del 11,07% respectivamente. ARQUITECTURA PARA REPRESENTACION DEL CONOCIMIENTO LEXICO EN SISTEMAS DE PROCESAMIENTO DE LENGUAJE
NATURAL. Autor: GOÑI MENOYO JOSE MIGUEL. Año: 1998. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACION.
Resumen: El presente trabajo es una contribución al campo del Procesamiento de las Lenguas Naturales (PLN) desde un punto de vista de ingeniería. Se centra en la definición de una arquitectura para la representación del
conocimiento léxico en sistemas PLN, representación que abarca los diferentes niveles del conocimiento (morfológico, sintáctico, semántico, etc.) y las interrelaciones entre ellos, al tiempo que permite la construcción incremental de recursos
léxicos y su organización modular. La arquitectura define un modelo estructural, que a su vez puede verse en dos niveles -conceptual y físico-, y un modelo funcional, a través de sus interfaces con otros componentes de un sistema de PLN.
Para facilitar la construcción de recursos léxicos conformes con la arquitectura propuesta, se define también un formalismo para la representación del conocimiento léxico, denominado ARIES-II. Este formalismo emplea estructuras de rasgos como
mecanismo de representación básica e incorpora características adicionales, como herencia de atributos, para lograr una representación eficiente y compacta. MODELADO ESTADISTICO Y CONEXIONISTA PARA RECONOCIMIENTO DE LOCUTORES CON APRENDIZAJE DE LA
VARIABILIDAD TEMPORAL DEL HABLA. Autor: RUIZ MEZCUA BELEN. Año: 1998. Universidad: POLITECNICA DE MADRID. Centro de lectura: INGENIEROS DE TELECOMUNICACION.
Resumen: La tesis es un estudio y evaluación de algunos de los sistemas de reconocimiento de locutores actuales para diseñar una propuesta de sistema de verificación de locutor que funcione en un entorno real. Para ello se define una plataforma
de experimentación y se generan unas bases de datos para el análisis y evaluación de los sistemas. En este marco se evalua la degradación temporal del funcionamiento de los reconocedores y se implanta una nueva estrategia de aprendizaje de la
variabilidad temporal del habla a través del entrenamiento. También se propone un nuevo sistema de verificación basado en redes neuronales del tipo ART. Finalmente se propone un esquema de verificación de locutores en el que la clave es reconocida a
través de un sistema de reconocimiento del habla.
| 64 tesis en 4 páginas: 1 | 2 | 3 | 4 |
|
|
|