Cibernetia > Tesis doctorales
Google
Web www.cibernetia.com

Índice > CIENCIAS TECNOLOGICAS > TECNOLOGIA DE LOS ORDENADORES >

RECONOCIMIENTO Y SINTETIZACION DE HABLA, 3



64 tesis en 4 páginas: 1 | 2 | 3 | 4
  • MEJORA DE LA FRECUENCIA FUNDAMENTAL EN LA CONVERSION DE TEXTO A VOZ.
    Autor: VALLEJO PINTO JOSE ANGEL.
    Año: 1998.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION .
    Resumen: El principal objetivo de este trabajo ha sido, como su título indica la mejora de la frecuencia fundamental en la conversión de texto a voz, buscando no solo la obtención de un sistema que genere curvas de frecuencia fundamental de mayor calidad, sino también la definición de una metodología de trabajo que permita la obtención de modelos de entonación de nuevos locutores de forma sencilla y practicamente automática. El trabajo ha constado de las siguientes fases: 1) Definición y creación de una base de datos apta para el estudio de los fenómenos prosódicos. 2) Experimentación con redes neuronales como método de generación de curvas de frecuencia fundamental. Se ha centrado en la determinación y codificación de los parámetros más relevantes así como en la optimización de la topología y de los parámetros de entrenamiento de las redes neuronales utilizadas. 3) Concepción de un sistema de evaluación que permita la comparación de distintos sistemas de generación de curvas de frecuencia fundamental.
  • INFLUENCIA Y COMPENSACION DEL ENTORNO ACUSTICO EN SISTEMAS DE RECONOCIMIENTO AUTOMATICO DE LOCUTORES.
    Autor: GONZALEZ RODRIGUEZ JOAQUIN.
    Año: 1998.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Resumen: La tesis se centra en dos areas: en primer lugar se tratan de realizar sistemas robustos de identificacion y verificacion de locutores centrados especialmente en la compensación de la variabilidad en el habla del locutor debida tanto al uso de canales diferentes en las fases de entrenamiento y prueba del sistema como al paso del tiempo entre ambas fases; grabando para probar el sistema en condiciones realistas una base de datos de 100 locutores varones grabados en seis sesiones diferentes; tres en estudio y tres a traves del telefono. En segundo lugar se ha dedicado una gran atención a la influencia del entorno acustico mediante dos formas de tratar el problema en situaciones de ruido y reverberación, la primera usa la señal binaural (dos canales) a un procesador basado en inhibición colateral, para realizar tanto localización como separación de fuentes; la segunda mediante tecnicas de procesado en array y filtrado de Wiener para cancelar tanto el ruido difuso (incorrelado espacialmente) debido a la reverberación y el ruido coherente con alta correlación espacial.
  • MODELADO PREDICTIVO NO LINEAL DE LA SEÑAL DE VOZ APLICADO A CODIFICACION Y RECONOCIMIENTO DE LOCUTOR.
    Autor: FAUNDEZ ZANUY MARCOS.
    Año: 1998.
    Universidad: POLITECNICA DE CATALUÑA.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Resumen: La teoría de sistemas lineales permite usar un gran número de herramientas matemáticas, modelos, interpretaciones, etc. Por otra parte existen modelos determinísticos no lineales que pueden describir de forma muy sencilla el comportamiento de un gran número de fenómenos naturales extremadamente complicados. Sin embargo, no existe un conjunto de autofunciones universales en los sistemas no lineales, y por tanto no existe un equivalente del dominio frecuencial. Los sistemas no lineales pueden presentar una gran utilidad al modelar algunos sistemas físicos que tengan no linealidades. El uso de estos sistemas no lineales puede proporcionar ganancias marginales respecto a los lineales que justifican la complejidad asociada con su uso. Esta tesis pretende contribuir a la modelización no lineal de la señal de voz, como alternativa al análisis lineal clásico, en el cual se modela el tracto vocal mediante un filtro lineal. Entre las motivaciones que han llevado a cabo la realización de este estudio cabe destacar: 1. Múltiples autores han reportado la existencia de no linealidades en la producción de la señal de voz. Por Tanto, el uso de un modelo no lineal será más ajustado a la realidad que el análisis LPC clásico. De esta forma se evita el problema de "dejar fuera del análisis" informaciones presentes en la señal de voz, que contienen información útil para la mayoria de aplicaciones. 2. Algunos autores han destacado la mayor ganancia de predicción, menor energía de la señal residual de predicción, etc. al tratar con un modelo no lineal. Sin embargo, el número de aplicaciones en las que se han incorporado los modelos predictivos no lineales, es todavía muy pequeño. Este punto es especialmente importante, ya que de nada sirve tener un buen modelo si cuando se pretende aplicarlo, no se comporta satisfactoriamente. 3. Los modelos no lineales polinómicos (Volterra) pueden ser insatisfactorios. Requieren información a priori del fenómeno a modelar y tienen problemas de inversión. Una alternativa son los modelos basados en redes neuronales, en las que la información a priori del problema es pequeña y la inversión tiene garantizada la estabilidad. Las contribuciones de esta tesis están divididas en tres grandes bloques: a) Propuesta y estudio de un modelo predictivo no lineal basado en red neuronal. Para ello, se hace una breve revisión de los principales métodos existentes, y la selección razonada de las redes neuronales, y en concreto de un perceptrón multicapa. El estudio consiste en comparar sus prestaciones en diferentes entornos, con respecto a la predicción lineal. b) Propuesta y estudio de un codificador de forma de onda con predicción no lineal. En este apartado se estudian diversas configuraciones, que llevan a la propuesta de un codificador híbrido lineal/no lineal que supera a la predicción lineal entre 1 y 2.5 dB en la relación señal a ruido segmental (SEGSNR) para cuantificación adaptativa y tasa de bits de 16Kb/s a 40 Kb/s. c) Aplicación del modelado predictivo no lineal estudiado en la primera parte al reconocimiento de locutor basado en cuantificación vectorial. Para ello se propone un algoritmo de creación de un codebook de predictores no lineales, y un método de reconocimiento basado en cuantificación vectorial de predictores no lineales. La principal ventaja de esta nueva propuesta es la consideración de la señal de excitación (señal residual del análisis predictivo) de forma natural, mientras que en los trabajos clásicos esta señal se ignora, pese a haberse demostrado su contribución a la identificación de locutor. En este apartado se obtiene una mejora en las tasas de reconocimiento al combinar parametrización lineal y no lineal, con una reducción en las tasas de error de identificación del 5.26% al 3.16%. En cada una de las aplicaciones estudiadas se propone un algoritmo eficiente para reducir el coste computacional asociado a los modelos predictivos no lineales. Finalmente se extraen las conclusiones y se ofrece un amplio margen de posibilidades para continuar trabajando en el modelado predictivo no lineal aplicado a voz.
  • MODELADO ACUSTICO DE UNIDADES SUBLEXICAS MEDIANTE UNA APROXIMACIÓN BASADA EN METODOS ESTRUCTURALES-CONEXIONISTAS.
    Autor: CASTRO BLEDA M. JOSE.
    Año: 1998.
    Universidad: POLITECNICA DE VALENCIA.
    Centro de lectura: INFORMÁTICA.
    Centro de realización: FACULTAD DE INFORMÁTICA.
    Resumen: El reconocimiento automático de habla consiste, en su acepción más general, en la trasncripción de voz a texto. Es una de las áreas más importantes del aprendizaje automático, por la gran cantidad de aplicaciones que pude tener en todos los ámbitos de la vida cotidiana. A la vez, es una de las áreas que presenta mayor dificultad debido principalmente a la gran variabilidad del habla, de los locutores y de las tareas abordar. En las dos últimas décadas la comunidad científica ha invertido un enorme esfuerzo en este campo de investigación y se han diseñado sistemas que en la actualidad alcanzan alrededor de un 90% de procentaje de palabras correctamente reconocidas en tareas de dominio restringido. La metodología más utilizada a la hora de abordar este problema es la basada en la utilización de modelos ocultos de Markov. Recientemente se han propuesto modelos acústicos híbridos para tareas de reconocimiento automático del habla: sistemas basados en la combinación de modelos ocultos de Markov y redes neuronales. En este trabajo se investigan modelos híbridos de estas características y también se proponen otros sistemas que combinan autómatas inferidos con metodologías de inferencia gramatical con redes neuronales.
  • ESTUDIO Y MEJORA DE SISTEMAS DE RECONOCIMIENTO DE LOCUTORES MEDIANTE EL USO DE INFORMACION VERBAL Y ACUSTICA EN UN NUEVO MARCO EXPERIMENTAL .
    Autor: RODRIGUEZ LIÑARES LEANDRO.
    Año: 1998.
    Universidad: VIGO.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Centro de realización: E.T.S.E. TELECOMUNICACION.
    Resumen: Un sistema de reconocimiento de locutores intenta extraer la identidad de las personas a partir de la voz. En esta tesis, se plantea un marco de Experimentacion basado en una base de datos de probación propia (Telvoice) que permite la evolucion de sistemas. Sobre este marco propuesto, se explora tres sistemas considerados clasicos:Gulis, VQs y VIV. Para la mejora de estos sistemas se propone dos estrategias: -Introducir un clasificador de tramos en la fase de entrenamiento. -Cambiamos ambos sistemas para explotar la distinta naturaleza de la informacion utilizada. De las posibilidades propuestas, las mejores prestaciones han sido contenidos utilizando una perception simple.
  • TÉCNICAS DE MEJORA DE LA REPRESENTACIÓN EN LOS SISTEMAS DE RECONOCIMIENTO AUTOMÁTICO DE VOZ .
    Autor: TORRE VEGA ANGEL DE LA.
    Año: 1998.
    Universidad: GRANADA.
    Centro de lectura: CIENCIAS.
    Resumen: La presente tesis aborda el problema de la representación en los sistemas de reconocimiento de voz. En este trabajo se presentan y discuten diversas técnicas orientadas a mejorar la representación de la voz para el reconocimiento. Las técnicas propuestas se pueden situar en dos grupos: * Las primeras tratan de mejorar la capacidad discriminativa de la representación mediante la aplicación de transformaciones. Aunque estas técnicas no están diseñadas explícitamente para mejorar el rendimiento de los reconocedores en ruido, al incrementarse la capacidad discriminativa de la representación tienden a mejorar el rendimiento tanto en condiciones limpias como ruidosas. * Las técnicas del segundo grupo están diseñadas para adaptar la voz ruidosa a un entorno limpio de referencia. Dentro de este grupo se han desarrollado tanto técnicas que realizan una adaptación ciega (sin hacer consideraciones relativas al ruido) como técnicas que realizan la adaptación en base a un modelo del ruido. La tesis se ha organizado en tres grandes bloques. El primero de ellos presenta el problema del reconocimiento automático de voz y la representación de la voz. También incluye información general acerca de los experimentos realizados en esta tesis: bases de datos, sistemas de reconocimiento, tareas, etc. El siguiente bloque está dedicado a los métodos propuestos para mejorar la representación de la voz desarrollados en base a criterios discriminativos. El tercer bloque aborda el problema del reconocimiento de voz en ruido. Se analiza el problema del reconocimiento de voz contaminada: se propone y estudia un método ciego (sin consideraciones previas relativas al ruido) para compensar el ruido; también se propone un modelo para describir el ruido y se presenta un método para estimarlo; para concluir el bloque, se proponen y estudian varios métodos para compensar el ruido, haciendo uso del modlo. Finalmente, la tesis se cierra con un capítulo de conclusiones y trabajo futuro. La organización de la tesis responde al siguiente esquema: BLOQUE 1: Generalidades sobre reconocimiento de voz, representación y experimentos realizados: CAPÍTULO 1 El reconocimiento automático de voz. CAPÍTULO 2 La representación de la señal de voz. CAPÍTULO 3 Sistemas de reconocimiento bases de datos y tareas BLOQUE 2: Optimización de la representación con criterios discriminativos: CAPÍTULO 4 Extracción Discriminativa de Características CAPÍTULO 5 Selección Disciminativa de Características. BLOQUE 3: Reconocimiento de voz en ruido y compensación del ruido. CAPÍTULO 6 Reconocimiento de voz en ruido CAPÍTULO 7 Ecualización de histogramas para reconocimiento robusto de voz CAPÍTULO 8 Modelado y estimación del ruido CAPÍTULO 9 Compensación de la voz basada en el modelo de ruido Conclusiones y trabajo futuro
  • ESTUDIO Y REALIZACION DE UNA ARQUITECTURA JERARQUICA BIOINSPIRADA PARA EL RECONOCIMIENTO DEL HABLA.
    Autor: FERRANDEZ VICENTE JOSE MANUEL.
    Año: 1997.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INFORMATICA.
    Centro de realización: DEPARTAMENTO: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS PROGRAMA DE DOCTORADO: ARQUITECTURA Y TECNOLOGIA DE COMPUTADORES.
    Resumen: El tema de los sistemas automaticos para el reconocimiento del habla se encuentra en una ferviente actividad de desarrollo ya que las áreas donde estos sistemas tienen utilidad son muy variadas apareciendo cada día nuevos núcleos de aplicación. Se requiere que los sistemas que se construyan se independicen del usuario, que reconozcan un número elevado de palabras, que operen con lenguaje producido de forma natural y que se mantengan sus prestaciones en cualquier tipo de entorno. Actualmente, la orientación que se suele proponer para dar solución a estos aspectos consiste en la aplicación de determinados algoritmos, que proviene de áreas tandispares como el tratamiento de señal, los modelos probabilísticos o la Teoría de Gramáticas. La propuesta bio-inspirada que se desarrolla en la presente Tesis, aborda el problema del reconocimiento del habla de una manera análoga a como lo realiza el ser humano. Realiza el estudio previo de las señales de habla identificando los componentes frecuenciales básicos y que los caracterizan, además de definir ciertas combinaciones de patrones que darán lugar a las distintas categorias fonemáticas que constituiran un idioma dado.
  • AS: UN ASIC PARA LA VALORACION DE SECUENCIAS SILABICAS EN EL HABLA CONTINUA.
    Autor: MARTIN CANALES JOSE FRANCISCO.
    Año: 1997.
    Universidad: MALAGA.
    Centro de lectura: INFORMATICA.
    Centro de realización: DEPARTAMENTO: ELECTRONICA PROGRAMA DE DOCTORADO: TECNOLOGIA DE LA INFORMACION Y LAS COMUNICACIONES .
    Resumen: Partiendo de las bases fisiológicas de los mecanismos de producción silábica y tras el estudio del estado actual del conocimiento en algoritmos de extracción silábica, se plantea un nuevo alagoritmo basado en el concepto de Energía "Short-Time" denominado: Potencia-Promedio Muestreada. El estimador se desarrolla en una Arquitectura específica que además extrae los parámetros: No de sílabas y silencios emitidos y duración de sílabas y silencios. Finalmente, la arquitectura se presenta en un formato ASIC en tecnología de un micrómetro. El Sistema específico se presenta como solución para sistemas de análisis y codificación de voz y aplicaciones en Foniatría.
  • TRANSFORMADA WAVELET APLICADA A LA EXTRACCION DE INFORMACION EN SEÑALES DE VOZ.
    Autor: JANER GARCIA LEONARD.
    Año: 1997.
    Universidad: POLITECNICA DE CATALUÑA.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION .
    Resumen: En este trabajo se ha desarrollado una herramienta de análisis de señales de voz mediante Transformada Wavelet. Para ello, se han estudiado las principales formas de llevarla a cabo, y finalmente, se ha diseñado una solución siguiendo la escala Bark: que responde a la forma de actuar de las neuronas auditivas. El esquema propuesto basado sigue un análisis híbrido: multivoces-multiescalas. Para mantener la distribución lineal de las primeras cinco bandas de la escala Bark, hemos ajustado las primeras cinco bandas del sistema a un trabajo a escala fija, mediante cinco voces diferentes de la misma función wavelet madre: una gausiana modulada. El resto de bandas del sistema, con distribución logarítmica, se construyen por variaciones de escala. El modelo de análisis busca llevar a cabo una extracción de la energía de las señales a 17 bandas. Con este escalograma auditivo, se han desarrollado dos aplicaciones. La primera realiza una Estimación de la Frecuencia Fundamental de manera síncrona con la evolución del período de pitch en señales limpias de ruido. El objeto de dicha aplicación es el seguimiento de la velocidad de vibración de las cuerdas vocales en los sonidos sonoros. Para ello se lleva a cabo un análisis con las 6 primeras bandas del escalograma previamente presentado en un esquema de estimación de pitch híbrido. Empezamos trabajando en el dominio temporal con las 6 bandas en forma paralela extrayendo la posición de sus máximos de energía: se ha probado que dichos máximos mantienen la información de los instantes de cierre glótico. Para mejorar la detección de dichos instantes, se trabaja con un umbral de energía adaptativo y un algoritmo de confirmación de máximos que eliminará los errores de pérdidas accidentales de máximos relevantes o la inclusión de falsos máximos intermedios. Con la información de salida de las 6 bandas (6 estimaciones de la frecuencia de pitch), se junta toda esta información en un algoritmo que trabaja en el dominio de la frecuencia, para la estimación fianl. El algoritmo propuesto se ha evaluado sobre una base de datos, etiquetada de acuerdo a la información entregada por un laringograma. Los resultados han demostrado una buena competitividad del sistema frente a otros esquemas clásicos, o soluciones basadas en transformada wavelet binaria. La segunda de las aplicaciones busca la extracción de zonas de información relevante en señales de voz, para una parametrización no uniforme de las mismas, mediante técnicas wavelet y su posterior integración en un esquema de reconocimiento de díditos conectados. La parte novedosa del sistema es el parametrizador no uniforme: Tomarenos la información de cada una de las 17 bandas, y por un procedimiento de selección iterativo encontraremos los puntos de información relevante en la señal. El objetivo primordial del sistema es la obtención de parámetros característicos de la señal de voz, sólo en los instantes en los que ocurra algo que necesite ser parametrizado. El esquema de selección y parametrización ha mostrado sus cualidades, si bien puede necesitar algunas modificaciones a la hora de trabajar con vocabularios más amplios o condiciones más adversas de ruido.
  • AN APPLICATION OF PREDICTIVE NEURAL NETWORKS TO SPEECH RECOGNITION.
    Autor: FREITAG FELIX.
    Año: 1997.
    Universidad: POLITECNICA DE CATALUÑA.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
  • APORTACION A LOS METODOS DE ENTRENAMIENTO DE MODELOS DE MARKOV PARA RECONOCIMIENTO DE HABLA CONTINUA.
    Autor: FERREIROS LOPEZ JAVIER.
    Año: 1996.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Centro de realización: DEPARTAMENTO: INGENIERIA ELECTRONICA PROGRAMA DE DOCTORADO: CIRCUITOS Y SISTEMAS ELECTRONICOS INTEGRADOS.
    Resumen: LA TESIS DOCTORAL RECOGE EL ESTUDIO DE TECNICAS DE MODELADO ACUSTICO PARA SISTEMAS DE RECONOCIMIENTO AUTOMATICO DE HABLA. SE REALIZA UN ESTUDIO COMPARADO DE TECNICAS PARA LOS IDIOMAS INGLES Y CASTELLANO. PARA EL INGLES SE PRESENTAN RESULTADOS SOBRE LA BASE DE DATOS DE INGLES AMERICANO CONOCIDA COMO DARPA-RM. LOS EXPERIMENTOS PRESENTADOS PARA EL CASTELLANO SE BASAN EN UNA BASE DE DATOS MULTILOCUTOR (CUATRO LOCUTORES) RESULTADO DE LOS TRABAJOS DE TESIS. LAS TECNICAS DE RECONOCIMIENTO CONSIDERADAS SON LAS BASADOS EN LO MODELOS DENOMINADOS OCULTOS DE MARKOV (HMM). ESTUDIANDOSE TANTO LOS MODELOS DISCRETOS COMO LOS CONTINUOS. LOS EXPERIMENTOS REALIZADOS EN AMBOS CASOS Y TANTO PARA EL INGLES COMO PARA EL CASTELLANO SE VALIDAN CON TESTS DE SIGNIFICACION ESTADISTICA. LA TESIS RECOGE DIFERENTES TECNICAS DE ENTRENAMIENTO DE MODELOS Y ESTRATEGIAS DE RECONOCIMIENTO. SE ESTUDIAN Y PRESENTAN TECNICAS DE REDUCCION DE CARGA COMPUTACIONAL PARA EL PROCESO DE ENTRENAMIENTO. TAMBIEN SE CONSIDERAN TECNICAS DE AGRUPACION DE UNIDADES ACUSTICAS TIPO TRIFONEMAS. FINALMENTE, PARA EL CASO DE IDIOMA CASTELLANO SE ESTUDIAN TECNICAS DE INCLUSION DE PRONUNCIACIONES ALTERNATIVAS Y MODELADO CONTEXTUAL.
  • COMPRENSION DEL HABLA EN TAREAS SEMANTICAMENTE RESTRINGIDAS.
    Autor: BONAFONTE CAVEZ ANTONIO.
    Año: 1995.
    Universidad: POLITECNICA DE CATALUÑA.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION .
    Centro de realización: DEPARTAMENTO: TEORIA DE LA SEÑAL Y COMUNICACIONES PROGRAMA DE DOCTORADO: TEORIA DE LA SEÑAL Y COMUNICACIONES.
    Resumen: ESTE TRABAJO AFRONTA EL PROBLEMA DE LA COMUNICACION DE HOMBRE HACIA MAQUINA, TRATANDO CON EL RCONOCIMIENTO DEL HABLA Y CON LA COMPRENSION DEL LENGUAJE.EL SISTEMA DE COMPRENSION SE BASA EN LADEFINICION DE UN LENGUAJE SEMANTICO INTERMEDIO SECUENCIAL CON LA ELOCUCION. ESTA PROPIEDAD PERMITE DEFINIR EL PROBLEMA COMO EL DEDIVIDIR LA SEAL DE VOZ EN SEGMENTOS CON SIGNIFICADO SEMANTICO. SE HAN DESARROLLADO TECNICAS PARA MODELAS EL LENGUAJE SEMANTICO, PARA MODELAR CADA UNIDAD SEMANTICA Y PARA EL MODELADO ACUSTICO-FONETICO, ESTAS TECNICAS PUEDEN UTILIZARSE EN UN AMPLIO RANGO DE PROBLEMAS DE RECONOCIMIENTO DEL HABLA EL SISTEMA ES CAPAZ DE DESCODIFICAR EXACTAMENTE EL CONTENIDO SEMANTICO DE MAS DEL 80% DE LAS CONSULTAS. EL APRENDIZAJE DE LOS MODELOS ES INDEPENDIENTE DEL CORPUS DE EVALUACION TANTO EN LOS LOCUTORES COMO EN LOS CONTENIDOS SEMANTICOS Y FONETICOS. LA TECNICA DE BUSQUEDA EN HAZ, CONDUCIDA POR LOS DATOS, HACE QUE EL SISTEMA TENGA UN BAJO COSTE TANTO EN COMPUTO COMO EN LA MEMORIA.
  • APRENDIZAJE AUTOMATICO DE MODELOS K-EXPLORABLES ESTOCASTICOS EN RECONOCIMIENTO DEL HABLA.
    Autor: BORDEL GARCIA GERMAN.
    Año: 1995.
    Universidad: PAIS VASCO.
    Centro de lectura: CIENCIAS.
    Centro de realización: DEPARTAMENTO: ELECTRICIDAD Y ELECTRONICA PROGRAMA DE DOCTORADO: BIENIO 88-90.
    Resumen: EL PRESENTE TRABAJO TRATA SOBRE LA OBTENCION DE MODELOS DEL LENGUAJE BAJO UNA OPTICA CONCRETA. POR UN LADO SE TRATA DE MODELOS ESTOCASTICOS, ES DECIR, QUE DETERMINAN LA PROBABILIDAD DE QUE UNA PALABRA DEL VOCABULARIO PROPIO DEL LENGUAJE OCUPE UNA POSICION DADA EN EL DISCURSO EN FUNCION DEL RESTO DEL MISMO. POR OTRO LADO, FRENTE AL ENFOQUE CONOCIDO COMO "BASADO EN EL CONOCIMIENTO" O ENFOQUE DEDUCTIVO, SE APLICA LO QUE SE CONOCE COMO "APRENDIZAJE AUTOMATICO" O ENFOQUE INDUCTIVO. DESDE LOS COMIENZOS DE LA APLICACION DE ESTE ENFOQUE SE VIENEN UTILIZANDO LO QUE SE CONOCE COMO "N-GRAMAS", SIN EMBARGO DESDE HACE ALGUN TIEMPO SE CONSIDERA QUE LA UTILIZACION DE TECNICAS DE INFERENCIA DE GRAMATICAS ESTOCASTICAS PROPORCIONA UN PLANTEAMIENTO MAS AMPLIO DEL PROBLEMA. RECIENTEMENTE SE HA DEMOSTRADO QUE LAS TECNICAS DE INFERENCIA DE GRAMATICAS PERMITEN OBTENER COMO CASO PARTICULAR MODELOS DE N-GRAMAS YA QUE ESTOS COINCIDEN CON LOS GENERADOS PARA LOS LENGUAJES CONOCIDOS COMO K-EXPLORABLES EN SENTIDO ESTRICTO (K-EE), ELEMENTO CENTRAL EN ESTE TRABAJO. LA MEMORIA COMIENZA ENMARCANDO LA MODELIZACION DEL LENGUAJE (ML) DENTRO DEL RECONOCIMIENTO AUTOMATICO DEL HABLA (RAH) PARA PASAR A CONTINUACION A HACER UNA REVISION SOBRE ML POR METODOS DE APRENDIZAJE AUTOMATICO. EN TODO MOMENTO SE EXPLICITA COMO ENCAJA LA TECNICA CLASICA DE "N-GRAMAS" EN CADA UNA DE LAS DEMAS. SITUANDOLOS EN EL LUGAR QUE LES CORRESPONDE DENTRO DE ESTA REVISION, SE FORMALIZA UN MODELO GRAMATICAL PARA LOS LENGUAJES K-EE Y SE HACE UN ESTUDIO EXPERIMENTAL SOBRE SUS CARACTERISTICAS ESTRUCTURALES. POSTERIORMENTE SE REALIZA UN ANALISIS DE LA PROBLEMATICA DE LA ESTIMACION DE PROBABILIDADES EN LOS MODELOS, ORIGINADA POR LA FINITUD DE TODO CORPUS DE MUESTRAS. SE PRESENTAN LAS SOLUCIONES QUE SE ENCUENTRAN EN LA BIBLIOGRAFIA (LOS METODOS DE SUAVIZADO) PARA PASAR A LA PRESENTACION DE UN ESTUDIO EXPERIMENTAL DE LAS CARACTERISTICAS DE LAS DISTRIBUCIONES DE PROBABILIDAD DE LOS MODELOS PARA LENGUAJES K-EE. A CONTINUACION SE PROPONEN Y ANALIZAN METODOS ALTERNATIVOS DE SUAVIZADO PARTIENDO DEL MEJOR METODO CONVENCIONAL VISTO EN EL CAPITULO ANTERIOR Y ELIMINANDO SUS INCONVENIENTES CON EL OBJETIVO DE INCLUIRLOS EN LA ESTRUCTURA DEL FORMALISMO PARA LOS LENGUAJES K-EE ESTABLECIDO ANTERIORMENTE. POR ULTIMO SE INTEGRA EN UN MODELO UNICO DE TIPO GRAMATICAL LAS NUEVAS TECNICAS DE SUAVIZADO DANDO LUGAR A MODELOS DE LENGUAJE DE FACIL APLICACION EN RAH QUE SE HAN DENOMINADO MODELOS K-EES. PARA ESTABLECER ESTE TIPO DE MODELOS SE HA DEFINIDO UN NUEVO TIPO DE AUTOMATAS DE ESTADOS FINITOS DETERMINISTAS (AEFD) QUE SE HAN DENOMINADO AEFDTR (AEFD CON TRANSICIONES RECURSIVAS). PARA LOS MODELOS K-EES SE ABORDAN ASPECTOS COMPUTACIONALES Y SE ANALIZA SU COMPOSICION Y EL EFECTO DE UNA "PODA" SOBRE SU COMPLEJIDAD Y CALIDAD.
  • SISTEMAS DE RECONOCIMIENTO DE HABLA CONTINUA Y AISLADA: COMPARACION Y OPTIMIZACION DE LOS SISTEMAS DE MODELADO Y PARAMETRIZACION.
    Autor: CORDOBA HERRALDE RICARDO DE.
    Año: 1995.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Centro de realización: DEPARTAMENTO: INGENIERIA ELECTRONICA PROGRAMA DE DOCTORADO: CIRCUITOS Y SISTEMAS ELECTRONICOS INTEGRADOS.
    Resumen: EL OBJETIVO DE LA PRESENTE TESIS ES TRATAR DE DOMINAR TODA UNA SERIE DE TECNICAS CON LAS QUE MEJORAR EL MODELADO Y PARAMETRIZACION DE DOS SISTEMAS DE RECONOCIMIENTO DE HABLA, UNO DE HABLA CONTINUA Y OTRO DE HABLA AISLADA, INDEPENDIENTE DEL LOCUTOR Y SOBRE LINEA TELEFONICA. LOS PUNTOS BASICOS QUE SE HAN TRATADO SON: PARAMETRIZACION: SE HA TRABAJADO EN LA MANERA DE CARACTERIZAR EL ESPECTRO DE LA SEÑAL DE VOZ. SE HAN INTRODUCIDO DISTINTAS MANERAS DE REALIZAR UN FILTRADO DE DICHOS VALORES PARA CONSEGUIR QUE SEAN ROBUSTOS FRENTE AL RUIDO TELEFONICO. TIPO DE MODELADO: SE HA TRABAJADO CON TRES TIPOS DE MODELADO: DISCRETO, CONTINUO Y SEMICONTINUO. EN ESTE ULTIMO SE HA INTRODUCIDO UNA TECNICA DE PRESELECCION CON LA QUE REDUCIR EL TIEMPO DE CALCULO SIN PERDER TASA DE RECONOCIMIENTO. UNIDAD DE MODELADO: SE HAN ESTUDIADO DISTINTAS POSIBILIDADES EN NUESTROS DOS SISTEMAS: PALABRA, FONEMA, TRIFONEMA GENERALIZADO Y AGRUPAMIENTO A NIVEL DE ESTADO. DETECCION DE PRINCIPIO Y FIN: SE HA INTRODUCIDO UNA TECNICA BASADA EN UNA RED NEURONAL CON LA QUE SE DISCRIMINA SEÑAL Y RUIDO. ASIMISMO, UTILIZANDO MODELOS DE RUIDO INICIAL Y FINAL COMUNES A TODOS LOS MODELOS SE HA CONSEGUIDO ABSORBER LAS TRAMAS DE RUIDO.
  • MODELADO ACUSTICO Y TEORIAS DE ADAPTACION MAXIMO A POSTERIORI (MAP) PARA RECONOCIMIENTO DE HABLA CONTINUA EN CASTELLANO.
    Autor: ALVAREZ CERCADILLO JOSE JORGE.
    Año: 1994.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Centro de realización: DEPARTAMENTO: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES PROGRAMA DE DOCTORADO: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES.
    Resumen: SE EXPLICA COMO SE HA DESARROLLADO UN RECONOCEDOR DE HABLA CONTINUA EN CASTELLANO QUE DISPONE DE MECANISMOS DE MEJORA DE PRESTACIONES UTILIZANDO UNIDADES DEPENDIENTES DEL CONTEXTO Y AJUSTE DEL SISTEMA AL LOCUTOR. ESTE AJUSTE SE DISCUTE CON EL USO DE DOS METODOS. EL DE MAXIMA VEROSIMILITUD Y EL DE MAXIMO A POSTERIORI (MAP) QUE NECESITA MENOR CANTIDAD DE DATOS DE ENTRENAMIENTO. SE DESARROLLA UN ALGORITMO DE ENTRENAMIENTO BAYESIANO BASADO EN EL CRITERIO MAP ENTRENANDOSE CON EL UNIDADES ADAPTADAS AL CONTEXTO Y UNIDADES ADAPTADAS AL LOCUTOR, CONCLUYENDO UN MEJOR FUNCIONAMIENTO DEL RECONOCEDOR CUANDO SE DISPONE DE UNA BASE DE DATOS REDUCIDA, ADEMAS DE INCLUIR LA POSIBILIDAD DE INCORPORAR NUEVOS DATOS DE ENTRENAMIENTO DE MANERA INCREMENTAL.
  • ANALISIS COMPARATIVO DE TRES TECNICAS DE RECONOCIMIENTO DE PATRONES APLICADO A UN PROBLEMA DE RECONOCIMIENTO DE HABLA.
    Autor: LLAMAS BELLO CESAR.
    Año: 1994.
    Universidad: VALLADOLID.
    Centro de lectura: CIENCIAS .
    Centro de realización: DEPARTAMENTO: INFORMATICA PROGRAMA DE DOCTORADO: TECNOLOGIAS DE LA INFORMACION .
    Resumen: EN ESTA TESIS SE PLANTEA LA APLICACION DE TRES TECNICAS DE RECONOCIMIENTO DE PATRONES COMO SON: LA TECNICA DE ALINEAMIENTO TEMPORAL. NO LINEAL, REDES NEURONALES ARTIFICIALES Y MODELOS OCULTOS DE MARKOV. SE RESUELVE EL USO DE ESTAS TECNICAS AL PROBLEMA DE RECONOCIMIENTO DE PALABRAS AISLADAS INDEPENDIENTE DE LOCUTOR.
  • CONTRIBUCION AL RECONOCIMIENTO DEL HABLA CON REDES NEURONALES Y ALGORITMOS DE PROGRAMACION DINAMICA.
    Autor: MENENDEZ PIDAL SENDRAIL XAVIER.
    Año: 1994.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION.
    Centro de realización: DEPARTAMENTO: INGENIERIA ELECTRONICA PROGRAMA DE DOCTORADO: CIRCUITOS Y SISTEMAS ELECTRONICOS INTEGRADOS.
    Resumen: LA TESIS ANALIZA LAS VENTAJAS Y LA PROBLEMATICA EXISTENTE EN LOS SISTEMAS DE RECONOCIMIENTO DEL HABLA QUE INCLUYEN UNA RED NEURONAL DE TIPO MLP. LAS VENTAJAS DE ESTOS SISTEMAS SON SU BAJO COSTE EN RECONOCIMIENTO Y LA GRAN COMPRENSION DE INFORMACION REALIZADA. SU MAYOR INCONVENIENTE SON SU ALTISIMO COSTE DE ENTRENAMIENTO O DESARROLLO. EN LA TESIS SE DESCRIBEN NUEVAS TECNICAS DE MODELADO MIXTO NEURONAL Y DE PROGRAMACION DINAMICA QUE REDUCEN DRASTICAMENTE EL COSTE DE DESARROLLO. TAMBIEN SE PLANTEA TECNICAS DE COMPRENSION DE LA INFORMACION QUE REDUCEN EL COSTE DE RECONOCIMIENTO Y SE ANALIZAN DISTINTAS ARQUITECTURAS NEURONALES MAS APTAS PARA TAREAS DE RECONOCIMIENTO DE HABLA. SE HAN REALIZADO TRES SISTEMAS DE RECONOCIMIENTO DE HABLA. UN PRIMER SISTEMA DE DIGITOS AISLADOS INDEPENDIENTES DEL LOCUTOR; UN SISTEMA DE HABLA AISLADA DE VOCABULARIO DE MEDIO A GRANDE; Y UN SISTEMA DE RECONOCIMIENTO DE HABLA CONTINUA PARA VOCABULARIO MEDIO-GRANDE.
  • APRENDIZAJE DE MODELOS SEMANTICOS PARA SISTEMAS DE COMPRENSION DEL HABLA.
    Autor: PRIETO SAEZ NATIVIDAD.
    Año: 1994.
    Universidad: POLITECNICA DE VALENCIA.
    Centro de lectura: INFORMATICA.
    Centro de realización: DEPARTAMENTO: SISTEMAS INFORMATICOS Y COMPUTACION PROGRAMA DE DOCTORADO: RECONOCIMIENTO DE FORMAS E INTELIGENCIA ARTIFICIAL.
    Resumen: EN ESTE TRABAJO SE ABORDA LA PROBLEMATICA DE LA COMPRENSION DEL LENGUAJE HABLADO BAJO EL ENFOQUE DE UN PROBLEMA DE TRADUCCION O DECODIFICACION ACUSTICO-SEMANTICA. DESDE ESTE PUNTO DE VISTA, SE PLANTEA EL DESARROLLO DE UN SISTEMA DE COMPRENSION DIRIGIDO POR LAS RESTRICCIONES SEMANTICAS (UNIVERSO DE DISCURSO), EN EL QUE NO SE IMPONEN RESTRICCIONES SINTACTICAS NI LEXICAS EXPLICITAS, CARACTERISTICA PARTICULARMENTE UTIL EN EL TRATAMIENTO DEL LENGUAJE HABLADO. EL SISTEMA QUE SE PROPONE ACEPTA COMO ENTRADA FRASES (HABLADAS O ESCRITAS) DE UN CIERTO LENGUAJE Y PROPORCIONA COMO SALIDA (UNA DESCRIPCION DE) EL CONJUNTO DE ACCIONES REQUERIDAS POR EL USUARIO. TIENE COMO CARACTERISTICA MAS DESTACADA QUE TODOS LOS NIVELES MODELOS DE CONOCIMIENTO QUE SE INTEGRAN O PARTICIPAN EN EL PROCESO DE COMPRENSION SON APRENDIDOS DE FORMA AUTOMATICA A PARTIR DE DATOS. EN PARTICULAR, SE ESTUDIA LA VIABILIDAD DE REALIZAR UN APRENDIZAJE AUTOMATICO DE LOS MODELOS PARA DESCRIBIR LOS NIVELES SINTACTICO Y/O SEMANTICO DEL LENGUAJE DE LA APLICACION OBJETO DE ESTUDIO. EN CONCRETO, SE PROPONE UTILIZAR EL METODO DE INFERENCIA GRAMATICAL BASADO EN CORRECCION DE ERRORES ECGI (DEL INGLES ERROR CORRECTING GRAMMATICAL INFERENCE) COMO METODO DE APRENDIZAJE DE MODELOS DE LENGUAJE. SE TRATAN APLICACIONES ESPECIFICAS DE HABLA CONTINUA DEFINIDAS EN DOMINIOS SEMANTICOS RESTRINGIDOS. AUNQUE EL ALCANCE DE ESTAS APLICACIONES NO ES EXCESIVAMENTE AMBICIOSO, EL LEXICO Y SINTAXIS NO ESTAN RESTRINGIDOS. SE ASUME QUE LAS RESTRICCIONES SEMANTICAS PUEDEN UTILIZARSE CONVENIENTEMENTE PARA OBTENER SISTEMAS SENCILLOS Y CON PRESTACIONES PROXIMAS A LAS REQUERIDAS PARA UNA COMUNICACION ORAL VERDADERAMENTE UTIL.
  • RECONOCIMIENTO AUTOMATICO DEL HABLA MEDIANTE REDES NEURONALES Y TECNICAS HIBRIDAS.
    Autor: MONTE MORENO ENRIQUE.
    Año: 1991.
    Universidad: POLITECNICA DE CATALUÑA.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION .
    Centro de realización: ESCUELA TECNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACION; DEPARTAMENTO DE TEORIA DE LA SEÑAL Y COMUNICACIONES.
    Resumen: EN ESTE TRABAJO SE ESTUDIA EL USO DE LAS REDES NEURONALES PARA EL RECONOCIMIENTO DEL HABLA. EN PARTICULAR SE PROPONEN DOS ARQUITECTURAS: UNA CONSISTE EN USAR UN PERCEPTRON MULTICAPA COMO CLASIFICADOR ESTATICO, PRECEDIDO DE UNA ALIENAMIENTO TEMPORAL, LA OTRA ARQUITECTURA CONSISTE EN LA REALIZACION DE UN SISTEMA HIBRIDO EN EL QUE INTEGRAN LOS MODELOS OCULTOS DE MARKOV CON DOS TIPOS DE REDES NEURONALES. ADEMAS EN ESTE TRABAJO HEMOS DESARROLLADO UN ALGORITMO PARA ACELERAR EL "BACK PROPAGATION" BASADO EN NORMALIZAR EL PASO DE ADAPTACION EN FUNCION DEL INVERSO DE LA ENERGIA DE LA ENTRADA DE CADA UNIDAD. TAMBIEN HEMOS DESARROLLADO UN ALGORITMO PARA ALISAR LOS MODELOS OCULTOS DE MARKOV.
  • PROCESAMIENTO EN PARALELO PARA RECONOCIMIENTO DEL HABLA.
    Autor: ALEXANDRES FERNANDEZ SADOT.
    Año: 1990.
    Universidad: POLITECNICA DE MADRID.
    Centro de lectura: INGENIEROS DE TELECOMUNICACION .
    Centro de realización: DEPARTAMENTO: DE INGENIERIA ELECTRONICA PROGRAMA DE DOCTORADO: CIRCUITOS Y SISTEMAS INTEGRADOS.
    Resumen: SE PRESENTA UN ESTUDIO, EL PLANTEAMIENTO Y EVALUACION DE UNA ARQUITECTURA MULTIPROCESADOR DE MEMORIA DISTRIBUIDA APLICADA AL RECONOCIMIENTO DEL HABLA EN TIEMPO REAL. SE EXPONEN DOS MODELOS COMPUTACIONALES: UN MODELO DE PROCESAMIENTO EN FARM (MF) Y UN MODELO DE PROCESAMIENTO DISTRIBUIDO (MD). SE EVALUAN PARA CADA UNO DE ELLOS SU BALANCE DE CARGA COMPUTACIONAL Y SU RENDIMIENTO EFECTIVO, CON DIFERENTES TOPOLOGIAS DE INTERCONEXION. LA EVALUACION APLICA LA METODOLOGIA DE MODELOS OCULTOS DE MARKOV (HMM), INTRODUCIENDO TECNICAS PARA LA REDUCCION DE COMPUTO DURANTE EL RECONOCIMIENTO, OBTENIENDO UN TIEMPO DE RESPUESTA DE 1.8 VECES EL TIEMPO REAL, CON UN VOCABULARIO DE 1.000 PALABRAS PRONUNCIADAS EN FORMA AISLADA CON UN NUMERO DE CUATRO PROCESADORES. EL RESULTADO Y APORTACION DE LA TESIS ES LA CONCEPCION DE UN SISTEMA CONVERSOR HABLA-TEXTO EN TIEMPO REAL.
64 tesis en 4 páginas: 1 | 2 | 3 | 4
Google
Web www.cibernetia.com
Manuales | Directorio | Tesis: Ordenadores, Circuitos integrados...
english
Cibernetia