Books
Técnicas de Análisis Sintáctico Robusto
para la
Etiquetación del Lenguaje Natural
Tesis Doctoral
J. Graña Gil
Resumen
El objetivo último que persigue el Procesamiento del Lenguaje
Natural es el perfecto análisis y entendimiento de los lenguajes
humanos. Actualmente, estamos todavía lejos de conseguir este
objetivo. Por esta razón, la mayoría de los esfuerzos de
investigación de la lingüística computacional han sido
dirigidos hacia tareas intermedias que dan sentido a alguna de las
múltiples características estructurales inherentes a los
lenguajes, sin requerir un entendimiento completo. Una de esas tareas
es la asignación de categorías gramaticales a cada una de las
palabras del texto. Este proceso se denomina también etiquetación.
La eliminación de ambigüedades es una tarea crucial durante el
proceso de etiquetación de un texto en lenguaje natural. Si tomamos
aisladamente, por ejemplo, la palabra sobre, vemos que puede
tener varias categorías posibles en español: sustantivo,
preposición o verbo. Sin embargo, si examinamos el contexto en el
que aparece dicha palabra, seguramente sólo una de ellas es posible.
Por otra parte, el interés se centra también en asignar una
etiqueta a todas aquellas palabras que aparecen en los textos, pero
que no están presentes en nuestro diccionario, y garantizar de
alguna manera que ésa es la etiqueta correcta. Un buen rendimiento
en esta fase asegura la viabilidad de procesamientos posteriores tales
como los análisis sintáctico y semántico.
Tradicionalmente, el problema de la etiquetación se aborda a partir
de recursos lingüísticos bajo la forma de diccionarios y textos
escritos, previamente etiquetados o no. Esta línea de desarrollo
se denomina lingüística basada en corpus. Dichos textos se
utilizan para ajustar los parámetros de funcionamiento de los
etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las
técnicas tradicionales engloban métodos estocásticos, tales como
los modelos de Markov ocultos, los árboles de decisión o los
modelos de máxima entropía, y también aproximaciones basadas
en reglas, tales como el aprendizaje de etiquetas basado en
transformaciones y dirigido por el error.
La mayoría de las herramientas basadas en estos paradigmas de
etiquetación resultan ser de propósito general, en el sentido de
que pueden ser aplicadas a textos en cualquier idioma. Ésta es una
idea muy atractiva, pero surge la duda de si un etiquetador diseñado
especialmente para una lengua dada puede ofrecer mejores rendimientos
o no. Por tanto, el primer objetivo del presente trabajo consiste en
implementar una nueva herramienta de etiquetación que permita
integrar información específica para el español, y
posteriormente realizar una evaluación exhaustiva de todos estos
modelos. Este estudio es de gran interés ya en sí mismo, dado
que los recursos lingüísticos disponibles para el español no
abundan, y por tanto existen todavía muy pocas cifras concretas
que proporcionen una idea clara del comportamiento de los
etiquetadores sobre nuestro idioma.
Aún con todo esto, un pequeño porcentaje de palabras etiquetadas
erróneamente (2-3%) es una característica que está siempre
presente en los sistemas de etiquetación puramente estocásticos.
Por esta razón, apoyamos la idea del uso de estos sistemas en
combinación con información sintáctica, esto es, con técnicas
de análisis sintáctico robusto, y éste es precisamente el
segundo de los objetivos del presente trabajo.
Cuando una frase es correcta, pero la gramática no es capaz de
analizarla, todavía es posible considerar los subárboles
correspondientes a los análisis parciales de fragmentos válidos de
la frase. El posterior estudio de estos subárboles puede ser
utilizado, por ejemplo, para completar la gramática, generando
automáticamente las reglas sintácticas necesarias para analizar la
frase. Éste es precisamente el objetivo más ambicioso del análisis
sintáctico robusto. En nuestro caso particular, resulta de especial
interés la consideración de las etiquetas de las palabras de
dichos subárboles como información adicional de apoyo para las
técnicas tradicionales de etiquetación. La estrategia consiste en
combinar esas subsecuencias de etiquetas para generar varias
etiquetaciones completas posibles de la frase en cuestión, y
posteriormente aplicar un filtro estadístico para elegir la
secuencia global más probable.