Peñas Padilla, Anselmo.

Técnicas lingüísticas aplicadas a la búsqueda textual multilingue : ambigüedad, variación terminológica y multilinguismo / Anselmo Peñas Padilla. - Alacant : Sociedad Española para el Procesamiento del Lenguaje Natural, 2004. - 220 p. - Monografías de la SEPLN ; 4 .

CONTENIDO
CAPITULO 1 INTRODUCCION 1
1.1 BARRERAS DEL LENGUAJE EN RECUPERACION DE INFORMACION 1
1.1.1 Ambig edad léxica 2
1.1.2 Variación morfosintáctica 2
1.1.3 Variación semántica 2
1.1.4 Variación transling e 3
1.2 SITUACIONES DE BUSQUEDA LIMITADAS POR LAS BARRERAS DEL LENGUAJE 4
1.2.1 Presupuestos de los modelos estándar de Recuperación de Información 4
1.2.2 Situaciones de imprecisión 4
1.3 TECNICAS AUTOMATICAS, TERMINOLOGIA Y ACCESO A LA INFORMACION 5
1.4 OBJETIVOS 8
1.5 ESTRUCTURA DEL TRABAJO 9
1.5.1 Parte I: ambig edad léxica e indexación conceptual 9
1.5.2 Parte II: acceso interactivo a la información mediante exploración de sintagmas 10
CAPITULO 2 PRELIMINARES 13
2.1 CONCEPTOS BASICOS 14
2.1.1 Recuperación de Información 14
2.1.2 Procesamiento de Lenguaje Natural en IR 21
2.1.3 Recuperación transling e de información 25
2.2 INDEXACION DE SINTAGMAS EN IR 28
2.3 AMBIGUEDAD LEXICA EN IR 31
2.4 EXPLORACION DE TERMINOS EN EL ACCESO A LA INFORMACION 34
2.4.1 Jerarquías temáticas 34
2.4.2 Exploración mediante listas y tesauros 35
2.4.3 Agrupación automática de documentos en clases anidadas 38
2.4.4 Jerarquías de subsunción 38
2.4.5 Expansión de la consulta mediante sintagmas 39
2.4.6 Navegación por sintagmas clave 39
2.4.7 Jerarquías de sub-sintagmas 40
2.5 CONCLUSIONES 41
2.5.1 Indexación con técnicas ling ísticas 41
2.5.2 Exploración de términos 42
CAPITULO 3 EXPERIMENTOS EN AMBIGUEDAD LEXICA E INDEXACION 45
3.1 LA COLECCION DE PRUEBA IR-SEMCOR 46
3.2 AMBIGUEDAD MORFOSINTACTICA EN RECUPERACION DE INFORMACION 48
3.2.1 Definición del experimento 48
3.2.2 Realización del experimento y resultados 48
3.2.3 Conclusiones 50
3.3 INDEXACION DE SINTAGMAS EN RECUPERACION DE INFORMACION 50
3.3.1 Definición del experimento 51
3.3.2 Realización del experimento y resultados 52
3.3.3 Conclusiones 53
3.4 DISTINCION DE COMPUESTOS LEXICOS EN IR 54
3.4.1 Tipos de compuestos léxicos 54
3.4.2 Propuesta de clasificación automática de compuestos léxicos mediante WordNet 55
3.4.3 Propuesta de distinción de compuestos léxicos en Recuperación de Información 63
3.4.4 Definición del experimento 65
3.4.5 Realización del experimento y resultados 66
3.4.6 Conclusiones 67
3.5 SYNSETS DE VARIANTES MONOSEMICAS 68
3.5.1 Definición de Synset de Variantes Monosémicas 68
3.5.2 Estadísticas en la colección de prueba ohsumed 69
3.5.3 Conclusiones 70
3.6 RECUPERACION MULTILINGUE BASADA EN INDEXACION CONCEPTUAL 70
3.7 VIABILIDAD DE UNA RECUPERACION BASADA EN INDEXACION CONCEPTUAL 71
3.7.1 Sensibilidad a los errores de desambiguación 72
3.7.2 Definición del experimento 72
3.7.3 Realización del experimento y resultados 72
3.7.4 Conclusiones 74
3.8 EL MOTOR DE BUSQUEDA ITEM 75
3.8.1 Traducción de la consulta mediante EuroWordNet 75
3.8.2 Indexación conceptual 76
3.8.3 Interfaz del buscador multiling e ITEM 77
3.8.4 Ejemplo de funcionamiento del buscador multiling e ITEM 80
3.8.5 Evaluación cualitativa 82
3.9 CONCLUSIONES 83
CAPITULO 4 ACCESO INTERACTIVO A LA INFORMACION MEDIANTE SINTAGMAS 85
4.1 INFERENCIA SOBRE SINTAGMAS 86
4.2 MODELO PROPUESTO DE INDEXACION 88
4.2.1 Indexación de sintagmas en IR 88
4.2.2 Extracción de sintagmas 90
4.2.3 Indexación de los documentos 101
4.2.4 Selección de sintagmas 101
4.2.5 Proceso de indexación 107
4.3 MODELO PROPUESTO DE RECUPERACION 107
4.3.1 Consulta 111
4.3.2 Preprocesamiento y lematización 117
4.4.1 Area de términos 119
4.4.2 Area de documentos 119
CAPITULO 5 WEBSITE TERM BROWSER 121
5.1 METODOLOGIA DE DESARROLLO 121
5.1.1 Colecciones de prueba 122
5.1.2 Elección de la arquitectura y entorno tecnológico 124
5.1.3 Determinación del contexto y alcance del sistema 125
5.1.4 Modelo lógico de datos 126
5.1.5 Comportamiento dinámico de la interfaz de usuario 127
5.2 EXTRACCION AUTOMATICA DE TERMINOLOGIA 127
5.2.1 Preparación de las colecciones 129
5.2.2 Detección de términos 131
5.2.3 Pesado de términos 134
5.2.4 Selección de términos 136
5.2.5 Evaluación 137
5.3 PRIMER PROTOTIPO 142
5.3.1 Interfaz del primer prototipo 142
5.3.2 Carencias detectadas en el primer prototipo 145
5.4 SEGUNDO PROTOTIPO 145
5.4.1 Desambiguación de la categoría gramatical 146
5.4.2 Expansión mediante EuroWordNet 146
5.4.3 Interfaz del segundo prototipo 147
5.4.4 Evaluación cualitativa 148
5.4.5 Carencias del segundo prototipo 149
5.5 TERCER PROTOTIPO 149
5.5.1 Mejora del coste computacional 149
5.5.2 Expansión de la consulta 150
5.5.3 Multiling ismo 150
5.5.4 Interfaz del tercer prototipo 151
5.5.5 Carencias del tercer prototipo 153
5.6 CUARTO PROTOTIPO 154
5.6.1 Incorporación de nuevos idiomas 154
5.6.2 Adaptación e incorporación de recursos 155
5.6.3 Interfaz del cuarto prototipo 155
5.6.4 Carencias del cuarto prototipo 156
5.7 QUINTO PROTOTIPO 157
5.7.1 Organización de los sintagmas 157
5.7.2 Recuperación de documentos mediante Google 158
5.7.3 Re-consulta con un sintagma 159
5.7.4 Registro de la interacción 159
5.7.5 Interfaz del quinto prototipo 160
CAPITULO 6 EVALUACION 165
6.1 DIFICULTADES EN LA EVALUACION DE LA INTERACTIVIDAD 166
6.2 EVALUACION DE LA UTILIDAD DEL AREA DE TERMINOS 167
6.2.1 Evaluación por comparación 167
6.2.2 Evaluación en entorno real de trabajo 167
6.2.3 Comparación con los sistemas de búsqueda de documentos 168
6.2.4 Juego de acciones disponibles para el usuario 168
6.2.5 Registro de la interacción de los usuarios 168
6.2.6 Secuencias de interacción más frecuentes 170
6.2.7 Características de los términos seleccionados 173
6.2.8 Uso de las acciones disponibles 174
6.2.9 Primeras acciones de la sesión 174
6.2.10 Últimas acciones de la sesión 175
6.3 EVALUACION DE LA RECUPERACION TRANSLINGUE DE TERMINOLOGIA 177
6.3.1 Evaluación cualitativa 178
6.3.2 Evaluación cuantitativa 179
6.3.3 Recuperación de términos mono-léxicos 181
6.3.4 Recuperación de términos poli-léxicos 182
6.3.5 Pérdida de cobertura 183
6.3.6 Precisión 185
6.4 SELECCION TRANSLINGUE DE DOCUMENTOS 189
6.5.2 Vía de acceso a un tesauro 189
CAPITULO 7 CONCLUSIONES 191
7.1 LINEAS FUTURAS DE TRABAJO 196
CAPITULO 8 BIBLIOGRAFIA 199
ANEXOS 207
ANEXO I: CONSULTAS DE SESIONES EN WTB QUE EMPIEZAN Y TERMINAN CON LA EXPLORACION DE UN SOLO DOCUMENTO 207
ANEXO II: CONSULTAS DE SESIONES EN WTB QUE EMPIEZAN CON LA EXPLORACION DE UN TERMINO Y A CONTINUACION TERMINAN CON LA EXPLORACION DE UN DOCUMENTO 216

8460802183


LENGUAJE EN RECUPERACION DE INFORMACION
RECUPERACION DE INFORMACION
BUSQUEDA DE INFORMACION
PROCESAMIENTO DE LENGUAJE NATURAL
RECUPERACION TRANSLINGUE
AMBIGUEDAD LEXICA
INDEXACION DE SINTAGMAS
MOTOR DE BUSQUEDA
MODELO DE INDEXACION
WEBSITE TERM BROWSER
TERMINOLOGIA

025.4 P389