260 likes | 561 Views
ANÁLISIS DOCUMENTAL DE INFORMACIÓN TEXTUAL. Tema 8 Documentación Informativa Licenciatura en Periodismo Universidad Carlos III de Madrid Curso 2004/2005. Índice. Introducción Problemas del lenguaje natural para la recuperación de información Efectos de los problemas del lenguaje natural
E N D
ANÁLISIS DOCUMENTAL DE INFORMACIÓN TEXTUAL Tema 8 Documentación Informativa Licenciatura en Periodismo Universidad Carlos III de Madrid Curso 2004/2005
Índice • Introducción • Problemas del lenguaje natural para la recuperación de información • Efectos de los problemas del lenguaje natural • Representación de los documentos: el análisis documental • Análisis documental: tipos • Análisis formal • Análisis de contenido: clasificación • Análisis de contenido: indización • Descriptores: ventajas e inconvenientes • Tipos de descriptores • Indización de textos periodísticos • Proceso de indización • Resumen
8.1.2.3.4.5.6.7.8.9.10.11.12.13 1. Introducción • Documentos textuales periodísticos: creados mediante un lenguaje natural • Centro de documentación: contiene gran cantidad de documentos representados mediante lenguaje natural • ¿Cómo recuperar en el futuro solo los documentos que necesitamos como respuesta a una petición de información?
8.1.2.3.4.5.6.7.8.9.10.11.12 .13 2. Problemas del lenguaje natural para la recuperación de información • Equivalencias de enunciados: • Los accionistas dan el sí al nuevo BBVA • Los accionistas aprueban la fusión del BBV y Argentaria • Dificultad para generalizar • Ejemplo: buscar documentos relacionados con Andalucía • ¿Cómo recuperar documentos relacionados con Sevilla, Córdoba o Palma del Río en los que no aparece el término Andalucía?
8.1.2.3.4.5.6.7.8.9.10.11.12 .13 2. Problemas del lenguaje natural para la recuperación de información • Dificultad de predicción en la coincidencia de los términos usados • Para la redacción de una información • Para su búsqueda posterior • Causada por el empleo de figuras lingüísticas (I): • Flexiones y variantes gramaticales: singular, plural, formas verbales, etc. • Variantes ortográficas del mismo término • Yushenko / Yushchenko / Yuschenko • Disquete / diskette. • Variantes idiomáticas: • Lérida / Lleida
8.1.2.3.4.5.6.7.8.9.10.11.12 .13 2. Problemas del lenguaje natural para la recuperación de información • Causada por el empleo de figuras lingüísticas (II): • Sinonimia: palabras con el mismo significado • Muy utilizada en el español y especialmente en prensa. • impuesto / tributo / contribución • Polisemia: diversidad de significaciones de una palabra. • planta (anatómica) / planta (industrial) / planta (botánica) • Homografía: palabras que siendo iguales por su forma tienen distinto origen y significado • banco (mobiliario urbano) / banco (entidad financiera)
8.1.2.3.4.5.6.7.8.9.10.11.12.13 3. Efectos de los problemas del lenguaje natural • Ruido: • Documentos que se recuperan • Pero no son relevantes (no interesan) para la búsqueda que realiza un usuario • Silencio: • Documentos que existen en la base de datos • Son relevantes (interesarían al usuario que busca información) • Sin embargo, no se recuperan • No ha habido coincidencia entre los términos que utilizó el periodista y los que luego utiliza el usuario que busca información
8.1.2.3.4.5.6.7.8.9.10.11.12.13 3. Efectos de los problemas del lenguaje natural Problema Efecto • Equivalencias de enunciados • Dificultad para generalizar • Dificultad para usar los mismos términos en la redacción y en la recuperación de información • Figuras lingüísticas: • Flexiones y variantes gramaticales • Variantes ortográficas del mismo término • Variantes idiomáticas • Sinonimia • Polisemia • Homonimia • Silencio / Ruido • Silencio • Ruido
8.1.2.3.4.5.6.7.8.9.10.11.12.13 4. Representación de los documentos: el análisis documental • ¿Cómo representar un documento para aumentar las posibilidades de que sea recuperado cuando corresponde? • Análisis documental • Lectura, síntesis y representación de un texto • Descripción mediante términos • Conjunto de términos usados para describir textos en un centro documental = lenguaje documental • Tipos de términos creados • Lenguaje libre: palabras clave • Lenguaje controlado: descriptores
8.1.2.3.4.5.6.7.8.9.10.11.12.13 5. Análisis documental: tipos • Dos tipos de análisis documental • Análisis formal • Sobre aspectos formales del documento • Control e identificación de los documentos que forman parte de una colección • Permite localizar físicamente un documento • Fases: catalogación y descripción documental • Análisis de contenido • Sobre aspectos de contenido del documento • Fases: clasificación, indización y resumen
8.1.2.3.4.5.6.7.8.9.10.11.12.13 6. Análisis formal • Descripción documental • Datos de localización física de cada documento • Autor, título, medio, página, fecha de publicación, tamaño... • Existencia de normas internacionales (ISBD) • Facilitan el intercambio de descripciones entre centros documentales • Centros de documentación periodísticos: suelen tener normas propias • Catalogación • Creación de un catálogo • Lista de los documentos que componen una colección • Definición de los puntos de acceso • Qué tipo de datos del documento pueden servir para localizarlo
8.1.2.3.4.5.6.7.8.9.10.11.12.13 6. Análisis formal • Productos de la catalogación: • Fichas principales • Contiene los datos necesarios para la localización de una obra descrita. • Fichas secundarias: • Acceso por coautores, materias, etc. • Fichas de referencia: analíticas, etc. • CATÁLOGOS • De autores, materias, títulos, diccionario, sistemático, topográfico, de adquisiciones, etc. • Normas comunes: ISBD • Permiten intercambio de productos • Ahorran esfuerzos al catalogar
8.1.2.3.4.5.6.7.8.9.10.11.12.13 7. Análisis de contenido: clasificación • Expresión general del contenido de un documento • Descripción básica de las materias • Mediante términos extraídos de un lenguaje documental (lenguaje de clasificación) • El lenguaje es • De estructura jerárquica • Sistemático • Consta de clases cerradas (que pueden tener subclases) • Expresadas mediante números y/o letras/palabras • Usos habituales: • Agrupar rápidamente los contenidos por materias • Organizar físicamente los contenidos en un centro de documentación • Ej.: CDU (Clasificación Decimal Universal)
8.1.2.3.4.5.6.7.8.9.10.11.12.13 8. Análisis de contenido: indización • Extracción de los términos que pueden expresar, describir o indicar los temas de los que trata un documento • Mediante un lenguaje de indización que • Tiene estructura combinatoria • Emplea diversos términos • Los términos pueden tener distintas relaciones entre sí (no solo de jerarquía). • Los términos del lenguaje de indización pueden: • Estar formado por términos libremente elegidos por los indizadores: palabras clave • Formar parte de un lenguaje controlado, previamente definido. • Los términos de ese lenguaje controlado se denominan descriptores
8.1.2.3.4.5.6.7.8.9.10.11.12.13 8. Análisis de contenido: indización • Tipos de lenguajes de indización: • Listados alfabéticos • De materias • De unitérminos (descriptor de una sola palabra) • De descriptores (pueden tener más de una palabra) • Tesauros • Abarcan un área temática concreta • Incluyen distintas relaciones entre términos • Jerárquicas • TG Documentación TE Documentación Informativa • Asociativas • Profesor TR Alumno • Preferenciales • Estudiante USE Alumno • Alumno UP Estudiante • Notas aclaratorias • TrabajosNA Incluidos en la parte teórica de la asignatura
8.1.2.3.4.5.6.7.8.9.10.11.12.13 9. Descriptores: ventajas e inconvenientes • Ventajas • Reducen los niveles de ruido y silencio • Permiten ampliar y especificar las búsquedas • Pasar a términos más específicos o relacionados • Inconvenientes • Coste alto en la creación y mantenimiento de los lenguajes • Dificultad de los usuarios para conocer el lenguaje documental y su uso
8.1.2.3.4.5.6.7.8.9.10.11.12.13 10. Tipos de descriptores • Descriptor unitérmino o simple • Representa un concepto mediante una sola palabra • CINE, OCIO, HIERRO, AUTOMOVIL • Descriptor sintagmático o compuesto • Representa un concepto utilizando más de una palabra (un sintagma nominal o preposicional) • COMUNICACION SOCIAL, PARTIDOS POLITICOS, MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.
8.1.2.3.4.5.6.7.8.9.10.11.12.13 10. Tipos de descriptores • Descriptor primario • Término o conjunto de términos que representan un concepto de manera unívoca. • Es significativo, relevante y no hay posibilidad de ambigüedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaración. • Descriptor secundario: • Necesita ir acompañado de otros descriptores para expresar un significado preciso • Ej: análisis, evaluación, concepto, teoría...
8.1.2.3.4.5.6.7.8.9.10.11.12.13 10. Tipos de descriptores • Descriptor temático • Representa cualquier contenido disciplinar. • Descriptor geográfico • Representa todo tipo de conceptos vinculados con lugares y sitios. • Descriptor onomástico • Representa un nombre de persona o de institución. • Descriptor cronológico • Representa períodos de tiempo o fechas.
8.1.2.3.4.5.6.7.8.9.10.11.12.13 11. Indización de textos periodísticos • En el caso de los textos periodísticos, aplicar las W’s • ¿Quién? • ¿Qué? • ¿Cuándo? • ¿Dónde? • ¿Por qué? • ¿Cómo?
8.1.2.3.4.5.6.7.8.9.10.11.12.13 12. Proceso de indización • Planteamiento de objetivos • ¿Cuál es el contexto de trabajo? • Conocimiento del contenido del documento. • Elección de conceptos a representar: • Selectividad: Retener aquellos conceptos sobre los cuales el documento aporta información susceptible de utilizar al usuario) • Exhaustividad: Todos los conceptos útiles deben ser extraidos). El criterio principal de selección es el valor potencial del concepto escogido como elemento de expresión del tema del documento de cara a su recuperación.
8.1.2.3.4.5.6.7.8.9.10.11.12.13 12. Proceso de indización • Verificación de la pertinencia (exactitud y utilidad) de los conceptos extraidos. • Traducción de los conceptos escogidos al lenguaje documental del sistema. • Los conceptos deberán traducirse por entradas del mismo nivel de especificidad o superior. • Si el concepto es compuesto y existe la opción deberá traducirse por una entrada compuesta. • Verificación de la pertinencia de los términos obtenidos • planteándolos como términos posibles de interrogación y valorando si el documento es pertinente • Formalización de la descripción si el sistema prevé algún tipo de regla
8.1.2.3.4.5.6.7.8.9.10.11.12.13 13. Resumen • Representación abreviada y precisa del contenido de un documento • Sin interpretación ni crítica • Sin mención expresa del autor del resumen • Tipos (I) • Resumen informativo: • Relación lógica y lineal de los temas tratados • Extensión de unas 100 a 300 palabras • A veces, puede ser sustituto del documento resumido • Resumen indicativo: • Breve y exacta representación del contenido de un documento • Indica de forma superficial los temas abordados • Extensión es de unas 50 palabra • Rara vez sustituye al documento resumido
8.1.2.3.4.5.6.7.8.9.10.11.12.13 13. Resumen • Tipos (II) • Resumen informativo-indicativo • Las partes principales están escritas con un estilo informativo • Aquellos aspectos de menor trascendencia son tratados de forma indicativa. • Resumen analítico • Indica la profundidad y extensión del trabajo • Evalúa la experimentación, la metodología, la importancia de la contribución al desarrollo del conocimiento, etc. • Es más un comentario que un resumen. Hay que dejar claro que incluimos nuestra opinión. • El título • Puede ser considerado un resumen, si refleja verdaderamente la esencia del contenido • Ocurre a veces en artículos de revistas científicas
Bibliografía • FUENTES I PUJOL, Mª Eulàlia. Manual de documentación periodística. Madrid: Síntesis, 1995. • GARCÍA GUTIÉRREZ, Antonio. Análisis documental: textos periodísticos escritos. En: En: García Gutiérrez, Antonio (Editor). Introducción a la documentación informativa y periodística. Sevilla: Editorial MAD, 1999 • HERNÁNDEZ, Tony: Tema 5: Análisis documental de la información impresa. 2001, http://rayuela.uc3m.es/~tony/pdmo/pdmotema5.htm [Acceso: 10/12/2004] • LANCASTER, Frederick W. El control de vocabulario en la recuperación de información. Valencia: Universitat de Valencia, 1995. 286 p. • VALLE GASTAMINZA, Félix del: Análisis y lenguajes documentales. 2004, http://www.ucm.es/info/multidoc/prof/fvalle/temaad.htm [Acceso: 1/12/2004] • -- Resumen analítico. http://www.ucm.es/info/multidoc/prof/fvalle/temaresumen.htm, 2004 [Acceso: 7/12/2004]