Indización semántica de textos

Mi compañera de Departamento, Carmen Isasi, me ha propuesto esta mañana un “desafío intelectual” 😉 que encaja directamente con un tema que me tiene ocupado desde hace un tiempo. Ella lo plantea como una tarea dentro de un proyecto de edición digital, relacionada con la indización de textos de un corpus anotado.

Indices temáticos

La idea entronca con un proyecto de búsqueda semántica en el que colaboré con las empresas de tecnología semántica (¿o lingüística?) EmergiaTech y Thera-Clic, y en el que tuvo un papel destacado Koldo Garai. Tiene que ver también con una consultoría que he realizado hace poco para la empresa Alianzo.

En el primer caso se utilizaba un reconocedor de entidades nombradas de Thera-Clic y la red léxica WordNet en español (también propiedad de esta empresa). En el segundo caso se utiliza la colección de herramientas lingüísticas FreeLing, a la que yo proponía añadir DBpedia, como base de datos (en realidad es una ontología) de entidades significativas precisamente para ampliar la cobertura del anotador.

Así que para el proyecto de Carmen se me ocurre que lo que hay que hacer es aplicar las metodologías de los sistemas de reconocimiento de entidades nombradas (o citadas). Posiblemente podamos recurrir a FreeLing, aunque inicialmente tal vez baste con unas primeras listas hechas a manos. ¿Dónde he visto yo una clasificación de entidades…?

Un segundo aspecto sobre el que Carmen me ha pedido colaboración es en la indización de los textos por campos semánticos, en concreto por política y religión. Esta cuestión tiene otro enfoque y resultará interesante consultar WordNet para estas temáticas, aunque posiblemente podamos crear nuestra propia red léxica a partir de los textos. En fin, que me estoy entreteniendo con la relectura de algunas referencias básicas.

One thought on “Indización semántica de textos”

rebeca November 30, 2009 at 8:22 pm

Con el fin de aumentar el acceso y la difusión de la producción científica de Iberoamérica, Redalyc ha implementado el protocolo OAI-MPH, poniendo a disposición más de 55000 registros para la comunidad de archivos abiertos. http://redalyc.uaemex.mx/

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Translema

Joseba Abaitua's blog on Language and Translation

Indización semántica de textos

One thought on “Indización semántica de textos”

Leave a Reply