Extracción de información (el caso DBpedia)

Esta semana arranca una nueva asignatura con un sugerente título, Information Management. En julio preparé la guía y ahora la estoy adaptando para las clases recogiendo la experiencia del semestre pasado (Web Communication) e introduciendo ideas que me han venido a la cabeza en las últimas semanas.Mapa conceptual

He usado una herramienta de mapas conceptuales para organizar (un poco) las ideas. Tal vez empiece por aquí en la introducción a la asignatura, por aquí y por el wiki.

Efectivamente, los mapas conceptuales son instrumentos que ayudan a organizar las ideas, pero, usados de manera informal, adolecen de varias limitaciones. Son, por ejemplo, imprecisos. Aunque son útiles para las personas, al menos para los autores (de los mapas), son inadecuados para la obtención mecánica de conocimiento, justamente por su informalidad. Porque es muy difícil representar las ideas, el conocimiento –de forma precisa– mediante la simple combinación de nodos y arcos. Abren muchos interrogantes, por ejemplo: ¿Qué significan los arcos? ¿Son los  nodos categorías equivalentes? ¿Cuántos arcos debo utilizar para relacionar los nodos?

Por eso disponemos de lenguajes más elaborados, dotados de semánticas más precisas con los que representar el conocimiento (para entender la diferencia entre datos, información y conocimiento ver la entrada de Barry Ritholtz, o este vídeo y sus metadatos).

Así, en el extremo opuesto de los mapas conceptuales (informales), tenemos las ontologías (formales). Voy a citar mi ontología favorita, en este momento DBpedia, y propongo para ilustrarla el nodo Mark Twain, cuya fuente principal de información, como todos los nodos de DBpedia, son los artículos de Wikipedia.

De los nodos de DBpedia llama la atención la composición de los datos. Todos los datos se relacionan entre sí de forma explícita, por medio de propiedades (arcos) predefinidos como birthDate, birthName, birthPlace, deathDate, author of, basedOn of, influenced of y otras muchas. De esta forma, la entrada (o nodo) Mark Twain de DBpedia se convierte en un mapa conceptual formal, pleno de contenido semántico y directamente disponible para su utilización por medios mecánicos.
Pero más relevante que su composición es el proceso seguido para obtenerlo, un método que explora Wikipedia y que es capaz de extraer datos relacionados no sólo de manera mecánica sino también “dinámica”  (cf. Hellman y otros en SrpingerACMBisonomyCiteUlikeJens Lehmann), lo cual es importante dado el permanente estado de actualización de Wikipedia.
Podemos inferir importantes consecuencias de ello:
  1. Disponemos de técnicas automáticas capaces de obtener información estructurada y semánticamente explícita a partir de fuentes textuales “vivas” (dinámicas y solo parcialmente estructuradas).
  2. Gracias a la utilización de relaciones semánticas predefinidas los datos estructurados pueden combinarse y complementarse de forma encadenada, creando grandes bases de conocimiento en cobertura y extensión (cf. proyecto de datos enlazados).
  3. En la medida en que otras fuentes textuales, además de Wikipedia, estén disponibles en formato abierto y con licencias que permitan su reutilización, podremos ir ampliando las bases de conocimiento, alcanzando áreas cada vez más especializadas o de mayor interés particular.
Desde este punto de vista  es especialmente significativo el movimiento que promueve la libre disposición y reutilización de publicaciones académicas Open Access, así como su homólogo en el ámbito institucional Open Data. Confluyen con estos movimientos las iniciativas de recolección de metadatos bibliográficos (vg. Construcció, Gestió I Manteniment De Biblioteques Digitals I Esquemes De Metadades). Pero en mi opinión mucho más trascendental que recolectar y agregar metadatos bibliográficos, va a ser en los próximos años extraer y agregar  la información (Heather Hopkins); y por encima de ello aportar nuevo valor mediante lo que se conoce como comisariado (en. curation) de contenidos (Sean Blanda).
Se trata en definitiva de extender el modelo Wikipedia a otros ámbitos y paralelamente aplicar técnicas de extracción y organización mecánicas de contenidos similares a las utilizadas en DBpedia.
Citas:

Hellmann, S.; Stadler, C.; Lehmann, J. & Auer, S. (2009), DBpedia Live Extraction, in ‘Proc. of 8th International Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE)’ , pp. 1209–1223 .

Heather Hopkins (2008, April 18) Analysis: Content Aggregation is King? EnExperian Hitwise, consultado el 2 de febrero de 2011 en http://weblogs.hitwise.com/us-heather-hopkins/2008/04/content_aggregation_is_king.html

Sean Blanda (2009, October 20), Curation: The end of content aggregation as we know it. En Emedia Vitals, consultado el 2 de febrero de 2011 en http://emediavitals.com/article/16/curation-end-content-aggregation-we-know-it.

Barry Ritholtz (2010, Decembe 1), Intelligence Hierarchy: Data, Information, Knowledge, Wisdom. Consultado 3 de febrero de 2011 http://www.ritholtz.com/blog/2010/12/hierarchy-of-visual-knowledge/.

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.