{"id":822,"date":"2011-02-03T09:01:27","date_gmt":"2011-02-03T08:01:27","guid":{"rendered":"https:\/\/preblogs.deusto.es\/abaitua\/?p=822"},"modified":"2014-10-02T07:46:28","modified_gmt":"2014-10-02T05:46:28","slug":"information-extraction","status":"publish","type":"post","link":"https:\/\/blogs.deusto.es\/abaitua\/information-extraction\/","title":{"rendered":"Extracci\u00f3n de informaci\u00f3n (el caso DBpedia)"},"content":{"rendered":"<p style=\"text-align: left;\">Esta semana arranca una nueva asignatura con un sugerente t\u00edtulo, <a href=\"http:\/\/wiki.littera.deusto.es\/en\/index.php\/Infoman1011\"><em>Information Management<\/em><\/a>. En julio prepar\u00e9 la gu\u00eda y ahora la estoy adaptando para las clases recogiendo la experiencia del semestre pasado (<a href=\"http:\/\/wiki.littera.deusto.es\/en\/index.php\/WCT1011\"><em>Web Communication<\/em><\/a>) e\u00a0introduciendo ideas que me han venido a la cabeza en las \u00faltimas semanas.<a href=\"https:\/\/blogs.deusto.es\/abaitua\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management.jpg\"><img fetchpriority=\"high\" decoding=\"async\" class=\"aligncenter size-full wp-image-827\" title=\"Web_Communication_Information_Management\" src=\"https:\/\/blogs.deusto.es\/abaitua\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management.jpg\" alt=\"Mapa conceptual\" width=\"1124\" height=\"308\" srcset=\"https:\/\/blogs.deusto.es\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management.jpg 1874w, https:\/\/blogs.deusto.es\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management-300x82.jpg 300w, https:\/\/blogs.deusto.es\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management-1024x280.jpg 1024w\" sizes=\"(max-width: 1124px) 100vw, 1124px\" \/><\/a><\/p>\n<p style=\"text-align: left;\"><!--more-->He usado una <a href=\"http:\/\/www.mindmeister.com\/maps\/show\/78125039\">herramienta de mapas conceptuales<\/a> para organizar (un poco) las <a href=\"https:\/\/blogs.deusto.es\/abaitua\/wp-content\/uploads\/sites\/9\/2011\/02\/Web_Communication_Information_Management.jpg\">ideas<\/a>. Tal vez empiece por aqu\u00ed en la introducci\u00f3n a la asignatura, por aqu\u00ed y por el <a href=\"http:\/\/wiki.littera.deusto.es\/en\/index.php\/Infoman1011\">wiki<\/a>.<\/p>\n<p>Efectivamente, los mapas conceptuales son instrumentos que ayudan a organizar las ideas, pero, usados de manera informal, adolecen de varias limitaciones. Son, por ejemplo, imprecisos. Aunque son \u00fatiles para las personas, al menos para los autores (de los mapas), son inadecuados para la <a href=\"http:\/\/scholar.google.es\/scholar?q=%22extracting+knowledge+from%22+%22mind+maps%22\">obtenci\u00f3n mec\u00e1nica de conocimiento<\/a>, justamente por su <em><a href=\"http:\/\/en.wikipedia.org\/wiki\/Formal_system\">informalidad<\/a>. <\/em>Porque es muy dif\u00edcil representar las ideas, el <a href=\"http:\/\/en.wikipedia.org\/wiki\/DIKW\">conocimiento <\/a>&#8211;de forma precisa&#8211; mediante la simple combinaci\u00f3n de nodos y arcos. Abren muchos interrogantes, por ejemplo: \u00bfQu\u00e9 significan los arcos? \u00bfSon los \u00a0nodos categor\u00edas equivalentes? \u00bfCu\u00e1ntos arcos debo utilizar para relacionar los nodos?<\/p>\n<p style=\"text-align: center;\"><a href=\"http:\/\/ukwebfocus.wordpress.com\/2010\/02\/19\/response-to-my-linked-data-challenge\/\"><img decoding=\"async\" class=\"aligncenter\" title=\"DBpedia\" src=\"http:\/\/www4.wiwiss.fu-berlin.de\/bizer\/pub\/lod-datasets_2009-07-14_colored.png\" alt=\"\" width=\"549\" height=\"412\" \/><\/a><\/p>\n<p>Por eso disponemos de lenguajes m\u00e1s elaborados, dotados de <a href=\"http:\/\/en.wikipedia.org\/wiki\/Semantics\">sem\u00e1nticas<\/a> m\u00e1s precisas con los que\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/Knowledge_representation_and_reasoning\">representar el conocimiento<\/a> (para entender la <a href=\"http:\/\/www.ritholtz.com\/blog\/2010\/12\/hierarchy-of-visual-knowledge\/\">diferencia entre datos, informaci\u00f3n y conocimiento<\/a> ver la entrada de\u00a0Barry Ritholtz,\u00a0o este <a href=\"http:\/\/vimeo.com\/2259558\">v\u00eddeo<\/a> y sus <a href=\"http:\/\/www.archive.org\/details\/InformationDeformation\">metadatos<\/a>).<\/p>\n<p>As\u00ed, en el extremo opuesto de los mapas conceptuales (informales), tenemos las\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/Ontology_(information_science)\">ontolog\u00edas<\/a> (formales). Voy a citar mi ontolog\u00eda favorita, en este momento\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/DBpedia\">DBpedia<\/a>, y propongo para ilustrarla\u00a0el nodo<a href=\"http:\/\/dbpedia.org\/page\/Michael_Ondaatje\"> <\/a><a href=\"http:\/\/dbpedia.org\/page\/Mark_Twain\">Mark Twain<\/a>, cuya fuente principal de informaci\u00f3n, como todos los nodos de DBpedia, son <a href=\"http:\/\/en.wikipedia.org\/wiki\/Mark_Twain\">los art\u00edculos de Wikipedia<\/a>.<\/p>\n<div id=\"_mcePaste\">De los nodos de DBpedia llama la atenci\u00f3n la composici\u00f3n de los datos. Todos los datos se relacionan entre s\u00ed de forma expl\u00edcita, por medio de propiedades (arcos) predefinidos como\u00a0<a href=\"http:\/\/dbpedia.org\/ontology\/birthDate\">birthDate<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/birthName\">birthName<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/birthPlace\">birthPlace<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/deathDate\">deathDate<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/author\">author of<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/basedOn\">basedOn of<\/a>, <a href=\"http:\/\/dbpedia.org\/ontology\/influenced\">influenced of<\/a> y\u00a0otras muchas. De esta forma, la entrada (o nodo) Mark Twain de DBpedia se convierte en un mapa conceptual formal, pleno de contenido sem\u00e1ntico y directamente disponible para su utilizaci\u00f3n por medios mec\u00e1nicos.<\/div>\n<div>Pero m\u00e1s relevante que su composici\u00f3n es el proceso seguido para obtenerlo, un m\u00e9todo que explora Wikipedia y que es capaz de <a href=\"http:\/\/en.wikipedia.org\/wiki\/Information_extraction\">extraer datos relacionados no s\u00f3lo de manera mec\u00e1nica<\/a> sino tambi\u00e9n &#8220;<a href=\"http:\/\/portal.acm.org\/citation.cfm?id=1693931\">din\u00e1mica<\/a>&#8221; \u00a0(cf.\u00a0Hellman y otros en\u00a0<a href=\"http:\/\/www.springerlink.com\/content\/g8k67p12q0225m1j\/\">Srpinger<\/a>,\u00a0<a href=\"http:\/\/portal.acm.org\/citation.cfm?id=1693931\">ACM<\/a>,\u00a0<a href=\"http:\/\/www.bibsonomy.org\/bibtex\/2a22290067cc8bea484ad64086f0ff8e3\/aksw?layout=din1505\">Bisonomy<\/a>,\u00a0<a href=\"http:\/\/www.citeulike.org\/user\/Scis0000002\/article\/7901578\">CiteUlike<\/a>,\u00a0<a href=\"http:\/\/jens-lehmann.org\/infopages\/rdf_extraction\">Jens Lehmann<\/a>), lo cual es importante dado el permanente estado de actualizaci\u00f3n de Wikipedia.<\/div>\n<div>Podemos inferir importantes consecuencias de ello:<\/div>\n<div>\n<ol>\n<li>Disponemos de t\u00e9cnicas autom\u00e1ticas capaces de obtener informaci\u00f3n estructurada y sem\u00e1nticamente expl\u00edcita a partir de fuentes textuales &#8220;vivas&#8221; (din\u00e1micas y solo <a href=\"http:\/\/en.wikipedia.org\/wiki\/Unstructured_data\">parcialmente estructuradas<\/a>).<\/li>\n<li>Gracias a la utilizaci\u00f3n de relaciones sem\u00e1nticas predefinidas los datos estructurados pueden combinarse y complementarse de forma encadenada, creando grandes bases de conocimiento en cobertura y extensi\u00f3n (cf. proyecto de\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/Linked_data\">datos enlazados<\/a>).<\/li>\n<li>En la medida en que otras fuentes textuales, adem\u00e1s de Wikipedia, est\u00e9n disponibles en formato abierto y con licencias que permitan su reutilizaci\u00f3n, podremos ir ampliando las bases de conocimiento, alcanzando \u00e1reas cada vez m\u00e1s especializadas o de mayor inter\u00e9s particular. <\/li>\n<\/ol>\n<\/div>\n<div>Desde este punto de vista \u00a0es especialmente significativo el movimiento que promueve la libre disposici\u00f3n y reutilizaci\u00f3n de publicaciones acad\u00e9micas <a href=\"http:\/\/en.wikipedia.org\/wiki\/Open_Access_movement\">Open Access<\/a>, as\u00ed como su hom\u00f3logo en el \u00e1mbito institucional <a href=\"http:\/\/en.wikipedia.org\/wiki\/Open_government\">Open Data<\/a>.\u00a0Confluyen con estos movimientos las iniciativas de recolecci\u00f3n de metadatos bibliogr\u00e1ficos (vg.\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/Open_Access_movement\"><em>Construcci\u00f3, Gesti\u00f3 I Manteniment De Biblioteques Digitals I Esquemes De Metadades<\/em><\/a>). Pero en mi opini\u00f3n mucho m\u00e1s trascendental que\u00a0recolectar y agregar metadatos bibliogr\u00e1ficos, va a ser en los pr\u00f3ximos a\u00f1os extraer y agregar\u00a0\u00a0la informaci\u00f3n\u00a0(<a href=\"http:\/\/weblogs.hitwise.com\/us-heather-hopkins\/2008\/04\/content_aggregation_is_king.html\">Heather Hopkins<\/a>); y por encima de ello\u00a0aportar nuevo valor mediante lo que se conoce como\u00a0<em><a href=\"http:\/\/emediavitals.com\/article\/16\/curation-end-content-aggregation-we-know-it\">comisariado<\/a><\/em> (en.\u00a0<em>curation<\/em>) de contenidos (<a href=\"http:\/\/emediavitals.com\/staff\/sean-blanda\">Sean Blanda<\/a>).<\/div>\n<div>Se trata en definitiva de extender el modelo Wikipedia a otros \u00e1mbitos y paralelamente aplicar t\u00e9cnicas de extracci\u00f3n y organizaci\u00f3n mec\u00e1nicas de contenidos similares a las utilizadas en DBpedia.<\/div>\n<div><strong>Citas:<\/strong><\/div>\n<p>Hellmann, S.; Stadler, C.; Lehmann, J. &amp; Auer, S. (2009), DBpedia Live Extraction,\u00a0<em>in<\/em> <em>&#8216;Proc. of 8th International Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE)&#8217;<\/em> , pp. 1209&#8211;1223 .<\/p>\n<p>Heather Hopkins (2008, April 18) Analysis: Content Aggregation is King? En<a href=\"http:\/\/weblogs.hitwise.com\/\"><em>Experian H<\/em><em>itwise<\/em><\/a>,\u00a0consultado el 2 de febrero de 2011 en\u00a0<a href=\"http:\/\/weblogs.hitwise.com\/us-heather-hopkins\/2008\/04\/content_aggregation_is_king.html\">http:\/\/weblogs.hitwise.com\/us-heather-hopkins\/2008\/04\/content_aggregation_is_king.html<\/a><\/p>\n<p>Sean Blanda (2009, October 20), Curation: The end of content aggregation as we know it. En<em> <\/em><em><a href=\"http:\/\/emediavitals.com\/\">Emedia Vitals<\/a><\/em>, consultado el 2 de febrero de 2011 en\u00a0<a href=\"http:\/\/emediavitals.com\/article\/16\/curation-end-content-aggregation-we-know-it\">http:\/\/emediavitals.com\/article\/16\/curation-end-content-aggregation-we-know-it<\/a>.<\/p>\n<p>Barry Ritholtz (2010, Decembe 1), Intelligence Hierarchy: Data, Information, Knowledge, Wisdom. Consultado 3 de febrero de 2011 <a href=\"http:\/\/www.ritholtz.com\/blog\/2010\/12\/hierarchy-of-visual-knowledge\/\">http:\/\/www.ritholtz.com\/blog\/2010\/12\/hierarchy-of-visual-knowledge\/<\/a>.<\/p>\n<p>\u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Esta semana arranca una nueva asignatura con un sugerente t\u00edtulo, Information Management. En julio prepar\u00e9 la gu\u00eda y ahora la estoy adaptando para las clases recogiendo la experiencia del semestre pasado (Web Communication) e\u00a0introduciendo ideas que me han venido a la cabeza en las \u00faltimas semanas.<\/p>\n","protected":false},"author":149,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,11],"tags":[99,141,161],"class_list":["post-822","post","type-post","status-publish","format-standard","hentry","category-classroom","category-library-20","tag-dbpedia","tag-mind-maps","tag-wikipedia"],"_links":{"self":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/822","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/users\/149"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/comments?post=822"}],"version-history":[{"count":64,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/822\/revisions"}],"predecessor-version":[{"id":837,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/822\/revisions\/837"}],"wp:attachment":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/media?parent=822"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/categories?post=822"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/tags?post=822"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}