{"id":595,"date":"2009-11-17T19:54:23","date_gmt":"2009-11-17T18:54:23","guid":{"rendered":"https:\/\/preblogs.deusto.es\/abaitua\/?p=595"},"modified":"2014-10-19T08:07:55","modified_gmt":"2014-10-19T06:07:55","slug":"indizacion-semantica-de-textos","status":"publish","type":"post","link":"https:\/\/blogs.deusto.es\/abaitua\/indizacion-semantica-de-textos\/","title":{"rendered":"Indizaci\u00f3n sem\u00e1ntica de textos"},"content":{"rendered":"<p>Mi compa\u00f1era de Departamento, <a href=\"http:\/\/dialnet.unirioja.es\/servlet\/extaut?codigo=40309\">Carmen Isasi<\/a>, me ha propuesto esta ma\u00f1ana un &#8220;desaf\u00edo intelectual&#8221; \ud83d\ude09 que encaja directamente con un tema que me tiene ocupado desde hace un tiempo. Ella lo plantea como una tarea dentro de un proyecto de <a href=\"http:\/\/www.andresdepoza.com\/content\/view\/1\/2\/lang,es\/\">edici\u00f3n digital<\/a>, relacionada con la indizaci\u00f3n de textos de un corpus anotado.<!--more--><\/p>\n<p style=\"text-align: center;\"><img fetchpriority=\"high\" decoding=\"async\" class=\" aligncenter\" title=\"\u00cdndices tem\u00e1ticos\" src=\"http:\/\/www.mujerpalabra.net\/creadoras\/dianagarciagonzalez\/Mondrian.jpg\" alt=\"Indices tem\u00e1ticos\" width=\"400\" height=\"281\" \/><\/p>\n<p>La idea entronca con un proyecto de <a href=\"http:\/\/lab.emergiatech.com\/?p=59\">b\u00fasqueda sem\u00e1ntica<\/a> en el que colabor\u00e9 con las empresas de tecnolog\u00eda sem\u00e1ntica (\u00bfo ling\u00fc\u00edstica?)\u00a0<a href=\"http:\/\/planet.emergiatech.com\/es\/\">EmergiaTech<\/a> y\u00a0<a href=\"http:\/\/www.thera-clic.com\">Thera-Clic<\/a>, y en el que tuvo un papel destacado <a href=\"http:\/\/www.facebook.com\/kgarai\">Koldo Garai<\/a>. Tiene que ver tambi\u00e9n con una consultor\u00eda que he realizado hace poco para la empresa <a href=\"http:\/\/corp.alianzo.com\/en\/\">Alianzo<\/a>.<\/p>\n<p>En el primer caso se utilizaba un reconocedor de entidades nombradas de <a href=\"http:\/\/www.thera-clic.com\">Thera-Clic<\/a> y la red l\u00e9xica <a href=\"http:\/\/en.wikipedia.org\/wiki\/WordNet\">WordNet<\/a> en espa\u00f1ol (tambi\u00e9n propiedad de esta empresa). En el segundo caso se utiliza la colecci\u00f3n de herramientas ling\u00fc\u00edsticas<a href=\"http:\/\/www.lsi.upc.edu\/~nlp\/freeling\/\"> FreeLing<\/a>, a la que\u00a0yo propon\u00eda a\u00f1adir\u00a0<a href=\"http:\/\/en.wikipedia.org\/wiki\/DBpedia\">DBpedia<\/a>, como base de datos (en realidad es una ontolog\u00eda) de entidades significativas precisamente para ampliar la cobertura del anotador.<\/p>\n<p>As\u00ed que para el proyecto de Carmen se me ocurre que lo que hay que hacer es aplicar las metodolog\u00edas de los sistemas de reconocimiento de entidades nombradas (o citadas). Posiblemente podamos recurrir a FreeLing, aunque inicialmente tal vez baste con unas primeras listas hechas a manos. \u00bfD\u00f3nde he visto yo una clasificaci\u00f3n de entidades&#8230;?<\/p>\n<p>Un segundo aspecto sobre el que Carmen me ha pedido colaboraci\u00f3n es en la indizaci\u00f3n de los textos por campos sem\u00e1nticos, en concreto por pol\u00edtica y religi\u00f3n. Esta cuesti\u00f3n tiene otro enfoque y resultar\u00e1 interesante consultar WordNet para estas tem\u00e1ticas, aunque posiblemente podamos crear nuestra propia red l\u00e9xica a partir de los textos. En fin, que me estoy entreteniendo con la relectura de algunas referencias b\u00e1sicas.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mi compa\u00f1era de Departamento, Carmen Isasi, me ha propuesto esta ma\u00f1ana un &#8220;desaf\u00edo intelectual&#8221; \ud83d\ude09 que encaja directamente con un tema que me tiene ocupado desde hace un tiempo. Ella lo plantea como una tarea dentro de un proyecto de edici\u00f3n digital, relacionada con la indizaci\u00f3n de textos de un corpus anotado.<\/p>\n","protected":false},"author":149,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[107],"tags":[112,108,111,110,109],"class_list":["post-595","post","type-post","status-publish","format-standard","hentry","category-research","tag-alianzo","tag-carmen-isasi","tag-koldo-garai","tag-thera-clic","tag-wordnet"],"_links":{"self":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/595","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/users\/149"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/comments?post=595"}],"version-history":[{"count":15,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/595\/revisions"}],"predecessor-version":[{"id":1387,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/595\/revisions\/1387"}],"wp:attachment":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/media?parent=595"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/categories?post=595"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/tags?post=595"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}