Las impresiones de Ivan Herman ante WWW 2009

Traducción de un artículo de Ivan Herman (de 26 de abril de 2009) realizada por Google (1 de mayo de 2009) y revisada por JosebaAbaitua (1-3 de mayo, 2009).

Como de costumbre, al tomar notas de un congreso como WWW2009, en Madrid, uno tiene sólo una visión parcial. Esto es todavía más cierto en el caso de un congreso de la talla de WWWW2009 con unos 1000 asistentes y 5-6 sesiones paralelas. Debo admitir que por lo general tengo dificultades con tantas sesiones celebradas al mismo tiempo, así que, evidentemente, toca perderse algunos de los eventos, lo cual es una fuente de frustración inevitable. Con esta advertencia, los temas que probablemente voy a recordar son una minoría…

El poder de Twitter. Aunque no estaba en el programa, este ha sido el primer congreso WWW en el que Twitter ha sido el rey. Twitter ha sido omnipresente. Por medio de la clave #www2009 surgían nuevas entradas cada segundo (incluso de correo basura :-(, y otras etiquetas Twitter se utilizaron también para algunos eventos especializados (como #w3ctrack o #ldow2009). Se podía obtener una idea bastante aproximada de lo que estaba ocurriendo en otros lugares sólo con seguir estos canales. De hecho, este informe es mucho más vago de lo habitual, simplemente porque mis propios gorjeos de la conferencia o los gorjeos generales del tema #www2009 pueden muy bien sustituir las notas que solía escribir en blogs en años anteriores.

Las redes sociales. Más allá de Twitter, la presencia ubicua de las redes sociales, sus efectos sobre casi cualquier cosa es todavía un tema importante, como muestra el flujo continuo de comunicaciones tratando, por ejemplo, de extraer semántica de las nubes de etiquetas (vease la comunicación de Benjamín Markines y otros), o las de (este mundillo de) Google y Yahoo! tratando de aprovechar las etiquetas para mejorar sus resultados de búsqueda. (El explorador de etiquetas experimental de Yahoo es un buen intento de sacar partido de las etiquetas). Nada radicalmente nuevo, pero hay progreso en cada reunión, y éste congreso no fue una excepción (!).

En su ponencia, Pablo Rodríguez de Telefónica presentó los motivos por los que las necesidades de las redes sociales en términos de infraestructura de red son tan diferentes que están obligando a cambiar el hardware/firmware de los servicios. Así, la publicación de un vídeo en un sitio social puede crear un súbito pico de gran volumen de accesos (ciertamente si lo envía una “celebridad”) que hace que sea muy diferente de los flujos más constantes de sitios más tradicionales. Por ejemplo, podría ser necesario el almacenamiento en caché de los routers locales. No soy para nada un experto en esta materia (cualquier cosa que está cerca de hardware es una especie de caja negra para mí) así que no puedo juzgar estas declaraciones, pero fue interesante escucharlas. Otro comentario interesante es que las “celebridades” de una red (normalmente sin pretenderlo) pueden iniciar un ataque DoS contra un sitio: ¡pensad en la cantidad de peticiones http que fluye a un sitio mencionado por una de estas estrellas sociales!

La Ciencia de la Web. Hubo un panel (organizado por Nigel Shadbold, junto a Tim Berners-Lee, Ricardo Baeza-Yates y Mike Brodie). Todo el tema está aún bastante abierto (al menos para mí): ¿qué es la Ciencia de la Web y dónde están sus límites? ¿Qué tipo de investigación pertenece a WS, y qué es mejor mantener al margen, para que sea abordado por otras disciplinas? ¿Qué tipo de abstracciones será necesario estudiar? ¿La Web en su conjunto (al igual que la química puede ser vista como un conjunto de abstracciones de la física en la parte superior)? ¿Qué tipo de grupos de investigación interdisciplinaria deberán establecerse? En lo que a mí respecta, no tengo una respuesta a estas preguntas :-(. Lo que puedo ver ocurriendo bajo el lema “Ciencia de la Web” son muchas diferentes subdisciplinas que aparecerán muy pronto y obtendrán vida independiente sin demasiada relación entre ellas. En lo que a mí respecta, yo estaría más interesado por la relación entre la Web y la sociedad en general que por los aspectos técnicos, pero eso es sólo conmigo. Un punto de vista práctico para el futuro es que hay planes para combinar (por ejemplo, concelebrar) futuros congresos WWW y de Ciencia de la Web, lo que sería realmente un beneficio para ambos eventos, en mi opinión.

Cloud computing. Sí, este tema se trata con más frecuencia cada veaz. Obviamente un aspecto clave en la conferencia de Alfred Spector, de Google, pero fue abordado por más ponentes. El minitutorial sobre Hadoop, MapReduce y Hive, dada por Tom White en la sesión de Desarrolladores fue muy interesante e instructiva para mí. Sabemos que la computación cloud tiene un gran interés para la comunidad de la Web Semántica, ya que puede ser la herramienta que permita manejar la gran cantidad de datos que hay en la red. Los datos LOD ya están disponibles en los servicios de Amazon (gracias a OpenLink), Chris Bizer y los amigos DBpedia Móvil ya hacen uso de las instalaciones cloud, el proyecto LarKC también hace uso de la computación paralela masiva (no estoy seguro de que utilizan la cloud). Es sin duda algo que no hay que perder de vista, estoy seguro de que el tema adquirirá más importancia en los futuros congresos. (Y una tecnología más con la que me debo familiarizar yo mismo…)

Potencia de los datos. Las estrategias de búsqueda se han convertido en el tema dominante de los congresos WWW y ésta no fue la excepción. Muchas investigaciones tratan de explotar la gran cantidad y variedad de datos que acumulan los grandes motores de búsqueda, por ejemplo. He escuchado varias presentaciones de los laboratorios de Google en los últimos años (incluyendo el discurso de apertura en esta conferencia). Debo decir que la impresión general que producen es que la enorme cantidad de datos que acumulan se utiliza directamente como panacea de todos los problemas. (Probablemente soy injusto.)

Ricardo Baeza-Yates (Yahoo!) informó también de algunos trabajos en su conferencia magistral sobre, por ejemplo, el análisis de las propias consultas, es decir, los caminos de las diferentes búsquedas realizadas por los usuarios entre el momento en que comienza la búsqueda y el momento de encontrar lo que se estaba buscando. (¡Interesantes cosas! Por cierto, existe también un congreso sobre los weblogs y los medios de comunicación social, ICWSM; y otro congreso próximo en torno a las tecnologías Web.) También escuché una presentación del sistema Boss de Yahoo! por Ted Drake (en las sesiones sobre Desarrolladores): lo que es interesante es que uno puede tener acceso a (parte de) de los índices acumulados de Yahoo! para construir, por ejemplo, uno motor de búsqueda propio, pero, supongo, se podrían también utilizar estos datos para otro tipo investigación sobre explotación de datos. ¿Potencia de los datos para las masas? (He oído hablar de Boos antes y debería haber más detalles técnicos en la presentación, pero, bueno…)

Red de datos, también conocida como Web Semántica. El congreso comenzó con un gran taller sobre datos vinculados. Una vez más me baso en mis anotaciones propias y también en las generales de Twitter para dar más detalles que no es necesario repetir aquí. Basta con decir que, más allá de los trabajos individuales, hubo un “zumbido” en el aire, un entusiasmo que se reflejaba en el elevado número de participantes (más de 100). Para cualquier persona interesada, vale la pena ver todas las comunicaciones, ¡que fueron muy buenas! Una vez dicho esto, realmente lo que estoy esperando es a ver las aplicaciones reales (y no sólo de experimentación, el uso en la universidad), pero que lleva su tiempo, no hubo realmente impresionantes noticias de ello en el taller.

Hay que decir, por supuesto, que el taller fue para los conversos; lo más interesante fue ver que el concepto de datos vinculados, y el de la Web Semántica en general, va ganando adeptos en el congreso general y no únicamente entre los incondicionales de la Web Semántica de siempre. Jim Hendler hizo una presentación sorpresa en la sesión de Desarrolladores (sorpresa, porque hubo un orador anunciado que no pudo venir, así que él tomó su lugar). Habló para los desarrolladores ajenos a la Web Semántica sobre lo que se puede hacer ya hoy con esta tecnología, sobre la emoción que está ahí fuera, sobre las empresas que ya han utilizado esta tecnología. Es bueno que estos mensajes circulen por ahí una y otra vez. Georgi Kobilarov hizo también una gran exposición sobre DBpedia. Había varias personas con las que hablé más tarde que realmente estaban impactados por las posibilidades que abre el disponer de una cantidad de datos tan enorme, a través de las abstracciones expresadas en RDF, RDFS y (tambien un poco 🙂 de OWL.

También fui a la sesión de Web Semántica, obviamente. Debo admitir que me decepcionó un poco porque muchos de los colegas que normalmente veo en estos eventos no estaban allí. Supongo que el congreso ISWC se ha convertido en una importante competencia de WWW en este campo, y cuando el dinero escasea, la gente tiene que tomar una decisión. En años anteriores ISWC se consideraba mucho más teórico, mientras que WWW era para comunicaciones más prácticas. Sin embargo los últimos ISWC a los que asistí parecen indicar que esto está cambiando. Creo que cualquiera de las comunicaciones de la WWW podría haber sido presentada en el ISWC sin problemas. Como consecuencia de ello, creo que mucha gente decidió que ISWC es mejor lugar para asistir. Será interesante ver cómo las cosas van a evolucionar en el futuro, no sería extraño comprobar cómo el tema de la Web Semántica poco a poco se traslada de WWW a ISWC. (¡Espero que en particular que comunicaciones sobre datos vinculados aparecen en ISWC muy pronto!)

Dicho esto: fue agradable asistir a una comunicación sobre los DERI-pipes (de Le Danh Phuoc y otros) así como sobre Triplify (de Sören Auer y otros). Esta no es la primera vez que tengo noticia de estos proyectos, pero reconforta asistir a presentaciones más amplias. Hubo una comunicación sobre un sistema de reglas estándar (de Senlin Liang y otros), aunque no soy experto en esto, con los avances de RIF será bueno tener estos estándares disponibles. La comunicación de Philippe Cudré-Mauroux y otros sobre la desambiguación de identificadores de datos vinculados me llamó la atención: con los datos vinculados (sugirió el comunicante) podemos encontrarnos con una selva de IDs, con toneladas de URIs dirigidos a, más o menos, el mismo concepto (por ejemplo, una persona específica), y un simple OWL:sameAs que dé cuenta de esto no es la solución ideal. El sistema idMesh proporciona un medio para analizar las relaciones entre los IDs. Debo admitir que no seguí todos los detalles de la comunicación, pero sin duda ¡será una de las que tenga que estudiar en más detalles cuando me ponga a ello!

Encuentros W3C. W3C intentó otro modalidad este año, en lugar de la más tradicional sesión W3C, probó dos encuentros (camps) sobre web móvil y web social. Pero… aquí es donde el gran número de sesiones paralelas fue contraproducente: no he podido ir a ninguno de ellas :-(. Hubo todo tipo de superposiciones con otras presentaciones (por ejemplo, el encuentro sobre web social coincidió plenamente con la sesión sobre Web Semántica). Lástima, porque los comentarios de los participantes fueron muy positivos. Suspiro. Bueno, en realidad, por cortesía de Fabien Gandon, estuve presente en el encuentro sobre web social virtualmente, gracias a estas diapositivas…

¡Ha sido una extenuante pero excelente semana!

http://translate.google.es/translate?js=n&prev=_t&hl=en&ie=UTF-8&u=http://ivan-herman.name/2009/04/26/www2009-impressions&sl=en&tl=es&history_state0

Translema

Joseba Abaitua's blog on Language and Translation

Las impresiones de Ivan Herman ante WWW 2009

Leave a Reply