Archivo de la etiqueta: vertica

Bases de Datos NoSQL de grafos: mejor rendimiento para grandes vol煤menes de datos

Como saben,聽la semana pasada, organizamos un evento titulado 芦Las tecnolog铆as Big Data al servicio de la sociedad芦. 聽Un evento en el que a trav茅s del famoso caso de los Papeles de Panam谩, trat谩bamos de divulgar la utilidad que tiene este nuevo paradigma del Big Data -sus m茅todos y tecnolog铆as- tambi茅n para beneficio de toda la sociedad.

Iremos, a lo largo de los pr贸ximos d铆as difundiendo los contenidos y materiales generados para esa sesi贸n. Empezamos la serie hablando de la intervenci贸n de Mario I帽iguez, Co-founder de Adamantas Analytics,聽que聽nos explic贸 c贸mo poner en valor las tecnolog铆as de Big Data con las Bases de Datos NoSQL de grafos.

Las Bases de Datos NoSQL aparecen a la par de la explosi贸n de la web 2.0. En ese momento, se produce un crecimiento espectacular del volumen de datos. Adem谩s, generado por el propio usuario, con informaci贸n vol谩til, variada, no estructurada y extensa. Las relaciones se multiplican, no existe una estructuraci贸n previa. En este contexto,聽el paradigma de Bases de Datos聽Relacional que venimos usando desde los a帽os 70, nos limitaba mucho. Un modelo de datos est谩tico y con dificultad de adaptaci贸n a cambios, que dispone de relaciones expl铆citas entre tablas, es un paradigma que no casa bien con esta explosi贸n de datos no estructurados.

Ah铆 es cuando empezamos a hablar de la necesidad de disponer de un nuevo paradigma. Lo bautizamos como NoSQL, manifestando claramente su desvinculaci贸n de este paradigma relacional que hab铆a venido siendo imperante hasta entonces.聽聽Y, aparecen, cuatro nuevos tipos de bases de datos:

  • Clave valor: el聽m谩s popular, adem谩s de ser la m谩s sencilla en cuanto a聽funcionalidad.聽Cassandra, BigTable o HBase son ejemplos de este tipo. Son bastante eficientes tanto en lectura como en escritura. En nuestro programa vemos Cassandra.
  • Columnares: las bases de datos, en lugar de estar estructuradas por filas, est谩n estructuradas por columnas. Al tratarse de una sola dimensi贸n, hace m谩s eficiente la recuperaci贸n de la informaci贸n. En nuestro programa, trabajamos con Vertica.
  • Documentos:聽almacena la informaci贸n como un documento, permitiendo realizar consultas bastante avanzadas sobre el mismo. Por ello, suele considerarse como el m谩s vers谩til.聽MongoDB o CouchDB son ejemplos de ello. Nosotros en nuestro Programa de Big Data hacemos alguna sesi贸n pr谩ctica con MongoDB.
  • Grafos: los datos son representados como nodos y aristas que modelizan la relaci贸n entre esos nodos. De esta manera, podemos emplear la teor铆a de grafos -de lo que ya hemos hablado en el pasado– para聽recorrer y navegar por su contenido. Su principal ventaja es que permite聽una navegaci贸n m谩s eficiente entre relaciones que en un modelo聽relacional. Neo4J -la empleada en el caso de los Papeles de Panam谩-聽o Virtuoso son ejemplos de ello, siendo Neo4J la que vemos en nuestro programa y sobre la que sacaremos un programa espec铆fico el pr贸ximo Oto帽o (dada la relevancia que va adquiriendo, por lo que ya informaremos de ellol).

Este 煤ltimo tipo, el de grafos, fue el que nos introdujo Mario y sobre el que nos cont贸 sus bondades.聽Uno de los elementos que destac贸 Mario es c贸mo esta forma de representar la informaci贸n se aproxima bastante al pensamiento humano (c贸mo representamos la informaci贸n en nuestro cerebro). A trav茅s de varios ejemplos (茅ste de Open Corporates de Goldman Sachs聽o聽茅ste de la complejidad econ贸mica del MIT), vimos las principales ventajas de representar la informaci贸n en grafos. Que, b谩sicamente, se resumen en un tiempo de ejecuci贸n bastante menor que una base de datos relacional (en la transparencia 7 de la siguiente presentaci贸n pod茅is ver la comparativa emp铆rica que hizo Mario).

Para concluir, Mario nos resumi贸 las principales utilidades de este nuevo tipo de bases de datos NOSQL de grafos:

  • Disponer de m谩s informaci贸n con agilidad y eficiencia (lugares m谩s visitados, an谩lisis de sentimiento, rutas y medios, quejas y reclamaciones, c铆rculos de influencia, etc.)
  • Y, desencadenar acciones (mejora de infraestructuras, mejora de servicios, mejora de la oferta tur铆stica, oportunidades de negocio, promoci贸n comercio local)

Adem谩s, os dejamos un v铆deo donde聽le preguntaba por los principales puntos que trat贸 durante su intervenci贸n y que provoc贸 varias preguntas de la audiencia. Como conclu铆amos, el modelo relacional podr铆a tener sus d铆as contados si las tecnolog铆as de BBDD NoSQL siguen mejorando el rendimiento y resultados de procesar grandes cantidades de datos. Ser谩 interesante ver la evoluci贸n.