Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

6 jun. 2005

Almacenamientos del Data Warehouse (y 3)

José María Arce Argos
Director Unidad Business Intelligence ALTRAN SDB.
Profesor del Master “Sistemas de Información e Investigación de Mercados” (ESIC)
jmarce@altransdb.com

Hace algunos años con un apreciado compañero de trabajo mantuvimos un interesante debate sobre modelos de datos, E/R , OLAP, MOLAP, ROLAP, y otras denominaciones o, mejor dicho, variantes. Para demostrar la similitud de todos ellos hicimos un ejercicio que no llevo varios días.

Seleccionamos una base de datos no muy grande (operacional) y cada uno comenzó a analizar sus posibilidades e imaginarnos las posibilidades de análisis de la misma. Mi compañero me presento una serie de estructuras de información en estrella (E/R), de las puras. Hablo de estrellas puras, esas estructuras que no permiten relaciones “n” a “m”, que no tiene información agregada etc. Este es otro punto importante a tratar en otro articulo: como las herramientas de explotación logran implementar estas características de forma simulada, normalmente a través de repositorios que permiten tratar las estrella de forma parecida a los modelos normalizados y que aportan el valor de introducir una capa semántica para lograr ser utilizadas por personal no informático, los usuarios finales.

Continuando con el ejercicio, le presenté un modelo OLAP almacenado sobre un gestor relacional, los denominados ROLAP y más en concreto Snow-flake, que NO estrella. Estos modelos son los más sofisticados y completos que pueden existir. Aunque tienen sus limitaciones, en cuanto a posibles tiempos de repuesta, pero permiten hacer algunas autenticas virguerías. Estos modelos son, y han sido muy criticados, entre otras cosas debido a las limitaciones de la mayoría de las herramientas de explotación en aprovechar eficazmente sus claras ventajas, también es necesario matizar que requiere unos altos conocimientos en técnicas de modelización.



Mi compañero quedo sorprendido al ver dicho modelo. Pasamos varias horas explicando el motivo de dicho diseño y las capacidades que ofrecía. Tras muchas horas logramos demostrar que cualquier modelo E/R, en sus formas normales según métrica, puede ser convertido, con esfuerzo, en un estupendo modelo Snow-flake, guardando aparentemente una similitud, pudiendo, además, aplicar sobre dicho modelo técnicas extras de desnormalizaciones, todo ello según las necesidades de respuesta e incluso crear los cruces de agregación deseados. Pero no acabo aquí el ejercicio, aplicando unas desnormalizaciones más agresivas llegábamos al modelo estrella, aplicando técnicas de compresión de dimensiones y jerarquías, todo ello todavía sobre un gestor relacional. Con este modelo en “estrella” lo pasamos a diversos almacenamientos multidimensionales en un abrir y cerrar de ojos, concretamente lo almacenamos en Oracle y en las MDDB de SAS.

Con todo este ejercicio únicamente trataba de demostrar que lo importante es saber realizar modelos con características OLAP, con independencia de gestor final. Lógicamente una base de datos multidimensional, ojo bien construida, ofrece unos tiempos de repuesta muy optimizados... para eso están.

Los almacenamientos multidimensionales también tienen unas limitaciones claras. Por todo esto, no parece muy conveniente, en un proyecto gran, real y ambicioso, tener que elegir por un almacenamiento u otro, podemos tener los dos. Desde hace varios años existe soluciones optimas para explotaciones bajo soluciones híbridas, es decir, parte en gestores relacionales (los detalles) y parte el multidimensionales (los agregados). Estas soluciones híbridas permiten, según los criterios de seguridad establecidos, “navegar” desde la información agregada hasta el máximo nivel de detalle, todo de forma transparente para nuestros usuarios finales.

Para no extenderme más en esta ocasión, estimo interesante volver a revindicar el uso correcto del DW, que desde sus orígenes fue para la toma de decisiones estratégicas. Son muchas las organizaciones empeñadas en introducir todo, todo, todo... convirtiendo un bonito proyecto DW en un nuevo caos operacional. ¿Es necesaria toda la información? ¿Quién va a usar el DW?.

Debemos medir muy bien la información a incluir en el nuevo sistema, recordemos que después tendremos que mantener y/o actualizar los datos. Un DW es una maravillosa solución y una gran herramienta de trabajo, pero en cualquier caso es Opcional y NO debe sustituir a los sistemas operacionales encargados del día a día.

Por último, solamente me queda invitarles, a todos, a continuar visitando TodoBI.com, con mi compromiso de ir publicando mis reflexiones sobre las soluciones de BI. Sin lugar a dudas existe un mundo de soluciones de negocio al alcance de su mano. Para más información
www.altransdb.com o jmarce@altransdb.com

0 comentarios: