Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

30 may. 2011

El hueco entre community y comercial Open Source



Mucho se debate sobre los diferentes modelos de negocio alrededor de las tecnologías Open Source. De hecho, lo mejor es fijarnos en la realidad, y es que conviven muchos modelos diferentes, tanto usando un modelo comercial, uno community y areas intermedias.
En este interesante artículo se habla de ello.

No obstante, habría que acotar también en detalle, que se considera 'control' por parte del vendedor, pues está claro que hay una amplia variedad de grises.

27 may. 2011

SpagoBI Meta

Os mostramos un video del nuevo componente de SpagoBI. SpagoBI Meta, una suite que sigue mejorando, pasito a pasito... que usa muchas tecnologías ya conocidas y comentadas en estas páginas:

26 may. 2011

El INE crea Explica, una web para conocer la Estadistica



En el portal se cuenta cómo crea el INE las principales estadísticas económicas, entre ellas, las que miden la variación de los precios (Índice de Precios de Consumo), la actividad económica (Producto Interior Bruto) o el mercado laboral (Encuesta de Población Activa) y una gran cantidad de indicadores (fuente espectacular de información), como podeis comprobar en la propia web del INE.


Esta web se llama Explica y cuenta con ejemplos, videos, etc.... Se trata de una gran iniciativa que se alinea mucho dentro del movimiento Open Data, del acercamiento de las adminitraciones a los usuarios, etc...

Estos son algunos enlaces interesantes:

Introducción a la Estadística

Imagen decorativa Una guía básica para acercarte a la Estadística:
Primera parte
Segunda parte


Tu primera encuesta

Imagen decorativa Cómo recoger los datos y presentar los resultados de una encuesta



Información más atractiva

Imagen decorativa Te proponemos técnicas para captar la atención del lector


Gráficos de ayer y hoy

Imagen decorativa Representar datos mediante mapas y gráficos tiene su historia ...



Tipos de gráficos ¿cuál uso?

Imagen decorativa Una imagen bien utilizada vale más que mil palabras

24 may. 2011

Flowingdata, nos gusta la visualizacion

Excelente web sobre visualización, de Nathan Yau.

"The greatest value of a picture is when it forces us to notice what we never expected to see."

—John W. Tukey. Exploratory Data Analysis. 1977.
Os dejamos con unos ejemplos:


Muertes por tornados en EEUU



Trucos de Macgyver por episodios

Foros de Saiku ya disponibles



Para todos aquellos que seguís Saiku (nuevo visor OLAP Open Source), con atención (aquí teneis una demo online que hemos montado), os anunciamos que ya estan habilitados los foros, para que ninguna pregunta quede sin respuesta, esa es la idea!!


Saiku forums

23 may. 2011

JRockit gratuito?




Oracle sigue haciendo de funambulista en el mundo Open Source, free, etc...

21 may. 2011

Pentaho: la solucion Open Source Business Intelligence



1) Demos Actualizado (2017): Demos Online de Stratebi-Pentaho Acceder, nuevas funcionalidades y soluciones por industrias


Ya disponible Pentaho 7 CE !!!


2) Formación: Nuevos (Workshops BI Open Source)

3) Video Tutoriales: Casi 3 horas para conocer las claves de Pentaho




- Introducción a Pentaho (mas de 1 hora, con ejemplos, antiguo)
- Tutorial Schema Workbench, Pentaho
- Dashboard Editor - Pentaho Community
-
Tutorial Dashboard Editor (Part 1)
- Tutorial Eclipse BIRT (Tut. 6)
- Tutorial Mondrian cubes (Jpivot,
-
STPivot, improving Jpivot
- Tutorial Pentaho Report Designer
-
Pentaho, Intalio, Liferay, Alfresco,



4) Mas recursos:
Color del texto
- Tutorial Cuadros de mando con CDE
- Desarrollos propios: STPivot y STDashboard - Las ultimas noticias del Business Intelligence: twitter TodoBI_OS
-
Integración de Liferay y Pentaho.
-
STReport, Comparativa de herramientas Open Source.
-
Comparativa de Algoritmos de Data Mining.
- Demos Online Pentaho
- Trucos y Documentos
- STPivot
- STDhasboard

- Redopenbi: La Red del BI Open Source en castellano (mas de 1.300 miembros)

Os recomendamos también ver los posts actualizados, con las entradas más recientes, o contactar con nuestros compañeros especialistas de Stratebi, para más ayuda.


5) Información general:

La visibilidad que nos está dando Pentaho, la solución de software libre de BI de sus componentes, se ha convertido en un interesante ejercicio de análisis de la arquitectura de una suite de BI.
En las siguientes lineas vamos a comentaren que estado actual se encuentra la solución y que con que componentes cuenta, para llevar a cabo un proyecto BI, como se indica en la siguiente gráfica:



Introducción a Pentaho

Pentaho se define a si mismo como una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos.

Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de análisis e informes integrado con un motor de workflow de procesos de negocio. La plataforma será capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la información adecuada en el momento adecuado.

Su modelo de ingresos parece estar orientado a los servicios (soporte, formación, consultoría y soporte a ISVs y distribuciones OEM) aunque en alguno de los documentos y páginas que hemos examinado aparece mencionado algunas funcionalidades “Premium” que hacen pensar en ingresos por futuras versiones o funcionalidades de pago.

En su web presenta una organización por productos:
Reporting, Análisis, Dahsboards y Data Mining, acompañado por dos introducciones: a la plataforma y a los productos. En dichas introducciones se hace mención específica al workflow como una de las capacidades BI claves de la plataforma.

Presentando y entregando la información.


Dashboard


Pentaho presenta informes en los formatos habituales (html, excel, pdf...) mediante
JfreeReport, proyecto incorporado recientemente a Pentaho junto con su responsable Thomas Morgner, u otras plataformas como BIRT o JasperReports. Para la generación de PDFs utilizan, como podría ser previsible, el conocidísimo Apache FOP. Asimismo incorpora la librería JPivot, gracias a la cual podemos ver tablas OLAP a través de un browser y realizar las aplicaciones típicas de análisis OLAP (drill down, slice and dice...).
Recientemente se anunció Pentaho Report Design Wizard, una herramienta de diseño de informes, que facilita el trabajo con JfreeReport y supera sus limitaciones. Suponemos que algo tiene que ver JFreeDesigner, el diseñador de informes para JFreeReport de jfree.org, ya que Thomas Morgner es también el responsable de
JFreeDesigner.

Los dashboards son un desarrollo propio de Pentaho. Recogen información de todos los componentes de la plataforma incluyendo aplicaciones externas, feeds RSS y páginas web. Incluyen gestión y filtrado del contenido, seguridad basada en roles y drill down. Pueden ser integrados en terceras aplicaciones, en portales o dentro de la plataforma Pentaho.
Para generar gráficos se apoyan en
JFreeChart, una librería para generar los gráficos más comunes (2D, 3D, barras, líneas series temporales, Gantt...), interfaces para acceder a diferentes fuentes de datos, exportación a PNG, JPEG y PDF y soporte para servlets, JSPs, applets y aplicaciones clientes.

Los
WebServices son una característica fundamental de Pentaho. Las acciones, que son las tareas más sencillas que constituyen una solución de Pentaho, pueden publicarse como WebServices. Pentaho utiliza como motor de WebServices Apache Axis, quedando los servicios descritos en el lenguaje de definición de servicios web WSDL.
Para entregar la información Pentaho se apoya en una infraestructura
JMS para enviar correos electrónicos y Quartz, un scheduler opensource integrable en aplicaciones J2EE (de hecho necesita ser instanciado). También está anunciado un feed RSS propio, para posicionarse en el desktop.

La solución BI





Reporting



El servidor OLAP


Para obtener la funcionalidad de procesamiento analítico en línea (OLAP) se utilizan otras dos aplicaciones: el servidor OLAP Mondrian, que combinado con Jpivot, permiten realizar querys a Datamarts, que los resultados sean presentados mediante un browser y que el usuario pueda realizar drill down y el resto de las navegaciones típicas.

Algunas cuestiones interesantes sobre Mondrian:
- Mondrian utiliza MDX como lenguaje de consulta, que no tendría nada de raro si no fuera porque fue un lenguaje propuesto por Microsoft.
-
En noviembre de 2005 Mondrian se incorporó al proyecto Pentaho, incluyendo a su fundador Julian Hyde.
- Mondrian funciona sobre las bases de datos estándar del mercado: Oracle, DB2, SQL-Server, MySQL... lo cual habilita y facilita el desarrollo de negocio basado en la plataforma Pentaho.
- JPivot está considerado con un “proyecto hermano” de Mondrian. Al incorporarse Mondrian también lo ha hecho JPivot


Data Mining


Por supuesto, qué sería de una aplicación de BI sin Data Mining. Para tal fin, Pentaho está incorporando la tecnología WeKa. Decimos está incorporando, porque a día de hoy el roadmap de Pentaho indica que están en ello. Weka es una herramienta extensible e integrable que incluye herramientas para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Aquí, puede encontrarse un manual en español.


ETL



Se trata de la joya de la corona.
Kettle es un proyecto belga que incluye un conjunto de herramientas para realizar ETL. Uno de sus objetivos es que el proyecto ETL sea fácil de generar, mantener y desplegar.

Se compone de 4 herramientas:
- SPOON: permite diseñar de forma gráfica la transformación ETL.
- PAN ejecuta la transformaciones diseñadas con SPOON.
- CHEF permite, mediante una interfaz gráfica, diseñar la carga de datos incluyendo un control de estado de los trabajos.
- KITCHEN permite ejecutar los trabajos batch diseñados con Chef.


Cuadros de Mando






Otras tecnologías con las que se complementa y que podemos incluir en nuestros desarrollos:



"Esperamos que esta explicación de Pentaho os sea de utilidad. Seguiremos informando sobre el tema. Si alguno de vosotros la ha probado también o la está usando, estaremos encantados de recibir vuestros comentarios"

Nestic-Todobi

Cuadros de Mando iterativos

Como resultado de nuestras pruebas con CDE (Community Dashboard Editor), mas allá de hablar sobre CDE hablaremos de lo que el CDE nos ha posibilitado: Realizar Dashboards iterativos donde se van añadiendo funcionalidades en función de las demandas de los usuarios.

Siempre decimos que, para hacer un dashboard es bueno realizar primero un dibujo y un “storyboard“. Realizando un piloto que después implementaremos. En el mejor de los casos primero implementaremos el aspecto visual, consensuaremos con el cliente, haremos las modificaciones pertinentes y tras eso conectamos con las fuentes de datos y normalmente aqui se acaba el proceso.

Es un procedimiento en base a prototipos, es un buen procedimiento, el problema es que tiene pocas iteraciones…. ¡Solo una!
Es muy normal que el cliente, una vez haya interactuado con el cuadro de mandos diga… Mmmm… me he dado cuenta que realmete quiero esto, o ahora me gustaría esto otro. o usandolo me he dado cuenta que esto que pensaba que iba a ser muy útil no vale para nada.

Al implementar un cuadro de mandos con CDE toda la arquitectura ya está hecha por lo que todo el esfuerzo se centra en llenar de contenido, por lo que, al ser mucho mas fácil realizar modificaciones se pueden realizar muchas mas iteraciones. De la primera iteración a la actual cambia mucho el diseño de un Cuadro de Mando.

Y gran parte de ese cambio y/o mejora es fruto de las 4 o 5 iteraciones que tiene y la aportación de todas las personas que han interactuado
con ello… Y lo mejor de todo…. ¡Que todavía puede seguir evolucionando! Conforme se va mostrando y probando, hay nuevas peticiones y sugerencias.

Nos permite pasar de esto:



A esto otro:


20 may. 2011

Amazon Simple DB, nuevo plugin en Pentaho, Kettle



Mas que interesante
este nuevo plugin disponible, (gratuito, que nos permite traernos informacion de las bases SimpleDB de Amazon.

Instructions:

Enter your access keys and select your Amazon SimpleDB endpoint (the geographical region your database is located in.) You can test it with the Check Database Connection button which will attempt to connect and give you a list of your domains and summary information.

Enter your query in SimpleDB’s SQL-like language, you can find a help guide here: Tips and Tricks for Amazon SimpleDB Query

“Consistent Read” is an Amazon option to ensure you get the most up-to-date possible data, but not ticking it should give quicker results and according to Amazon you’re only likely to miss a write “for a small period of time, usually about a second.” A Technical article can be found here: Amazon SimpleDB Consistency Enhancements

Nueva pantalla tactil gigante en el Metro de Madrid



Esta ubicada en el corazón turistico de Madrid, en la estación de Gran Vía.
Metro de Madrid ha creado una nueva plataforma digital para ofrecer a los clientes información de servicio y socio-cultural.

El proyecto piloto, consiste en la instalación de una pantalla táctil en el andén de la estación de Gran Vía donde los usuarios pueden consultar, entre otras informaciones, el mejor trayecto para realizar su viaje en Metro a través de una novedosa aplicación, pero también podrán consultar noticias, el tiempo o el acceso a diferentes canales como el de vivienda o empleo de la Comunidad de Madrid.



18 may. 2011

Fotos y presentaciones del Consegi 2011 en Brasilia

Como os hemos venido contando, tuvimos la suerte de ser invitados y participar en el mayor evento de Software Libre de Brasil, el Consegi, que se celebra en Brasilia, donde España tuvo una gran presencia como País invitado, con participación de CENATIC, CTIC, etc... Increible el interés por el OS y la gran cantidad de personas y organizaciones que asistieron, os dejamos unas fotos y presentaciones.

Por cierto, como país que les encanta el Futbol, se lo pasaron en grande con nuestro Tablero Futbolero.




.

Instalando LucidDB en windows

Video explicación mas que interesante de la Base de Datos orientada a columnas open source, Lucidb.

17 may. 2011

Los cubos virtuales funcionan



Si, y como aunque se suponían que ya funcionaban, nunca nos lo creemos todo hasta que las cosas no las probamos.

Viene a cuenta cuando tenemos que tratar con diferentes granularidades y snowflake, etc…pues aqui va otra solución que en ocasiones nos puede salvar la cara.

Imaginaros que nuestro cliente quiere tener un cubo con información respectiva a contratos: centro/s en el que se realiza, fase, tipo_contrato y con varias métricas; entre ellas financiación y num_participantes.

Lo que sucede es que nuestro cliente no tiene la financiación correspondiente a cada participante, es decir, no tenemos ese desglose en el origen, con lo que las granularidades no coinciden.

La solución:

- A nivel de ETL cargue dos tablas de hechos, una con la métrica financiación (y otras) y otra sin métricas (factless fact table)

- En el esquema de mondrian, creé dos cubos. Y utilicé todas las shared dimensions, las saqué fuera (usando el dimensionusage). En mi caso, como las dos estrellas tenían las mismas dimensiones todas eran dimensiones compartidas, pero puede ser que no lo sean.

- Después cree el cubo virtual tal como dice en el “Mondrian Docs” y voilá.

Buen ejemplo de Infografia de Google

En Google Think Insights, tenemos un buen ejemplo de uso de la Infografía, las cifras y buena visualización para mostrar Información, en este caso del comportamiento del mercado y usuarios en la tecnología movil.

13 may. 2011

Llegamos a los 100 followers



Bueno, en apenas cuatro semanas, ya tenemos 100 seguidores. No somos alejandro sanz o charly sheen....

Os queremos dar las gracias!!
Seguiremos ofreciendo las noticias más actualizadas en Open Source y Business Intelligence.

Suscribirse a Twitter TodoBI_OS

Video sobre PALO Roadshow

Os mostramos un video muy interesante sobre PALO, una herramienta que nos gusta mucho.

11 may. 2011

Mapa de la Casa Blanca con los edificios vacios de la Administración

Gran inicitativa. Ver mapa interactivo.

Historias de Innovacion empresarial



Esto son historias reales:


1.- LA NASA :
Cuando antes de los '60 la NASA emprendió el lanzamiento de astronautas al espacio, advirtieron que sus bolígrafos no funcionarían en gravedad cero, ya que la tinta no bajaría a la superficie en que se deseara escribir.
Al cabo de 6 años de pruebas e investigaciones que demandaron un gasto de 12 millones de dólares, lograron desarrollar un bolígrafo que funcionaba en gravedad cero, abajo del agua, sobre cualquier superficie incluyendo cristal y en un rango de temperaturas que iban desde bajo cero hasta 300 grados centígrados. Los rusos, por su parte, descartaron los bolígrafos y dieron lápices a sus tripulaciones para que pudieran escribir.

2.- EL EMPAQUETADO DE JABONES :
En 1970, un ciudadano japonés envió una carta a una fábrica de jabones de Tokio, reclamando haber adquirido una cajita de jabones que -al abrirla- estaba vacía. El reclamo puso en marcha todo un programa de gestión administrativa y operativa; los ingenieros de la fábrica recibieron instrucciones de diseñar un sistema que impidiera que esta dificultad volviera a repetirse. Luego de mucha discusión, los ingenieros estaban de acuerdo que el problema se había suscitado en la cadena de empaquetado de los jabones, donde una cajita en movimiento no fue llenada con el jabón respectivo. Por indicación de los ingenieros se diseñó e instaló una sofisticada máquina de rayos "X" con monitores de alta resolución, operada por dos trabajadores
encargados de vigilar todas las cajas de jabón que salían de la línea de
empaquetado para de esa manera asegurarse de que ninguna estuviera vacía. El costo de esa máquina superó los 250,000 dólares.

Cuando la máquina de rayos "X" comenzó a fallar al cabo de cinco meses de ser operada en los tres turnos de la empresa, un obrero del área de empaquetado pidió prestado un potente ventilador y lo apuntó hacia la parte final de la faja transportadora. Mientras las cajitas avanzaban en tal dirección, las que estaban vacías simplemente salían volando de la línea de empacado.

10 may. 2011

Creamos el sistema de Cuadros de Mando y Reporting para Opinat.



Desde Stratebi y usando software Open Source, componentes de Pentaho, STPivot, GWT y desarrollos propios, hemos participado en la creación y lanzamiento de esta prometedora web que ha creado el equipo de Opinat, el cual ha sido un gran desafío y una gran oportunidad.


Que es Opinat?

  1. Herramienta para escuchar y gestionar la opinión de sus clientes a través del método NPS ®

  2. Opinat le permite identificar y actuar en tiempo real ante sus clientes insatisfechos.

  3. Opinat le muestra lo que le piden sus clientes sobre sus productos/servicios.

  4. Con Opinat formación le ayudamos a mejorar y proporcionar a sus clientes lo que esperan de su empresa.

Y que es el índice NPS si no un indicador? Pues si, es un indicador, y muy bueno para medir el grado de satisfacción de nuestros clientes 2.0. Hemos participado en este proyecto, pionero en España, proporcionando la capa de B.I. con Pentaho CE + Eclipse BIRT + Desarrollos propios basados en OLAP4J + GWT. Este proyecto ha sido interesante por varios motivos, además del propio contenido del proyecto, el índice NPS. Algunos de dichos motivos son:
  • Realización de un proyecto donde el consumidor del la soluciones no es el propio cliente sino que este re-vende los servicios a terceros por lo que había que hacer una solución independiente por cada cliente de la aplicación.
  • Los usuarios de la solución son Directivos 2.0 por lo que había que asegurarse de:
    • Rendimiento óptimo.
    • Carga de datos Real-Time.
    • Flexibilidad e independencia de las diferentes soluciones.
    • Diseño atractivo y eficiente
  • Incorporar desarrollos con la recién salida y potente librería olap4j
Hemos proporcionado los siguientes componentes, que se pueden ver en los ejemplos (con datos no reales):

Vistas OLAP vitaminadas con STPivot
  • Vistas independientes para cada cliente
    • Exportables a Excel y PDF
    • Con una interfaz mejorada respecto a JPivot
    • Con Gráficas flotantes
    • Y todas las mejoras que supone STPivot.


Informes con Eclipse BIRT

  • Independientes para cada cliente incluso en los estilos.
  • Informes exportables a Excel y PDF



Cuadro de Mando con GWT
  • Independientes para cada cliente.
  • Con tecnología GWT + olap4j
  • Integrado con Google Maps
  • Gran poder de análisis gracias a los filtros Avanzados.

9 may. 2011

Los creadores de Youtube compran una empresa Business Intelligence



... además de delicious, hace poco. Se trata de Tap11, una plataforma BI, para medir en tiempo real, la información de redes sociales como twitter y facebook.

Estamos en Brasil, en el principal evento de Software Libre



Estamos en Brasil, en Brasilia en concreto. Esta semana se celebra el CONSEGI, el mayor evento de Software Libre de Brasil, que este año tiene a España como país de referencia y en donde hemos sido invitados para participar en una ponencia y hablar sobre Business Intelligence Open Source (ya os iremos contantdo).


En el evento, en la representación española también estarán Cenatic, CTIC, ProBono Publico y representantes del Gobierno en temas de Administración electrónica.

6 may. 2011

Rendimiento de consultas MDX en distintos modelos

Recientemente hemos estado haciendo una comparativa en Stratebi de rendimiento de consultas MDX sobre un modelo de datos en estrella y un modelo de datos en tabla plana de un cubo “estándar”. La comparativa se ha basado en medir los tiempos de ejecución de distintas consultas MDX para distintos tamaños de tablas de hechos (desde 10.000 hasta 1.000.000 de registros).

Los resultados (ver gráfico) han determinado que hasta los 10.000 registros los dos modelos se comportan de forma similar tardando menos de un segundo en ambos casos. Para valores superiores de número de registros sí es aconsejable utilizar un modelo en estrella para representar los datos. Os dejamos la información de la prueba. Descargar documento de pruebas.

1 Datos

Dimensiones y medidas de los datos:

Dimensión

Niveles

Formato

Geografía

Comunidad Autónoma - Provincia

Texto

Cliente

Nombre

Texto

Tiempo

Fecha

Date (yyyy-mm-dd hh:mm:ss)

Medida

Formato

Rango

Horas

Entero

0 – 1000

Importe

Entero

0 – 12.000.000

Número de registros en la tabla de hechos usadas para las pruebas:

- 1.000.000

- 250.000


2 Software

- Dos maquinas virtuales con SO Ubuntu 10.04 64 bits sobre un sistema operativo base XEN Cloud 1.0.

- Máquina virtual con Pentaho 3.7

- Máquina virtual para la base de datos MySQL

3 Modelos a comparar

Los dos modelos a comparar son los siguientes:


3.1 Modelo en estrella

3 tablas de dimensiones y una tabla de hechos.

Tablas

Número de registros

d_geo

50

d_clientes

23

d_tiempo

1,880

h_hechos

1.000.000

3.2 Modelo en tabla plana

Una sola tabla con 1.000.000 de registros.

4 Consultas MDX y SQL generadas

4.1 Descripción de las consultas MDX

Para hacer la comparativa se han utilizado tres consultas MDX

que se detallan a continuación:

- Consulta 1: vista inicial de las dimensiones agregadas y medida horas.

- Consulta 2: vista con el primer nivel de la dimensión geografía desplegado y medida horas.

- Consulta 3: vista con la dimensión tiempo desplegada en un elemento del segundo nivel de la dimensión geografía y con la dimensión cliente desplegada en un elemento del primer nivel de la dimensión geografía. La medida usada es horas.

5 Tiempos de ejecución

Se han realizado dos pruebas. La primera, para 1.000.000 de registros en la tabla de hechos, calcular el tiempo de ejecución de las tres consultas con los dos modelos. Los resultados (en segundos) se pueden observar a continuación y corresponden a la media de 5 mediciones individuales.


Consulta 1

Consulta 2

Consulta 3

Estrella

0,62

4,56

24,02

Tabla plana

2,9

22,86

60,63

La segunda prueba consiste en, para la consulta 3, ejecutarla para distintos tamaños de la tabla de hechos y en los dos modelos. Los resultados (en segundos) corresponden a la media de cinco mediciones.


10k

50k

100k

250k

500k

1000k

Estrella

0,17

0,59

1,05

2,89

5,13

24,02

Tabla plana

0,56

2,58

4,9

13,15

24,26

60,63


6 Conclusiones

6.1 Observaciones

Tamaño de los datos

- Modelo en estrella: 21,2 MB

- Modelo en tabla plana: 73,6 MB

Preparación del entorno

En el modelo en estrella hay que crear el esquema de mondrian. En el caso de utilitzar una tabla plana no hay que crearlo pero usando el Administrador de Data Sources se debe modificar el esquema (niveles).

Número de consultas SQL por consulta MDX

Para ambos modelos se realiza el mismo número de consultas SQL por cada consulta MDX utilizada en la comparativa.

Consultas SQL generadas

- Para consultar información de la tabla de hechos, el modelo de tabla plana utiliza una nueva consulta (select provincia, comunidad, fecha, nombre_cliente, horas, importe from hechos) dentro de la cláusula from (ver consulta SQL generada para la consulta MDX 1).

- Las consultas que requieren de sólo una dimensión sin la tabla de hechos en el modelo de estrella, utilizan la tabla de hechos entera en el modelo de tabla plana (ver consulta SQL 1 generada para la consulta MDX 2).

- Las consultas que requieren hacer un join de una o más dimensiones y la tabla de hechos en el modelo de estrella, requieren sólo de la tabla de hechos en el modelo de tabla plana obviando la cláusula where (ver consulta SQL 3 generada para la consulta MDX 2).

6.2 Conclusiones

Después de realizar la primera prueba de ejecución se ha podido comprobar que el modelo en estrella es más rápido debido al hecho de tener la información separada por dimensiones y hechos y seleccionar en todo momento el mínimo número de tablas para las consultas SQL a realizar.

Con la segunda de las pruebas se ha querido encontrar el límite de registros para el cual la diferencia de tiempo entre la utilización de un modelo u otro es despreciable. Tal y como se puede ver en el gráfico , hasta los 10.000 registros los dos modelos se comportan de forma similar tardando menos de un segundo en ambos casos. Para valores superiores de número de registros sí es aconsejable utilizar un modelo en estrella para los datos.