Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Se convoca Curso Business Intelligence Open Source. No te lo pierdas!!

Quieres aprender sobre Pentaho, Mondrian, Saiku, CTools, Talend y más... de los expertos?

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 6 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2016

25 de mayo de 2016

Predice el ganador de la Champions League con Business Intelligence


Es posible conocer si será el Real Madrid o el Atletico de Madrid el ganador de la Champions League?

Con Jedox BI lo tienes más fácil




Si te gusta el deporte, las estadísticas y el Business Intelligence echa un vistazo a:

- Real Madrid vs FC Barcelona 
- Champions League Analytics
- La Liga Analytics



12 de mayo de 2016

Pentaho BI Server integration with Jasig CAS. A Quick Installation Guide


This quick installation guide aims to deploy a Pentaho Business Intelligence Server (BISERVER), version 5.4.0.1 Community Edition, in a local environment configured to use Central Authentication Service (CAS) protocol.

CAS provides access to a user to multiple systems with a single log-in process (Single sign-on, SSO). It requires that all established communications are conducted through Secure Sockets Layer (SSL), by which an  X.509 certificate will be also also needed for this deployment

Documento en español

Whitepaper in english


Streaming SQL with Apache Calcite



A new approach to Business Intelligence using Big Data Technologies by Julian Hyde, creator of Mondrian OLAP




8 de mayo de 2016

Cuestionario: Cuantos tipos de graficos conoces?


Para todos los que os gusta el Business Intelligence os va a encantar este test. Eso sí, os va a desesperar un poco ver como no recordáis el nombre de muchos gráficos de uso común.

Adelante con ellos: Entrar al Cuestionario

5 de mayo de 2016

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:


Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport  generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:



Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil

·  


La historia de Pentaho

Una gran historia de la que formamos parte desde los comienzos y con un gran futuro


29 de abril de 2016

12 aplicaciones gratuitas para crear Dashboards



Muchos de vosotros nos preguntáis sobre los Dashboards, que cada vez son mas demandados para soluciones de todo tipo: Business Intelligence, Real Time, Big Data, IoT, Direccion (EIS), etc...

Os traemos una recopilación de 12 soluciones gratuitas para tener cuadros de mando, en algunos casos, además son open source y en otros puedes tenerlo en tus propios servidores sin depender del fabricante de software comercial, como veis hay algunos casos

ClicData is a cloud based dashboard platform that successfully delivers an easy to use, drag and drop graphical interface, while providing the tools for power users to deliver high levels of sophistication. 

Bittle supports the creation of online dashboards specifically for the SME user. The free package restricts data storage and data sources, and comes with a standard graphics library (instead of a more advanced one). Bittle also supports report creation.

Dash supports real-time dashboards for websites, business and personal use. The free version supports a single dashboard.

STDashboard is a no license solution working on top of open source solutions like Pentaho, Mondrian... where a user can create a lot of dashboards in minutes, including external content as reports, olap views and any web content. Not require user technical skills



CDE supports dashboards for websites, business and personal use in Pentaho. It requires technical skills, but you can get powerful Dashboards
Dashzen supports the creation of both private and public dashboards in the cloud. Private dashboards can be shared with nominated people. A variety of gadgets make up a dashboard, some of which are connected with various data sources (salesforce, Twitter, StackExchange etc).

InetSoft provide a free version of their excellent Style Scope platform. Style Scope Free Edition is a small-footprint server that delivers Web-based interactive Flash dashboards and visualizations that can be shared within an organization. The Java-based application can be installed on any Windows, Unix, or Mac desktop and can be connected to data in standard relational databases as well as spreadsheets.

Power BI Designer is a business dashboard and data management tool, and it seems Microsoft has at last realised there is an analytical world outside Excel. Free restricted for some cases

SAP Lumira lets you understand your data by building visualizations using a drag and drop interface. Combine and analyze data from Excel and other enterprise sources and quickly discover unique insight – no scripts, predefined queries or reports required. Free restricted for some cases

Slemma is a cloud BI and dashboard software that allows devs and non-devs alike to do ad hoc visual analysis against data.  Slemma plugs in directly to the most popular databases (including XMLA data sources), cloud storage and cloud services, and allows to bypass the need for a warehouse. It is easy to create a dashboard by using intuitive drag-and-drop interface or writing and running SQLs to build charts.


Syncfusion Essential Studio Community License provides free access to the entire product offering for individual developers and small businesses. It includes all products available in Essential Studio Enterprise Edition and the enterprise solutions for big data, dashboards and reporting. Support and updates are also included. 

Netvibes is more geared to social media analytics, but can also be used outside this domain. The free service provides the dashboard and reader.

Qlik Sense is a next-generation, self-service data visualization and analysis application that empowers business users to easily create personalized visualizations, reports and dashboards with drag-and-drop simplicity. Free restricted for some cases

SpagoBI provides dashboard capability as part of a much larger open source BI suite. SpagoBI offers a specific engine allowing the development of real-time monitoring consoles, to be used in Business, operational and BAM (Business Activity Monitoring) processes.


Zoho Reports is an online reporting and business intelligence service that helps you easily analyze your business data, and create insightful reports & dashboards for informed decision-making. It allows you to create and share powerful reports. The free service limits users (2) and data, and has cut down functionality.

Mas info
Dashboards y Visualizacion
Curso de Visualización y Dashboards

Visto en ButlerAnalytics

25 de abril de 2016

Ranking de principales usos y tecnologias del Big Data


Se habla mucho de Big Data, sus tecnologías, aplicaciones, etc... pero resulta difícil concretar el principal uso que le podemos dar, así como su nivel de madurez. 

A continuación se indican las principales tecnologías en las que tiene una aplicación real:
  1. Predictive analytics: software and/or hardware solutions that allow firms to discover, evaluate, optimize, and deploy predictive models by analyzing big data sources to improve business performance or mitigate risk.
  2. NoSQL databases: key-value, document, and graph databases.
  3. Search and knowledge discovery: tools and technologies to support self-service extraction of information and new insights from large repositories of unstructured and structured data that resides in multiple sources such as file systems, databases, streams, APIs, and other platforms and applications.
  4. Stream analytics: software that can filter, aggregate, enrich, and analyze a high throughput of data from multiple disparate live data sources and in any data format.
  5. In-memory data fabric: provides low-latency access and processing of large quantities of data by distributing data across the dynamic random access memory (DRAM), Flash, or SSD of a distributed computer system.
  6. Distributed file stores: a computer network where data is stored on more than one node, often in a replicated fashion, for redundancy and performance.
  7. Data virtualization: a technology that delivers information from various data sources, including big data sources such as Hadoop and distributed data stores in real-time and near-real time.
  8. Data integration: tools for data orchestration across solutions such as Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase, Hadoop, and MongoDB.
  9. Data preparation: software that eases the burden of sourcing, shaping, cleansing, and sharing diverse and messy data sets to accelerate data’s usefulness for analytics.
  10. Data quality: products that conduct data cleansing and enrichment on large, high-velocity data sets, using parallel operations on distributed data stores and databases.

Visto en Forbes

22 de abril de 2016

Listado completo de Open Data Portals en el mundo



Open Data Inception es una web imprescindible para todos los que trabajamos con Datos Abiertos. Muy recomendable

17 de abril de 2016

Ranking de las mejores Bases de Datos

Mas de 300 bases de datos son evaluadas en la comparativa que realizan en DB-engines anualmente

Un imprescindible para todos los que manejan datos. Cada vez tenemos más opciones y tecnologías donde elegir. Ah, y la mayoría, son Open Source