Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

27 jun. 2017

Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)


Hace ya algunos meses que mostramos cómo el motor OLAP de código libre Apache Kylin hace posible el análisis OLAP sobre Big Data, o lo que es lo mismo, la posibilidad de realizar consultas analíticas con tiempos de respuesta inferiores al segundo sobre enormes volúmenes de datos (hasta billones y trillones de filas).
Y a los que además acompañan otras características como la necesidad de capturarlos y analizarlos en tiempo real, o la integración desde múltiples fuentes datos menos estructuradas.

Además, mostramos en un caso de estudio cómo integrar Apache Kylin con el motor OLAP Pentaho Mondrian para la creación de vistas multidimensionales con visores como STPivot, haciendo también posible la consulta del Big Data mediante el lenguaje MDX. También mostramos cómo integrar Apache Kylin con Apache Zeppelin, herramienta de exploración de datos para la creación de cuadros de mando interactivos.

Sin embargo, en este nuevo caso de estudio hemos querido analizar la integración de Kylin con herramientas comerciales como Tableau, una de las herramientas para la creación de cuadros de mando y exploración de datos por usuarios finales más conocidas en el mundo del Business Intelligence. A continuación mostramos el vídeo del making off de nuestra nueva demo.




Y, aquí, el diagrama de la arquitectura Kylin + Tableau:
Como puede verse en el diagrama anterior, el almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella o copos de nieve (nuevo en Kylin 2.0)  y se mantiene en Apache Hive. 
A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline con Map Reduce o Spark (nuevo en Kylin 2.0), crea un cubo multidimensional (MOLAP) en la BD NoSQL Apache HBase. 
En el caso de Kylin, el cubo MOLAP lo forman un conjunto de estructuras que pre agregan o resumen los datos a distinto nivel, siendo esta característica una de las que más reducen el tiempo de consulta. A partir de este momento, Kylin permite hacer consultas sobre el cubo MOLAP generado a través de su interfaz SQL, también accesible a través de conectores J/ODBC.
Precisamente gracias a la disponibilidad de conexión ODBC, es posible conectar Kylin con herramientas como Tableau o Power BI.  En nuestro caso, hemos hecho uso de las herramientas Tableau Desktop y Tableau Public para la creación de un cuadro mando sobre un cubo OLAP que contiene datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos Big Data, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. 
En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
En primer lugar hemos usado Tableau Desktop, herramienta comercial, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zeppelin

La herramienta Tableau Desktop facilita a los usuarios finales de los datos (ej. analistas u otras personas del negocio) la creación y publicación de completos cuadros de mando, arrastrando y soltando las fuentes de datos y gráficos en un lienzo. A continuación mostramos una captura del diseño del cuadro de mando con Tableau Desktop.

















Tras esto, publicamos nuestro cuadro de mando para compartirlo con el resto de nuestra organización. Si requerimos una conexión en vivo necesitaremos una licencia de Tableau Server o Tableau Online. 

Sin embargo, podemos optar por crear un extracto de los datos y publicar el cuadro de mando con la herramienta gratuita Tableau Public, como es el caso de nuestro cuadro de mando de ejemplo. Como podemos ver la web de la demo y en la siguiente captura, el resultado es un cuadro de mando con un aspecto profesional y cuyo desarrollo es fácil, incluso para un usuario no experto en Big Data y herramientas BI como Tableau.































Cómo veis, se abren unas posibilidades increibles, al poder realizar auténtico Business Intelligence sobre Big Data. Para cualquier cuestión, estaremos encantados de ayudaros en vuestros proyectos


22 jun. 2017

Metodologias Agiles para BI/DW


En este post, os vamos a contar como hacer proyectos ágiles en Business Intelligence/Data Warehouse.
Realmente, os vamos a contar unos tips o consejos que cada vez usamos más en nuestros proyectos en Stratebi, que nos cuenta Emilio Arias

Tradicionalmente, este enfoque se ha aplicado más a proyectos en los que el componente de 'desarrollo' tiene un peso muy importante y se hace muy difícil aplicarlo al BI/DW, donde los requisitos, el manejo de datos de negocio y la participación de perfiles de interlocutores muy diversos lo hace muy difícil.


A. El enfoque tradicional de planificación en BI/DW

- La planificación de proyectos en cascada (con diagramas de Gantt) que todos conocéis (lleva usándose más de 70 años) se ha demostrado imperfecto a la hora de conseguir que un proyecto BI sea exitoso. Que quiere decir 'un proyecto BI exitoso'? quiere decir 'que se use' por la mayor parte de la organización y es porque les ofrece 'lo que necesitan'

- Los diferentes planteamientos teóricos de construcción (Kimball, Inmon, Data Vault) se han demostrado muy útiles para reflejar el diagrama de modelos y almacenes de datos, pero la ejecución en el día a día, nos ha demostrado que se requieren enfoques ágiles para llevarlos a la práctica



- Los problemas surgen pues 'Cómo se había hecho una planificación', 'con muchos meses por delante', cuando surge un problema de arquitectura, de volumen, cambio de requerimientos, mejoras de software... el encaje y respuesta rápida se hace imposible

- Al ser proyectos con un alcance ya cerrado y difícil de cambiar, 'proyectos caja negra', los usuarios e interesados en el proyecto no lo sienten como suyo, generando reticencias sobre su uso, al no sentirse partícipes, pues sus propuestas y sugerencias, 'suelen llegar tarde'




B. Los 20 puntos clave para un proyecto Agile BI/DW

1. Haz prototipos (antes, durante y después). No dejes de hacerlos, son la mejor herramienta para garantizar que se va en el buen camino

2. Ten un entorno preparado para los prototipos rápidos (entorno en la nube, componentes predefinidos, procesos automatizados...)

3. Usa metodologías ágiles. Hay muchas... (scrum...), lo más importante es el cambio de mentalidad y empezar a usarlas

4. La regla de oro: mejor rehacer un 30% ahora que un 100% dentro de 6 meses. No tengas miedo a que te hagan cambios en los prototipos. Siempre será mejor que ir a ciegas

5. Todo el equipo se siente implicado desde el momento inicial. Y sienten que sus opiniones cuentan

6. La tradicional batalla entre usuarios-IT-Consultores, por sus diferentes prioridades, se minimiza al colaborar desde momentos muy tempranos y con la tranquilidad de que 'hay tiempo para corregir errores'

7. En este tipo de proyectos, encontrar un 'product owner' es complicado, pero lo tenéis que hacer. Debe ser de negocio

8. Solventa cuanto antes los puntos de fricción 'top-down', 'down-top', desde la importancia de la calidad del datos, los procesos ETL y los metadatos a los análisis de negocio en tiempo real, KPIs, etc... (en el punto intermedio, todos los participantes deberán alinearse)

9. Haz los planes de pruebas no al final, sino al día siguiente de empezar

10. Necesitas un Project Manager (el que está al tanto de todo, conoce a todos, convoca y resume las reuniones, etc...) Necesitas una cabeza visible y clara que todos 'identifiquen con el proyecto'

11. Mide y cuenta los avances, genera satisfacción con lo conseguido
12. Reuniones breves al principio de cada día y más amplias cada semana

13. Nunca pongas la presentación de un hito, avance, etc.. un lunes por la mañana (es de malos gestores, contar con el fin de semana de colchón) y genera ansiedades

14. Usa el BI (cubos, dashboards..) de forma ágil para validar rápidamente la calidad de los datos, tiempos de ejecución, etc... BI por partida doble

15. Deja que los usuarios se acerquen al BI. Desde las fases iniciales pierde el miedo a que accedan, toquen, rompan, se frustren, se sorprendan, se quejen de lo que van viendo...

16. No dejes el diseño y usabilidad para el final. Aunque pienses que es secundario y posterior, deber ir paralelo al desarrollo. Si no lo haces, la implicación de usuarios decaerá enormemente

17. Con AgileBI vas a tener que seguir documentando (de otra forma, con herramientas online (trello, podio, etc...), pero lo harás

18. Con AgileBI se necesita más disciplina, no menos. Esto es muy importante. Se asocia a cierto caos y es todo lo contrario. Se trata de trabajar como los mecánicos que cambian las ruedas en Formula 1

19. Tienes que tener a la gente motivada en el proyecto (esto se consigue con todo lo anterior), pero si haces todo lo anterior y no están motivados, 'el problema eres tú'

20. Un proyecto BI/DW nunca, nunca, nunca se acaba. Si lo das por acabado, también será un fracaso

Adenda: Si usas BI Open Source (por su flexibilidad, ahorro de costes e integración), tienes 'muchos' más puntos para conseguir tu objetivo

Te puede interesar:

- Big Data para Dummies
- Comparativa de herramientas Business Intelligence
- Descarga gratuita del Libro de un buen amigo y gran especialista, Roberto Canales: 'Transformacion Digital y Metodologías Agiles'
- Así se convierten los datos en conocimiento
- Como aprender Big Data en dos horas



21 jun. 2017

Oferta de empleo Business Analytics (Business Intelligence, Big Data)

Nuestros compañeros de Stratebi tienen posiciones abiertas para trabajar en el campo del Business Intelligence, Big Data y Social Intelligence en Madrid y Barcelona. Si estás interesado, no dejes de echarle un vistazo y enviarnos tu CV: rrhh@stratebi.com


Posiciones Abiertas: Verano 2017

Debido a la ampliación de operaciones en Madrid y Barcelona, estamos buscando verdaderos apasionados por el Business Analytics y que hayan tenido interés en soluciones Open Source y en el desarrollo de tecnologías abiertas. Y, sobre todo, con ganas de aprender en nuevas tecnologías como Big Data, Social Intelligence, IoT, etc... 

Si vienes del mundo frontend, desarrollo de visualizaciones en entornos web, también serás un buen candidato 

Si estas leyendo estas lineas, seguro que te gusta el Business Intelligence. Estamos buscando a personas con gran interés en este área, que tengan una buena formación técnica y alguna experiencia en la implementación de proyectos Business Intelligence en importantes empresas con (Oracle, MySQL, Powercenter, Business Objects, Pentaho, Microstrategy...) o desarrollos web adhoc. También se valorarán candidaturas sin experiencia profesional en este campo, pero con interés en desarrollar una carrera profesional en este área.


Mucho mejor, si además fuera con BI Open Source, como Pentaho, Talend... y conocimientos de tecnología Big Data y Social Media, orientado a la visualización y front-end



Todo ello, será muy útil para la implementación de soluciones BI/DW con la plataforma BI Open Source que está revolucionando el BI: Pentaho, con la que mas trabajamos, junto con el desarrollo de soluciones Big Data, Social Intelligence y Smart Cities

Si ya conoces, o has trabajado con Pentaho u otras soluciones BI Open Source será un punto a favor. De todos modos, nuestro Plan de Formación te permitirá conocer y mantenerte actualizado en estas soluciones.

¿Quieres saber un poco mas sobre nosotros y las características de las personas y perfiles que estamos buscando para 'subirse al barco'?


¿Qué ofrecemos?


- Trabajar en algunas de las áreas de mayor futuro y crecimiento dentro del mundo de la informática: Business Intelligence, Big Data y el Open Source.
- Colaborar en la mejora de las soluciones Bi Open Source, entre las que se encuentran desarrollando algunas de las empresas tecnológicas más importantes.
- Entorno de trabajo dinámico, aprendizaje continuo, variedad de retos.
- Trabajo por objetivos.
- Considerar el I+D y la innovación como parte principal de nuestros desarrollos.
- Retribución competitiva.
- Ser parte de un equipo que valora a las personas y al talento como lo más importante.


Ya sabes, si te gusta la idea, escribenos, contando tu interés y un CV a:  rrhh@stratebi.com

O si conoces a alguien, que crees que le podría encajar, no dudes en reenviarselo.




Detalle de algunas tecnologías que manejamos:

Conocimientos de Bases de datos:
- Administracion
- Desarrollo
- Oracle, MySql, PostgreSQL, Vertica, Big Data

- Conocimientos de BI y Datawarehousing con Pentaho u otros BI comerciales (BO, Powercenter, Microstrategy...)
- Modelado de DataWarehouse
- ETL
- Cuadros de mando
- Reporting, OLAP...

- Conocimientos de linux
- Bash scripting
- Configuracion de servidores y servicios
- Conocimientos de Java y J2EE
- Tomcat
- Jboss
- Spring
- Hibernate
- Ant
- Git

15 jun. 2017

Free tools for Pentaho



Our colleagues from Stratebi (analytics specialists), have developed a suite of tools for Pentaho or embed in your own application, that includes:

- Improvements in BI Server Console (search, tags...)
- OLAP viewer and Adhoc Reporting improved
- New tools for end users self service dashboarding

- New amazing scorecard solution on top of Pentaho stack- Powerful predefined real time dashboards
- Integration with Big Data technologies
- They are free and you can get open source code

- They only charge support, training and maintenance in order to give you security using this tools in production environments avoiding bugs, including updgrade to new versions (contact with them)
- Forget licenses costs!!

See in action:

Demo_Pentaho - Big Data


14 jun. 2017

Una introduccion al Machine Learning con emojis




A step-by-step guide for this sheet: 
  • Learning Styles
  • Regressions
  • Classification
  • Clustering
  • The Curse of Dimensionality
  • Our * Wildcard * Section


Check out all this information, here


12 jun. 2017

Si quereis conocer R, visitad esto sitios



Os recomendamos estos sitios. No os lo perdáis:

Shiny

R-bloggers

RStudio







9 jun. 2017

Pentaho Data Integration Webspoon (ETL Web)



Pentaho Data Integration Webspoon nos permite utilizar una de las herramientas más potentes en cuanto a integración de datos en entorno web. Un gran paso para estas herramientas, tradicionalmente usadas en desktops.




Para conocer más de PDI, revisar este enlace en que lo comparábamos con Talend



Gracias a Hiromu Hota, Webspoon es posible. Lo mejor es decargarlo e instalarlo, pues es muy sencillo y probarlo. 
Os dejamos unas slides que os pueden ser útiles



FrontRunners for Business Intelligence, April 2017, powered by Gartner Methodology



These are the facts, take your conclusions. Study detail

You can check too, our Business Intelligence Comparison Report, 300 pages (spanish)

7 jun. 2017

Diferencias entre Data Lake y Data Warehouse



Let’s briefly take a look at each one:
  • Data. A data warehouse only stores data that has been modeled/structured, while a data lake is no respecter of data. It stores it all—structured, semi-structured, and unstructured. [See my big data is not new graphic. The data warehouse can only store the orange data, while the data lake can store all the orange and blue data.]

  • Processing. Before we can load data into a data warehouse, we first need to give it some shape and structure—i.e., we need to model it. That’s called schema-on-write. With a data lake, you just load in the raw data, as-is, and then when you’re ready to use the data, that’s when you give it shape and structure. That’s called schema-on-read. Two very different approaches.

  • Storage. One of the primary features of big data technologies like Hadoop is that the cost of storing data is relatively low as compared to the data warehouse. There are two key reasons for this: First, Hadoop is open source software, so the licensing and community support is free. And second, Hadoop is designed to be installed on low-cost commodity hardware.

  • Agility. A data warehouse is a highly-structured repository, by definition. It’s not technically hard to change the structure, but it can be very time-consuming given all the business processes that are tied to it. A data lake, on the other hand, lacks the structure of a data warehouse—which gives developers and data scientists the ability to easily configure and reconfigure their models, queries, and apps on-the-fly.

  • Security. Data warehouse technologies have been around for decades, while big data technologies (the underpinnings of a data lake) are relatively new. Thus, the ability to secure data in a data warehouse is much more mature than securing data in a data lake. It should be noted, however, that there’s a significant effort being placed on security right now in the big data industry. It’s not a question of if, but when.

  • Users. For a long time, the rally cry has been BI and analytics for everyone! We’ve built the data warehouse and invited “everyone” to come, but have they come? On average, 20-25% of them have. Is it the same cry for the data lake? Will we build the data lake and invite everyone to come? Not if you’re smart. Trust me, a data lake, at this point in its maturity, is best suited for the data scientists.
Visto en kdnuggets

6 jun. 2017

LinceBI, the best Analytics/BigData open source based solution!!

As powerful as an enterprise version, with the advantages of being Open Source based. Discover LinceBI, the most complete Bussines Intelligence platform including all the functionalities you need


Dashboards
  • User friendly, templates and wizard
  • Technical skills is not mandatory
  • Link to external content
  • Browse and navigate on cascade dependency graphs
Analytic Reporting
  • PC, Tablet, Smartphone compatibility
  • Syncs your analysis with other users
  • Download information on your device
  • Make better decisions anywhere and anytime
Bursting
  • Different output formats (CSV, Excel, PDF, HTML)
  • Task scheduling to automatic execution
  • Mailing
Balance Scorecard
  • Assign customized weights to your kpis
  • Edit your data on fly or upload an excel template
  • Follow your key performance indicators
  • Visual kpis, traffic lights colours
  • Assign color coding to your threshold
  • Define your own key performance indicators
Accessibility
  • Make calculated fields on the fly
  • Explore your data on chart
  • Drill down and roll up capabilities
  • What if analysis and mailing

Adhoc Reporting
  • Build your reports easily, drag and drop
  • Models and languaje created to Business Users
  • Corporative templates to your company
  • Advanced filters
Alerts
  • Configure your threshold
  • Mapping alerts and business rules
  • Planning actions when an event happen
Check FAQs section for any question