Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

23 jul. 2017

Analytics en el Futbol


Cada vez son más los equipos de fútbol, agentes, entrenadores, periodistas, inversores y aficionados que echan mano del Business Intelligence y el Big Data, para sacar el mejor partido a los datos. Ahora, tenemos innumerables fuentes de datos con la que predecir y tomar decisiones.

Os contamos un poco más, pues afortunadamente, estamos pudiendo poner en la práctica, trabajando con equipos, todo lo mencionado:

- Por un lado, si recordáis, poníamos en segundo lugar de nuestro Ranking de películas sobre Analytics a 'Moneyball', que trata precisamente de esto mismo, pero aplicado al baseball

- Estamos colaborando como profesores en el Master de 'Experto en Análisis DEPORTIVO de Datos y BIG DATA' que organiza la Universidad de Valladolid, pionero en este ámbito

- Trabajamos con un buen amigo, Paco González, responsable del Master y cuyo enfoque podéis ver en esta entrevista en el Diario AS




- En TableroFutbolero podéis ver un buen ejemplo de aplicación de Analytics al Futbol, en este caso, hecho con software libre, si quieres ver un ejemplo con Tableau o con PowerBI, aquí puedes verlos también

Estos son algunas de las fuentes de datos que puedes manejar:

- Datos de Medios de comunicacion
- Redes Sociales
- Transfermarkt
- Datos de los servicios médicos de los equipos
- Datos de entrenamientos con o sin cámaras

Datos de empresas y proveedores de datos


1.- Opta Sports --> datos cuantitativos y cualitativos  con Widgets. Oficial de la liga y muy utilizados sus Widgets en Prensa
2.- Instat --> datos cuantitativos y cualitativos
3.- Stats Prozone --> Software para el análisis en vivo y post análisis de partido . Video, datos físicos (excepto en España),
4.- Tracab --> Empresa audiovisual que graba con cámaras y proporciona los ficheros de tracking
5.- Beemray --> Empresa que mide el impacto de la publicidad de las marcas en eventos deportivos
7.- Nacsport --> Software para análisis de videos deportivos, registro manual de los eventos de un partido.
8.- Wyscout --> Plataforma online con datos de scouting
9.- Er1c sports --> herramienta de scouting
10.- Metrica Sports --> Software de análisis audiovisual 
11.- Mediacoach --> Proveedor de datos físicos (velocidades, aceleraciones, distancia recorrida)





16 jul. 2017

Analytics humour


Great!!

Please, advise: 'Do insights, not charts'


8 jul. 2017

Free book: Location Intelligence for Dummies


One more time, good news from one of our favourite partners: Carto

You can see an example of the power of Location Intelligence (joining geomaps with Business Intelligence in this near real-time Dashboard with traffic information of Madrid City, using Carto, Pentaho, Mondrian OLAP, CDE and STPivot




Location intelligence (LI) helps businesses use location data to solve their most complex questions and challenges. This 24-page ebook is packed with useful frameworks, case studies, and additional resources to get started with location intelligence.




5 jul. 2017

Oferta de empleo Business Analytics (Business Intelligence, Big Data)

Nuestros compañeros de Stratebi tienen posiciones abiertas para trabajar en el campo del Business Intelligence, Big Data y Social Intelligence en Madrid y Barcelona. Si estás interesado, no dejes de echarle un vistazo y enviarnos tu CV: rrhh@stratebi.com


Posiciones Abiertas: Verano 2017

Debido a la ampliación de operaciones en Madrid y Barcelona, estamos buscando verdaderos apasionados por el Business Analytics y que hayan tenido interés en soluciones Open Source y en el desarrollo de tecnologías abiertas. Y, sobre todo, con ganas de aprender en nuevas tecnologías como Big Data, Social Intelligence, IoT, etc... 

Si vienes del mundo frontend, desarrollo de visualizaciones en entornos web, también serás un buen candidato 

Si estas leyendo estas lineas, seguro que te gusta el Business Intelligence. Estamos buscando a personas con gran interés en este área, que tengan una buena formación técnica y alguna experiencia en la implementación de proyectos Business Intelligence en importantes empresas con (Oracle, MySQL, Powercenter, Business Objects, Pentaho, Microstrategy...) o desarrollos web adhoc. También se valorarán candidaturas sin experiencia profesional en este campo, pero con interés en desarrollar una carrera profesional en este área.


Mucho mejor, si además fuera con BI Open Source, como Pentaho, Talend... y conocimientos de tecnología Big Data y Social Media, orientado a la visualización y front-end



Todo ello, será muy útil para la implementación de soluciones BI/DW con la plataforma BI Open Source que está revolucionando el BI: Pentaho, con la que mas trabajamos, junto con el desarrollo de soluciones Big Data, Social Intelligence y Smart Cities

Si ya conoces, o has trabajado con Pentaho u otras soluciones BI Open Source será un punto a favor. De todos modos, nuestro Plan de Formación te permitirá conocer y mantenerte actualizado en estas soluciones.

¿Quieres saber un poco mas sobre nosotros y las características de las personas y perfiles que estamos buscando para 'subirse al barco'?


¿Qué ofrecemos?


- Trabajar en algunas de las áreas de mayor futuro y crecimiento dentro del mundo de la informática: Business Intelligence, Big Data y el Open Source.
- Colaborar en la mejora de las soluciones Bi Open Source, entre las que se encuentran desarrollando algunas de las empresas tecnológicas más importantes.
- Entorno de trabajo dinámico, aprendizaje continuo, variedad de retos.
- Trabajo por objetivos.
- Considerar el I+D y la innovación como parte principal de nuestros desarrollos.
- Retribución competitiva.
- Ser parte de un equipo que valora a las personas y al talento como lo más importante.


Ya sabes, si te gusta la idea, escribenos, contando tu interés y un CV a:  rrhh@stratebi.com

O si conoces a alguien, que crees que le podría encajar, no dudes en reenviarselo.




Detalle de algunas tecnologías que manejamos:

Conocimientos de Bases de datos:
- Administracion
- Desarrollo
- Oracle, MySql, PostgreSQL, Vertica, Big Data

- Conocimientos de BI y Datawarehousing con Pentaho u otros BI comerciales (BO, Powercenter, Microstrategy...)
- Modelado de DataWarehouse
- ETL
- Cuadros de mando
- Reporting, OLAP...

- Conocimientos de linux
- Bash scripting
- Configuracion de servidores y servicios
- Conocimientos de Java y J2EE
- Tomcat
- Jboss
- Spring
- Hibernate
- Ant
- Git

1 jul. 2017

Cumplimos 12 años en TodoBI



Y solo os podemos decir... Gracias!!!

- Por seguirnos cada vez más
- Por vuestro feedback e ideas
- Por vuestros mails y comentarios de apoyo
- Por hacer más grande y conocido el mundo del Business Intelligence
- A todos aquellos que han aportado su conocimiento e interés escribiendo en muchos de las entradas colgadas
- A todos los que os parecen interesantes nuestros contenidos, papers, demos, videos, presentaciones, cursos... y nos recomendáis



30 jun. 2017

Superset, la solucion analitica Open Source de Airbnb



Son muchas las multinacionales de nueva aparición que comparten sus aplicaciones. Os hemos hablado de Ebay, Linkedin... Hoy os contamos sobre Superset de Airbnb:




Apache Superset is a data exploration and visualization web application.
Superset provides:

  • An intuitive interface to explore and visualize datasets, and create interactive dashboards.
  • A wide array of beautiful visualizations to showcase your data.
  • Easy, code-free, user flows to drill down and slice and dice the data underlying exposed dashboards. The dashboards and charts acts as a starting point for deeper analysis.
  • A state of the art SQL editor/IDE exposing a rich metadata browser, and an easy workflow to create visualizations out of any result set.
  • An extensible, high granularity security model allowing intricate rules on who can access which product features and datasets. Integration with major authentication backends (database, OpenID, LDAP, OAuth, REMOTE_USER, ...)
  • A lightweight semantic layer, allowing to control how data sources are exposed to the user by defining dimensions and metrics
  • Out of the box support for most SQL-speaking databases
  • Deep integration with Druid allows for Superset to stay blazing fast while slicing and dicing large, realtime datasets
  • Fast loading dashboards with configurable caching

Mas recursos:

MapD libera Open Source GPU-Powered Database

Tenemos una nueva Base de Datos abierta, MapD.

Este es el mensaje: "The code is available on Github under an Apache 2.0 license. It has everything you need to build a fully functional installation of the MapD Core database, enabling sub-second querying across many billions of records on a multi-GPU server. All of our core tech, including our tiered caching system and our LLVM query compilation engine, is contained in today’s open source release"



MapD nace para ofrecer altas velocidades en el campo de las bases de datos analíticas. Diseñada para procesar billones de registros en cuestión de milisegundos aprovechando el poder de cómputo que ofrecen los GPUs.

Construida precisamente para aprovechar al máximo todas las capacidades de hardware y software disponibles en tarjetas gráficas, ofrece a los analistas y científicos de datos, tiempos de respuesta de unos 3 órdenes de magnitud (x1000) por encima sobre las tecnologías empleadas anteriormente para estos propósitos

27 jun. 2017

Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)


Hace ya algunos meses que mostramos cómo el motor OLAP de código libre Apache Kylin hace posible el análisis OLAP sobre Big Data, o lo que es lo mismo, la posibilidad de realizar consultas analíticas con tiempos de respuesta inferiores al segundo sobre enormes volúmenes de datos (hasta billones y trillones de filas).
Y a los que además acompañan otras características como la necesidad de capturarlos y analizarlos en tiempo real, o la integración desde múltiples fuentes datos menos estructuradas.

Además, mostramos en un caso de estudio cómo integrar Apache Kylin con el motor OLAP Pentaho Mondrian para la creación de vistas multidimensionales con visores como STPivot, haciendo también posible la consulta del Big Data mediante el lenguaje MDX. También mostramos cómo integrar Apache Kylin con Apache Zeppelin, herramienta de exploración de datos para la creación de cuadros de mando interactivos.

Sin embargo, en este nuevo caso de estudio hemos querido analizar la integración de Kylin con herramientas comerciales como Tableau, una de las herramientas para la creación de cuadros de mando y exploración de datos por usuarios finales más conocidas en el mundo del Business Intelligence. A continuación mostramos el vídeo del making off de nuestra nueva demo.




Y, aquí, el diagrama de la arquitectura Kylin + Tableau:
Como puede verse en el diagrama anterior, el almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella o copos de nieve (nuevo en Kylin 2.0)  y se mantiene en Apache Hive. 
A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline con Map Reduce o Spark (nuevo en Kylin 2.0), crea un cubo multidimensional (MOLAP) en la BD NoSQL Apache HBase. 
En el caso de Kylin, el cubo MOLAP lo forman un conjunto de estructuras que pre agregan o resumen los datos a distinto nivel, siendo esta característica una de las que más reducen el tiempo de consulta. A partir de este momento, Kylin permite hacer consultas sobre el cubo MOLAP generado a través de su interfaz SQL, también accesible a través de conectores J/ODBC.
Precisamente gracias a la disponibilidad de conexión ODBC, es posible conectar Kylin con herramientas como Tableau o Power BI.  En nuestro caso, hemos hecho uso de las herramientas Tableau Desktop y Tableau Public para la creación de un cuadro mando sobre un cubo OLAP que contiene datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos Big Data, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. 
En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
En primer lugar hemos usado Tableau Desktop, herramienta comercial, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zeppelin

La herramienta Tableau Desktop facilita a los usuarios finales de los datos (ej. analistas u otras personas del negocio) la creación y publicación de completos cuadros de mando, arrastrando y soltando las fuentes de datos y gráficos en un lienzo. A continuación mostramos una captura del diseño del cuadro de mando con Tableau Desktop.


Tras esto, publicamos nuestro cuadro de mando para compartirlo con el resto de nuestra organización. Si requerimos una conexión en vivo necesitaremos una licencia de Tableau Server o Tableau Online. 

Sin embargo, podemos optar por crear un extracto de los datos y publicar el cuadro de mando con la herramienta gratuita Tableau Public, como es el caso de nuestro cuadro de mando de ejemplo. Como podemos ver la web de la demo y en la siguiente captura, el resultado es un cuadro de mando con un aspecto profesional y cuyo desarrollo es fácil, incluso para un usuario no experto en Big Data y herramientas BI como Tableau.


Cómo veis, se abren unas posibilidades increibles, al poder realizar auténtico Business Intelligence sobre Big Data. Para cualquier cuestión, estaremos encantados de ayudaros en vuestros proyectos


22 jun. 2017

Metodologias Agiles para BI/DW


En este post, os vamos a contar como hacer proyectos ágiles en Business Intelligence/Data Warehouse.
Realmente, os vamos a contar unos tips o consejos que cada vez usamos más en nuestros proyectos en Stratebi, que nos cuenta Emilio Arias

Tradicionalmente, este enfoque se ha aplicado más a proyectos en los que el componente de 'desarrollo' tiene un peso muy importante y se hace muy difícil aplicarlo al BI/DW, donde los requisitos, el manejo de datos de negocio y la participación de perfiles de interlocutores muy diversos lo hace muy difícil.


A. El enfoque tradicional de planificación en BI/DW

- La planificación de proyectos en cascada (con diagramas de Gantt) que todos conocéis (lleva usándose más de 70 años) se ha demostrado imperfecto a la hora de conseguir que un proyecto BI sea exitoso. Que quiere decir 'un proyecto BI exitoso'? quiere decir 'que se use' por la mayor parte de la organización y es porque les ofrece 'lo que necesitan'

- Los diferentes planteamientos teóricos de construcción (Kimball, Inmon, Data Vault) se han demostrado muy útiles para reflejar el diagrama de modelos y almacenes de datos, pero la ejecución en el día a día, nos ha demostrado que se requieren enfoques ágiles para llevarlos a la práctica



- Los problemas surgen pues 'Cómo se había hecho una planificación', 'con muchos meses por delante', cuando surge un problema de arquitectura, de volumen, cambio de requerimientos, mejoras de software... el encaje y respuesta rápida se hace imposible

- Al ser proyectos con un alcance ya cerrado y difícil de cambiar, 'proyectos caja negra', los usuarios e interesados en el proyecto no lo sienten como suyo, generando reticencias sobre su uso, al no sentirse partícipes, pues sus propuestas y sugerencias, 'suelen llegar tarde'




B. Los 20 puntos clave para un proyecto Agile BI/DW

1. Haz prototipos (antes, durante y después). No dejes de hacerlos, son la mejor herramienta para garantizar que se va en el buen camino

2. Ten un entorno preparado para los prototipos rápidos (entorno en la nube, componentes predefinidos, procesos automatizados...)

3. Usa metodologías ágiles. Hay muchas... (scrum...), lo más importante es el cambio de mentalidad y empezar a usarlas

4. La regla de oro: mejor rehacer un 30% ahora que un 100% dentro de 6 meses. No tengas miedo a que te hagan cambios en los prototipos. Siempre será mejor que ir a ciegas

5. Todo el equipo se siente implicado desde el momento inicial. Y sienten que sus opiniones cuentan

6. La tradicional batalla entre usuarios-IT-Consultores, por sus diferentes prioridades, se minimiza al colaborar desde momentos muy tempranos y con la tranquilidad de que 'hay tiempo para corregir errores'

7. En este tipo de proyectos, encontrar un 'product owner' es complicado, pero lo tenéis que hacer. Debe ser de negocio

8. Solventa cuanto antes los puntos de fricción 'top-down', 'down-top', desde la importancia de la calidad del datos, los procesos ETL y los metadatos a los análisis de negocio en tiempo real, KPIs, etc... (en el punto intermedio, todos los participantes deberán alinearse)

9. Haz los planes de pruebas no al final, sino al día siguiente de empezar

10. Necesitas un Project Manager (el que está al tanto de todo, conoce a todos, convoca y resume las reuniones, etc...) Necesitas una cabeza visible y clara que todos 'identifiquen con el proyecto'

11. Mide y cuenta los avances, genera satisfacción con lo conseguido
12. Reuniones breves al principio de cada día y más amplias cada semana

13. Nunca pongas la presentación de un hito, avance, etc.. un lunes por la mañana (es de malos gestores, contar con el fin de semana de colchón) y genera ansiedades

14. Usa el BI (cubos, dashboards..) de forma ágil para validar rápidamente la calidad de los datos, tiempos de ejecución, etc... BI por partida doble

15. Deja que los usuarios se acerquen al BI. Desde las fases iniciales pierde el miedo a que accedan, toquen, rompan, se frustren, se sorprendan, se quejen de lo que van viendo...

16. No dejes el diseño y usabilidad para el final. Aunque pienses que es secundario y posterior, deber ir paralelo al desarrollo. Si no lo haces, la implicación de usuarios decaerá enormemente

17. Con AgileBI vas a tener que seguir documentando (de otra forma, con herramientas online (trello, podio, etc...), pero lo harás

18. Con AgileBI se necesita más disciplina, no menos. Esto es muy importante. Se asocia a cierto caos y es todo lo contrario. Se trata de trabajar como los mecánicos que cambian las ruedas en Formula 1

19. Tienes que tener a la gente motivada en el proyecto (esto se consigue con todo lo anterior), pero si haces todo lo anterior y no están motivados, 'el problema eres tú'

20. Un proyecto BI/DW nunca, nunca, nunca se acaba. Si lo das por acabado, también será un fracaso

Adenda: Si usas BI Open Source (por su flexibilidad, ahorro de costes e integración), tienes 'muchos' más puntos para conseguir tu objetivo

Te puede interesar:

- Big Data para Dummies
- Comparativa de herramientas Business Intelligence
- Descarga gratuita del Libro de un buen amigo y gran especialista, Roberto Canales: 'Transformacion Digital y Metodologías Agiles'
- Así se convierten los datos en conocimiento
- Como aprender Big Data en dos horas



15 jun. 2017

Free tools for Pentaho



Our colleagues from Stratebi (analytics specialists), have developed a suite of tools for Pentaho or embed in your own application, that includes:

- Improvements in BI Server Console (search, tags...)
- OLAP viewer and Adhoc Reporting improved
- New tools for end users self service dashboarding

- New amazing scorecard solution on top of Pentaho stack
- Powerful predefined real time dashboards
- Integration with Big Data technologies
- They are free and you can get open source code

- They only charge support, training and maintenance in order to give you security using this tools in production environments avoiding bugs, including updgrade to new versions (contact with them)
- Forget licenses costs!!

See in action:

Demo_Tools - Demo Big Data