Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

30 sept. 2011

Video Tutoriales Business Intelligence Open Source, llegamos a 40.000 reproducciones



Llevábamos un tiempo sin echar un vistazo a la cuenta de reproducciones de nuestros videotutoriales sobre Business Intelligence Open Source (Pentaho, CDF, Birt....) y resulta que acabamos de superar los 40.000

Canal Youtube Video Tutoriales

En breve seguiremos subiendo nuevos contenidos... stay tuned!!

27 sept. 2011

Documento de integracion Salesforce y Pentaho



Que duda cabe, que Salesforce y Pentaho son dos tecnologías que se han hecho muy populares, tanto en el ámbito del CRM, como del Business Intelligence. Dado que estas dos áreas se encuentran muy relacionadas, se hace muy útil tener acceso a la información de Salesforce para integrar la información disponible, con datos corporativos, financieros, etc... y obtener potentes y vistosos informes, análisis y cuadros de mando accesibles via web.

Hemos preparado en Stratebi un documento que detalla los pasos necesarios para llevarlo a cabo. Esperamos que os sea de utilidad.

Descargar Documento de Integración Salesforce-Pentaho

24 sept. 2011

En Roma, en el 4º Pentaho Developers mundial



Ya estamos en Roma, por cuarto año consecutivo vamos al principal encuentro de la comunidad, expertos y desarrolladores Pentaho. Esta vez en Roma, con mucho que escuchar y que contar (han venido todos los expertos de cada tecnología). En Stratebi, seguimos siendo la única empresa española que ha estado en los 4 Pentaho Developers celebrados. Go!!



Os haremos un resumen detallado de todo lo que allí se cuente. Os dejamos con la interesantísima agenda y el resumen en vivo de Jan Aertsen:




Time Presenter Topic
9:30 Doug Moran Welcome and introductions
9:45 Pedro Alves CTOOLS update
10:15 Matt Casters PDI integration with Data Cleaner, Migration of KFF into PDI 4.3
10:30 " and The state of dynamic ETL a.k.a. metadata injection
10:45 Alain Debecker Using Pentaho and Security customer story
11:00 Coffee break
11:15 Roland Bouman Update on XMLA4js, Kettle Cookbook
11:15 " Pendular
11:30 Gretchen Moran Open MRS (Medical Records System)
11:45 Jos van Dongen & Aly Hollander Antonious Dashboard & IntraZis open source MRS developed at St. Antonius
12:00 Break and make up time if needed
12:15 Luc and Julian Distributed caching and new features of Mondrian 3.3
12:30 " Mondrian 4.0 Alpha Preview
12:45 Tom Barber Whatever Tom thinks up on the plane ride to Rome
13:00 Lunch Break
14:00 Pedro Pinhero CDF Mobile
14:15 "
14:30 Matt Casters The state of the Single Threader step and engine, Real-time
data integration with PDI and The Transformation and Job steps
15:00 Break and make up time if needed
15:15 Cees Vkemenade CDF Dashboard Management Tool
15:30 Thomas Morgner magical pure JavaScript no-GWT-at-all report viewer
15:45
16:00 Paul Stöllberger Saiku Update
16:15
16:30 Coffee break
16:45 Ricardo Pires Fusion Charts Plugin
17:00 Open
17:15 Jens Bleuel Connecting Kettle to the real world
17:30
17:45 Roland Bouman Datavault and anchor modeling
18:00 Bart Maertens BIRT plugins (BI server and PDI)
18:15 Open
18:30 Plan Dinner and Sunday fun

Photo: From Kjube Blog

22 sept. 2011

Oferta de Empleo, especialistas Business Intelligence Open Source


Si estas leyendo estas lineas, seguro que te gusta el Business Intelligence y el Open Source. En Stratebi y TodoBI, estamos buscando a personas apasionadas por el Business Intelligence y las soluciones Open Source que se quieran 'subir al barco', tanto en Madrid como en Barcelona, que tengan una buena formación técnica y alguna experiencia en la implementación de proyectos Business Intelligence (Pentaho, Cognos, Microstrategy, Oracle...), bases de datos y entornos Java.

Todo ello, será muy útil para la implementación de aplicaciones Open Source que están revolucionando las soluciones de negocio: Pentaho, Talend, BIRT, etc..

Será importante conocer y haber trabajado con algunos de los principales motores relacionales (Oracle, SQL Server, PostgreSQL, MySQL...) , así como conocer sobre entornos Java, J2EE, JSP...

A partir de un año de experiencia, puedes ser un buen candidato/a para subirte a nuestro barco. En Stratebi, te formaremos en todo lo relacionado con el BI Open Source

Si te gusta el Business Intelligence y te encaja lo que te contamos, escribenos a rrhh@stratebi.com contando tu interés e incluyendo tu CV. En caso de que tu ubicación no pudiera ser Madrid o Barcelona, no dudes en mandarnos igualmente tu CV, donde ponemos en contacto con organizaciones que demandan profesionales del ámbito del BI y del Open Source.

¿Qué ofrecemos?

- Trabajar en dos de las áreas de mayor futuro y crecimiento dentro del mundo empresarial y tecnológico: El Business Intelligence y el Open Source.
- Colaborar en la mejora de las soluciones Open Source, entre las que se encuentran desarrollando algunas de las empresas tecnológicas más importantes.
- Entorno de trabajo dinámico, aprendizaje continuo, variedad de retos.
- Considerar el I+D y la innovación como parte principal de nuestros desarrollos.
- Retribución competitiva.
- En Stratebi somos especialistas y líderes en Business Intelligence Open Source en España.
- Ser parte de un equipo que valora a las personas y al talento como parte fundamental.

Ya sabes, si te gusta la idea, escribenos, contando tu interés y un CV a: rrhh@stratebi.com

O si conoces a alguien, que crees que le podría encajar, no dudes en reenviarselo.


21 sept. 2011

Cube, time series visualizacion

Os hablamos de Cube, una gran iniciativa que va avanzando. Se trata de una desarrollo open source apra visualizar time series, construido sobre MongoDB, Node y D3.

Echad un vistazo a este video que se van mostrando ejemplos de los avances:

19 sept. 2011

Nuevas versiones CE de Pentaho BI Server, Kettle y Reporting ya disponibles en sourceforge



... calentitas como se suele decir, ya tenemos disponibles las nuevas versiones de los principales componentes de Pentaho en su version Community que nos alegramos que vienen con grandes y abiertas novedades, como el nuevo user interface, el acceso a bases relacionales para generar schemas y metadatos, un gran paso en el Agile BI abierto. En el caso de Kettle ya hemos venido contando recientemente que sigue mejorando y convirtiéndose en una herramienta imprescindible.

Las hemos estado probando y tienen muy buena pinta, pronto haremos una actualización de nuestra Demo. En este enlace tenéis videotutoriales, demos y documentación para aprender Pentaho en castellano.

Ya podeis descargar:

Pentaho 3.9 (equivalé a la 4.0, según el propio Doug Moran)
Kettle 4.2
Pentaho Reporting 3.8.2

15 sept. 2011

El valor economico del Software Libre

Presentación muy interesante.... hay que detenerse en ella y mirar números y cifras... pues dan una visión muy ajustada, al margen de opiniones.


200 seguidores en twitter



En poco tiempo ya tenemos 200 seguidores en nuestra cuenta de twitter de TodoBI, en donde informamos de todas las novedades del mundo Business Intelligence y de las aplicaciones Open Source.

Gracias a todos!!

Pentaho Data Integration 4 Cookbook



EnlaceSiguiendo con nuestra revisión de libros, hoy os hablamos de Pentaho Data Integration 4 Cookbook de Maria Carina Roldan, un libro sobre una herramienta que no nos cansamos de recomendar: Kettle o PDI.

El libro presenta cerca de 70 trucos o recetas en el uso de Kettle. Son tantas las opciones y posibilidades de Kettle, que una buena de aprenderlo es partir de la gran cantidad de ejemplos que presenta el libro.
La mejor forma de acercarse al libro es leer los ejemplos que se presentan y hacer los ejercicios de aquellos que nos parezcan más interesantes y nos serán de utilidad para probarlos directamente.

Os dejamos con el índice de capítulos en donde vienen agrupadas las recetas. Una lectura muy muy recomendable.

Chapter 1: Working with Databases
Chapter 2: Reading and Writing Files
Chapter 3: Manipulating XML Structures
Chapter 4: File Management
Chapter 5: Looking for Data
Chapter 6: Understanding Data Flows
Chapter 7: Executing and Reusing Jobs and Transformations
Chapter 8: Integrating Kettle and the Pentaho Suite
Chapter 9: Getting the Most Out of Kettle

10 sept. 2011

Revision de 'Pentaho Kettle Solutions'



Las bases teóricas con las reglas basicas sobre que cosa es una ETL las puso Ralph Kimball en su libro “Data Warehouse Lifecycle Toolkit (Segunda Edición)

En el se explica que las ETL se pueden agrupar en 34 sub-sistemas y a su vez en 4 ámbito:

  • Data Extraction
    • 1. Data Profiling
    • 2. Change Data Capture (CDC)
    • 3. Extraction
  • Cleansing and Conforming Tasks
    • 4. Data Cleansing Subsystem
    • 5. Error Event Management
    • 6. Auditing
    • 7. Removing Duplicates
    • 8. Data Conformance
  • Data Delivery
    • 9. Slowly Changing Dimensions (SCD)
    • 10. Surrogate Key Generator
    • 11. Hierarchy Manager
    • 12. Special Dimensions Manager
    • 13. Fact Table Builders
    • 14. Surrogate Key Management
    • 15. Bridge Table Builder
    • 16. Late Arriving Data Handler
    • 17. Dimension Manager
    • 18.Fact Table Provider
    • 19. Aggregate Generation
    • 20. OLAP Cube Builder
    • 21. Data Propagation Manager
  • Management
    • 22. Scheduler
    • 23. Backup System
    • 24. Recovery and Restart
    • 25. Version Control
    • 26. Version Migration
    • 27. Work flow Monitor
    • 28. Sorting
    • 29. Data Lineage and Dependency
    • 30. Problem Escalation
    • 31. Paralleling and Pipelining
    • 32. Security
    • 33. Compliance Manager
    • 34. Metadata Repository

Uno de los primeros problemas a los que normalmente nos enfrentamos en Stratebi a la hora de realizar un proceso ETL es el CDC (Cange Data Capture), es decir, cómo cargar los datos, no en carga total sinó los datos “nuevos”.

Para ello se nos presentan diferentes opciones que me han parecido interesantes cuanto menos por la categorización:

  • Source Data-Based CDC o Un mundo ideal:En el sistema origen tenemos algo que nos proporciona esta información como puede ser:
    • Los registros tienen una serie de timestamps que indican la fecha de creación y la última fecha de actualización (Todavía no he visto ningún sistema tan bien hecho)
    • Se puede hacer uso de las secuencias exixtentes en los sistemas origen

  • Trigger-Based CDC o Una buena idea pero poco realista: Cada vez que se realiza un insert, update o delete en el sistema origen se dispara un trigger que registra el cambio en nuestra Stagging Area
  • Snapshot-Based CDC o A lo bruto: Se guarda una foto en nuestra stagging area y cuando volvemos a cargar realizamos una comparación entre ambas.
  • Log-Based CDC: Se procesa el log de la base de datos en busca de inserts, deletes y updates. Eso se puede hacer facilmente con bases de datos como Oracle y PostgreSQL lo que no todo el mundo sabe es que también se puede hacer con MySql.

Otro de las cosas interesantes es ( el look-up ) paso “Fuzzy Match” que nos permite aplicar diferentes algoritmos de lógica difusa para buscar duplicados.



Siguiendo con los pasos interesantes existen el User Defined Java Expression que viene a ser como el javascript pero mucho mas rápido y el User Defined Java Class Que nos permite definir una clase java y hacer lo que nos venga en gana.

Finalmente, de momento comentar un par de cosas referentes al rendimiento.

Sabíais que se pueden instanciar mas de una réplica de cada paso? Por ejemplo, el paso javascript que todos sabemos que es lento, se le puede decir que inicie 4 u 8 copias para mejorar el renimiento.

Sabías que se puede habilitar la caché de los databases lookup? Sabías que se le puede decir que mapee toda la tabla a memoria para mejorar el rendimiento? Habilitar la caché nos permite que una búsqueda ya hecha no se vuelva a repetir y tenerlo todo en memoria nos permite que se lea la tabla entera al arrancar el proceso y todas las búsquedas, para cada registro se realicen en memoria en vez de hacer N búsquedas en la tabla.

…. Seguiremos informando.

7 sept. 2011

Espectacular infografia del USA Today sobre el 11-S



Muy completo... echad un vistazo y pinchad en las esferas.

Dashboards in Pentaho, plugin completed!!



oops.... new icon in Pentaho Demo.... soon more fun!!

6 sept. 2011

Como unir BI y NoSQL

Cada vez se oye más, 'momentum' que dicen por ahí fuera... aquí os traremos una presentación muy interesante de Nick Goodman sobre BI y NoSQL, tomando LucidDB como referencia.