Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Workshop gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source, Pentaho...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

2 oct. 2006

Evaluar productos ETL es dificil

ETL

No cabe duda que la evaluación de cualquier tecnología es dificil. Si nos centramos en el área del Business Intelligence (en donde existe una numerosísima variedad de productos y fabricantes), mucho más; pero si vamos más allá, a un área específica del BI, como son las herramientas ETL (extracción, transformación y carga de los datos), la dificultad se hace mucho mayor.

Los motivos son los que comento a continuación y que he recogido del interesante blog
Clickstream.

- Todos los productos ETL tienen un aspecto similar. Si, incluso mas que las herramientas de análisis. Parece que se ha establecido un 'standard' de facto sobre el look & feel. Lo cierto es que muchos DBA´s agradecerían algo de innovacion en este aspecto.
- Las presentaciones de los preventas son todas iguales. Se habla de las fuentes a las que se accede, de las herramientas para realizar transformaciones, de la forma de representarlo visualmente y de los metadata que se generan. Raramente se incide en los procesos de negocio que afecta, de las ventajas para la toma de decisiones y de como afecta al 'día a día' de un programador o dba.
- Si vemos demos colgadas en sus web, nos resulta practicamente imposible distinguirlas.
- Es probablemente, el área de BI en donde se necesite un conocimiento mas especializado y técnico. Y, en muy pocas empresas se tiene este conocimiento.
- La informacion que dan los analistas tipo Gartner, IDC, etc... se centran en generalidades y no inciden en los aspectos técnicos fundamentales.
- Muchas veces, los check-list standards sobre ETL no nos sirven para tomar decisiones.

Por eso, lo mejor es tratar de plantear cuestiones concretas y ver como pueden ser respondidas y solventadas:

Ej) Si el motor de transformacion esta realizando una gran carga de trabajo, ¿que ocurre si de repente entra una gran cantidad de datos no prevista? stop, delay, buffer...
Si tenemos que hacer una join entre una tabla de 4Gb de Sql Server y otra de 8Gb de Oracle. ¿cómo la realiza?
¿Como se evita que se sature toda la memoria?
¿Cómo se maneja el buffer?

Este es sólo un ejemplo, pero la idea es ir siguiendo paso a paso un posible caso real. Desde el principio al final. Por ello, la mejor forma de evaluar herramientas ETL es realizar unas pruebas o prototipos con una cantidad importante de datos. Aunque pueda suponer un mayor desembolso al principio, al final será muy útil.


Productos ETL:
Comerciales:
BusinessObjects Data Integrator
IBM Websphere DataStage
Informatica PowerCenter
Oracle Warehouse Builder
SAS Data Integration Studio
SQL Server Integration Services
Open Source:
Enhydra Octopus
KETTLE (Pentaho ETL)
CloverETL Project


Para saber mas:
Evaluating ETL Tools and Technologies
ETL Tools and Increased Productivity
ELT and ETL - candid view of pros ...
ETL "Ten Mistakes" paper

Getting Technical - ETL Selection Criteria, Part 1
Getting Technical - ETL Selection Criteria, Part 2
Differences Between EAI and ETL

1 comentarios:

Sqiar dijo...

SQIAR (http://www.sqiar.com/solutions/technology/tableau) is a leading global consultancy which provides innovative business intelligence services to small and medium size (SMEs) businesses. Our agile approach provides organizations with breakthrough insights and powerful data visualizations to rapidly analyse multiple aspects of their business in perspectives that matter most.