Pentaho Data Integration

Número de horas: 230
Lugar de realización: Online


INSCRIPCIÓN ABIERTA TODO EL AÑO.

Pentaho es una solución tecnológica, una de las herramientas más potentes y versátiles a la hora de diseñar los procesos de integración a la medida de las necesidades de la empresa, fundamentalmente con el objetivo de construir y explotar su Data Warehouse (DW), entre otras utilidades.

Dirigido a
Todas las personas con conocimientos medios en Pentaho.

Objetivos
Investigar la herramienta de Integración de Datos Open Source más utilizada en la actualidad.
Analizar distintos tipos de Datasources y aplicarles gran variedad de técnicas, filtros, funciones y formatos, para la obtención de un resultado esperado.
Adquirir conocimiento avanzado de PDI y su ecosistema.
Gestionar el workflow de múltiples Transformations y Jobs.
Aprender a utilizar los Steps más importantes mediante su aplicación práctica, ejemplos y ejercicios.
Utilizar PDI para cargar y actualizar Data Warehouse.

Metodología
Modalidad: Online.
Duración: 230 horas de estudio (2 meses).

Programa

Tema 1 – Pentaho Data Integration (PDI):
Características
Definición y uso de integración de datos
Licencia
Ejemplificación de tareas de integración de datos
Descripción de requerimientos básicos
Configuración de variables de entorno
Startup de PDI: Configuración de variables de entorno | Descarga | Instalación | Configuración de Driver JDBC de MySQL
Scripts de ejecución de Spoon
Layout de Spoon: Principal | Tabs | Panel Design | Panel View | Accesos rápidos
Tipos y utilización de Repositorio: Conexión con Repositorio de Pentaho BA | Repositorio en Base de Datos | Repositorio en sistema de archivos | Opción Repository Manager | Metadata
Principales opciones de la GUI de Spoon: General | Apariencia
Características y diferencias de Transformations y Jobs
Práctico: creación de Transformation que genera valores aleatorios

Tema 2 – Transformations, Panel Execution, Panel Execution Results:
Descripción de las características, funcionamiento y comportamiento de las Transformations
Descripción del Panel Execute, que se despliega antes de ejecutar las Transformations/Jobs: Environment Type | Options |
Log Level | Parameters | Variables
Descripción y ejemplificación del Panel Execution Results
Descripción y análisis de las opciones más importantes de sus Tabs:
Tab Execution History
Tab Botón SQL
Tab Logging
Tab Step Metrics
Tab Performance Graph
Tab Metrics
Tab Preview data
Práctico: creación de Transformation que realiza cálculos lógicos y matemáticos
Práctico: creación de Transformation que analiza los valores del flujo de datos y bifurca el flujo en dos sentidos diferentes; en el primer sentido realizará cálculos y exportará los resultados; en el segundo caso irá a un Step de control
Práctico: creación de Transformation que obtiene datos de un archivo CSV, los formatea, ordena, concatena y exporta en otro formato

Tema 3 – Variables de Entorno, Parameters, Arguments:
Descripción y uso de las Variables de Entorno
Ejemplos y notación de las Variables de Entorno
Descripción y uso de los Parámetros
Modos de creación de Parámetros
Descripción, definición y uso de Argumentos
Descripción y uso de la opción Preview
Práctico: creación de Transformación cuyos valores obtenidos dependa de los Parámetros asignados en la ejecución
Práctico: creación de Transformación que obtenga valores de Argumentos, ejecute una función JavaScript y genere un documento HTML

Tema 4 – Expresiones Regulares (RegEx), JavaScript (JS):
Descripción, aplicación y ejemplos de RegEx
Documentación y patrones más utilizados de las RegEx
Aplicación de RegEx en PDI
Práctico: creación de Transformation que obtenga los nombres de las librerías presentes en PDI y que mediante RegEx separe sintácticamente su nombre, extensión y versión
Descripción y documentación de JS
Aplicación de JS en PDI
Descripción, ejemplificación y aplicación avanzada de Step Modified Java Script Value:
Transform Scripts
Transform Constants: SKIP | ERROR | CONTINUE
Transform Functions
Input/Output Fields
Opciones: Position | Compatibility mode | Optimization level
Configuración de la Grilla Fields para obtener dataset de salida
Añadir, modificar y configurar distintos tipos de Script: Transform | Start | End
Práctico: creación de Transformation que obtenga página HTML y realice Web Scrapping utilizando RegEx y JS

Tema 5 – Dataflow:
Práctico: creación de Transfomation que realice las siguientes tareas: análisis, distribución, mapeo, clasificación, aplicación de rangos, aplicación de secuencia condicionada, conversiones
Manejo del Dataflow:
Unión básica de Datasets
Unión de Datasets con diferente Metadata
Unión de Datasets estableciendo condición de relación
Unión de Datasets de forma secuencial
Dividir Dataset entre diversos Steps
Compartir Dataset completo
Compartir Dataset de forma distributiva
Práctico: creación de Transformation que realice las siguientes tareas; convertir de filas a columnas, convertir de columnas a filas, unir Datasets, mapeo y distribución de Datasets, aplicación de fórmulas avanzadas, compartir Dataset

Tema 6 – Variables Globales:
Descripción, uso, ejemplos
Administración de Variables Globales
Práctico: creación de Transformation que realice las siguientes tareas: utilizar Variables de Entorno para establecer URL y nombres de archivos; trabajar con datos en formato XML; convertir filas en columnas; comparar dos flujos de datos por aproximación utilizando algoritmo Levenshtein; obtener valores mínimos y máximos; trabajar con datos JSON

Tema 7 – Hops:
Descripción y administración de Hops de Transformations y Jobs
Configuración avanzada de Hops de Transformations: Habilitar/Deshabilitar | Cambiar dirección | Condición | Borrar | Bulk Change
Configuración avanzada de Hops de Jobs y análisis de Status: Incondicional | Exito | Fracaso | Habilitar/Deshabilitar
Descripción de Notas en Transformations/Jobs
Descripción de las opciones de Grilla

Tema 8 – Share objects:
Descripción y tipos de Objetos Compartidos
Administración, ejemplificación y utilización de Objetos Compartidos
Configuración de Metadata de Objetos Compartidos
Práctico: creación de Transformation que realice las siguientes tareas; obtener diferentes archivos de salida dependiendo de condiciones establecidas en el flujo de datos; comparar flujos de datos identificando elementos nuevos, eliminados y modificados; utilizar Variables de Entorno y RegEx

Tema 9 – Jobs:
Descripción, características y principales usos
Comportamiento y modo de funcionamiento de los Jobs
Configuración para ejecución de Steps en paralelo
Configuración para ejecución de Transformations por cada fila analizada del Dataset
Análisis y explicación de Ruta de Ejecución de los Steps de Jobs
Práctico: creación de un Job que realice las siguientes tareas; controle el workflow de ejecución de dos Transformations; evalúe la salida de status de los diferentes Steps
Práctico: creación de un Job que realice las siguientes tareas; ejecutar una Transformation que genere un Dataset; guardar el Dataset en la lista Result rows; ejecutar una segunda Transformation que obtenga el Dataset de la lista Result rows; configurar salidas de log y analizar los resultados
Práctico: creación de Transformations y Jobs para ejemplificar las diferentes utilizaciones de Result Filenames

Tema 10 – Descripción, uso y ejemplificación de Result Rows

Tema 11 – Descripción, uso y ejemplificación de Result Filenames

Tema 12 – Descripción, uso, alcance y ejemplificación de Variables On The Fly

Tema 13 – E-Mail & Web:
Ejemplificación, uso y configuración avanzada de envío de e-mails
Utilización de diferentes protocolos: POP3 | IMAP | MBOX
Práctico: creación de Transformations y Jobs que realicen las siguientes tareas; obtener de un archivo CSV una lista de URLs web con los discos de artistas de rock; obtener el documento HTML de cada URL web; filtrar de cada documento HTML la sección dedicada a la lista de canciones de cada disco; generar un archivo CSV por cada disco con la información de sus respectivas canciones.
Práctico: creación de un Job que realice las siguientes tareas: utilizar Variables de Entorno y RegEx para obtener una lista de archivos; validar direcciones de e-mail; enviar e-mail que contenga como adjuntos los archivos obtenidos

Tema 14 – Tema 14 – Descripción de los principales Steps de Validación en Transformations y Jobs

Tema 15 – Database:
Presentación y restauración de Bases de Datos para realización de práctico
MySQL:
Definición y características
Community Server VS Enterprise Edition
MySQL Workbench: Características | Instalación | Layout
Creación de Nueva Instancia
Explicación de las principales opciones de la Sección Administrativa: Server Status | Client Connections | Users and Privileges | Status and System Variables | Data Export | Data Import/Restore | Startup/Shutdown | Server Logs | Option File
Explicación de las principales opciones de la Sección SQL: Panel Schemas | Tab Info | Snippets | Log Output | SQL Canvas | Tabs | Accesos rápidos
Descripción, uso y realización de acciones avanzadas sobre Bases de Datos:
Obtener Dataset
Insertar registros
Actualizar registros
Borrar registros
Añadir columna
Ejecutar Script SQL
Utilización y configuración avanzada de Error handling
Definición y utilización de opción Clear Cache Database
Práctico: creación de Job que realice múltiples tipos de acciones sobre Bases de Datos

Tema 16 – Descripción de principales Steps para trabajar con Bases de Datos

Tema 17 – Data Warehouse:
Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 1
Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 2

Tema 18 – Pan & Kitchen:
Descripción de las principales herramientas PDI: Spoon | Pan | Kitchen | Carte
Opciones avanzadas ejecución de Transformations o Jobs por líneas de comandos
Parámetros
Argumentos
Registro Log

Tema 19 – Scheduling:
Descripción, ejemplificación y uso de Calendarización de ejecución de Transformations y Jobs
Calendarización utilizando Cron
Calendarización utilizando Task Scheduler

Tema 20 – Marketplace:
Descripción y características del Marketplace de PDI
Instalación de plugins: Weka, DataCleaner

Tema 21 – Transformations como Datasource:
Utilización de Transformation como Datasource para Dashboards (CDE)
Utilización de Transformation como Datasource para Reporting (PRD)

Tema 22 – Bonus Track: Delivery PRD:
Descripción y características de Pentaho Report Designer (PRD)
Configuración y ejecución de reportes PRD en Transformation PDI
Práctico: creación de una Transformation que realice las siguientes tareas: exportar reporte en formato pdf utilizando Parámetros, JS, RegEx y Variables de Entorno; envío de reporte como archivo adjunto en un e-mail

Tema 23 – Lista de Steps de Transformation descritos y utilizados:
Transform | Split Fields
Transform | Value Mapper
Transform | Number range
Transform | Add value fields changing sequence
Transform | String operations
Transform | Row flattener
Transform | Row Normaliser
Transform | Add constants
Transform | Calculator
Transform | Sort rows
Transform | Concat Fields
Transform | Add sequence
Transform | Select values
Transform | Replace in string
Transform | Split Fields
Transform | Value Mapper
Transform | Number range
Transform | Add value fields changing sequence
Transform | String operations
Transform | Row flattener
Transform | Row Normaliser
Flow | Append streams
Flow | Switch / Case
Flow | Filter rows
Flow | Java Filter
Flow | Dummy
Flow | Append streams
Flow | Switch / Case
Joins | Join Rows
Job | Copy rows to result
Job | Get rows from result
Job | Set files in result
Job | Get files from result
Job | Set Variables
Job | Get Variables
Utility | Write to log
Utility | Mail
Utility | Mail validator
Utility | If field value is null
Input | Email messages input
Input | Table input
Input | Generate Rows
Input | Generate random value
Input | Data Grid
Input | CSV file input
Input | Fixed file input
Input | Get System Info
Input | GZIP CSV Input
Input | Get File Names
Lookup | Table exists
Lookup | Web Services Lookup
Lookup | File exists
Lookup | HTTP Client
Lookup | Stream lookup
Lookup | Database lookup
Lookup | Database join
Validation | Data Validator
Output | Table output
Output | Update
Output | Insert / Update
Output | Delete
Output | Synchronize after merge
Output | Pentaho Reporting Output
Output | Text file output
Output | Microsoft Excel Output
Data Warehouse | Combination lookup/update
Data Warehouse | Dimension lookup/update
Scripting | Execute SQL script
Scripting | Execute row SQL script
Scripting | Formula
Scripting | Modified Java Script Value
Tema 24 – Lista de Steps de Job descritos y utilizados:
General | START
General | Transformation
General | Success
General | Job
Conditions | File Exists
Conditions | Checks if files exist
Conditions | Check Db connections
Conditions | Table exists
Conditions | Check webservice avaliability
Conditions | Simple evaluation
Conditions | Columns exist in a table
Utility | Abort job
File management | Add filenames to result
Mail | Mail validator
Mail | Mail
Scripting | SQL

Docente
Darío Bernabeu. Experto en el desarrollo e implementación de soluciones OSBI (Open Source Business Intelligence), Bases de Datos y Tecnologías Web.

Notas
•    Reconocimiento de ECTs – RESOLUCIÓN de 6 de mayo de 2019, del Rectorado de la Universidad de Valladolid (BOCyL núm. 94 de 20 de mayo de 2019).
•    Para más información contacte con nosotros en el 983.18.46.25 o enviando un correo electrónico a formacioncontinua@fundacion.uva.es

No Comments

Sorry, the comment form is closed at this time.