1 / 12

InfoSphere DataStage

B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE. InfoSphere DataStage. I processi ETL ( Extraction , Transformation and Loading ).

noel
Download Presentation

InfoSphere DataStage

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. B.I. StrategyETL A SUPPORTO DELLABUSINESS INTELLIGENCE InfoSphereDataStage

  2. I processi ETL (Extraction, Transformation and Loading) • Estrazione, trasformazione e caricamentosono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI,i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.

  3. ETL (Extraction, Transformation and Loading) • I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence : • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.) • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (ThirdNormalForm, Star Schema, SlowlyChangingDimensions, ecc.) • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc. • La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).

  4. IBM InfoSphereDataStage • Ambientegraficodisviluppo con generazioneautomatica del codice e componentiriutilizzabili • Engine ditrasformazionescalabileda SMP a clusters/MPP e grid • Facilitàdi deploy dagliambientidisviluppo a quellidiproduzione • Riutilizzodellalogicadi business attraverso le applicazioni • Disponibilitàdiaccessonativo a mainframe, SAP ecc.

  5. Targets Operational Data Business Intelligence SAS CRM Exploration Warehouse Data Mart Data Mart IBM InfoSphereDataStage • Integra idatiprovenientidasorgentieterogenee • Processae trasformagrandiquantitàdidati in real-time o in modalità batch • Gestisceprocessimultiplidiintegrazione • Gestiscetutte le tipologiediintegrazionedaquellapiùsemplice a quellaenterprise • Fornisceconnettivitàdirettaaidatidelleapplicazioniaziendaliviste come sorgenti o come destinazioni • Agevolal’utilizzodei meta dati per analisidiimpattocross-tool e manutenzione CRM SCM ERP External Lists Distribution Demographic Contact Billing / Accounts

  6. Architettura DataStage Sistemi destinazione Sistemi sorgenti

  7. IBM InfoSphereDataStage Sempliceflussodiesempio Estraedadue DB Oracle diversi Stage di Join, Transform e Aggregate Produzione Vendite Scriveirisultatisuun DB/DWH Teradata (SQL Server – DB2 – MySqlecc.)

  8. IBM InfoSphereDataStage • monitoring e schedulazione grafica delle procedure • Gestioneattività a livello di ‘stage’ (non solo a livello di ‘job’) • Monitoraggio in tempo reale • Dettaglio di ognisingoloevento • Ottimizzazionedelprocesso • Segnalazione di ognianomalia o interruzzione di caricamento

  9. Sistemi enterprise scalabili: caratteristichediDataStage • Un’architettura “data flow” chepermettel’elaborazionedeidati, dall’inputall’output, minimizzandol’usodidispositividi storage, in scenari batch e real-time • Partizionamentodinamico e Ripartizionamento “on the fly” deidati • Scalabilitàrispettoagliambienti hardware, portabilitàattraversosistemi SMP, Clustered SMP, MPP senza la necessitàdimodificheaiprocessigiàsviluppati • Supporto nativoagli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioniparallele e partizionate

  10. DataStage: ilparallelismo in pratica …DataStagecrean processi Unix a runtime per ogni stage, dove n è ilnumerodeinodilogicidefinitinellaconfigurazione

  11. DataStage: monitoraggiodellerisorse Tempo totale di CPU e tempo di sistema Distribuzione media dei processi pie-chart del tempo di CPU

  12. DataStage: connettivitàsupportate • Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, edaltri… • Supporto per sintassi SQL standard: • autocostruzionedegli statement SELECT • autocostruzionedelleclausole WHERE, ORDER BY, GROUP BY, etc. • costruzione SQL via SQL Builder • Supporto per comandi SQL ditipouser defined, oppurespecifici in relazioneall’RDBMSutilizzato • Insert, update, delete, update/insert, insert/update, clear & insert, delete & insert • Supporto per scritture transazionali • Supporto per stored procedures • ERP: SAP R/3 & SAP BW • ….. e molto altro!

More Related