U n a i n t r o d u c c i ó n a l Da t a Wa r e h o u s i n g
La integración de información para la mejor toma de decisiones 'DQLHOD&DULQD'RPLQJXH]
e-mail:
[email protected]
/DXUD1HLUD
e-mail:
[email protected]
FACULTAD DE CIENCIAS EXACTAS, FÍSICAS Y NATURALES UNIVERSIDAD NACIONAL DE SAN JUAN
A r e a T e m á t i c a : Ingeniería de Software
Re s u m e n Un Data warehousing es una colección de tecnologías de soporte de decisiones, dirigido a permitir al trabajador del conocimiento (ejecutivo, administrador, analista) tomar mejores y más rápidas decisiones. El presente trabajo intenta mostrar aquellos aspectos fundamentales de un Data Warehouse, debido al auge de esta nueva metodología y a la creciente cantidad de productos y servicios ofrecidos así también como la adopción de esta tecnología por la industria.
'DWDZDUHKRXVLQJ /DLQWHJUDFLyQGHLQIRUPDFLyQSDUDODPHMRUWRPDGHGHFLVLRQHV
,QWURGXFFLyQ
Un Data warehousing es una colección de tecnologías
datos históricos, resumidos y consolidados son más
de soporte de decisiones, dirigido a permitir al trabajador
importantes que los detalles y registros individuales.
del conocimiento (ejecutivo, administrador, analista)
Como un data warehouse contiene datos consolidados,
tomar mejores y más rápidas decisiones. En los últimos
quizás de varias bases de datos operacionales, por
tres años ha aumentado el número de productos y
largos períodos de tiempo.
servicios ofrecidos así como la adopción de esta tecnología por la industria. De acuerdo al grupo META, el mercado
de
data
warehousing,
incluye
hardware,
¢4XpHVXQ'DWDZDUHKRXVH"
software de base de datos y herramientas. En 1997 se proyectó un crecimiento de $2 billones en 1995 a $8
De acuerdo con W.H. Inmon, quien es considerado como
billones en 1998. Las tecnologías de data warehousing
el padre del data warehouse: “8Q GDWD ZDUHKRXVH HV
han
industrias:
XQ FRQMXQWR GH GDWRV LQWHJUDGRV RULHQWDGRV D XQD
manufactureras (ordenes de envío y soporte de clientes),
PDWHULD TXH YDUtDQ FRQ HO WLHPSR \ TXH QR VRQ
ventas
WUDQVLWRULRV ORV FXDOHV VRSRUWDQ HO SURFHVR GH WRPD
sido
al
aplicadas
por
menor
en
muchas
(perfiles
de
usuarios
y
administración de inventarios), servicios financieros
GHGHFLVLRQHVGHXQDDGPLQLVWUDFLyQ
(análisis de reclamos, análisis de riesgo, análisis de
Metas: obtener la información correcta para las personas
tarjetas de créditos y detección de fraudes), utilidades
adecuadas en el momento conveniente para que tomen
(poderosos análisis de uso), y cuidados de salud
decisiones que pueden valer millones de dólares.
.”
(resultado de análisis). Típicamente,
el
data
warehouse
es
mantenido
Los data warehouses apuntan al soporte de decisiones.
separadamente de las bases de datos operacionales de
El
la
data
warehousing
(almacenamiento
de
datos)
representa el proceso de reunir información histórica de
organización.
El
data
warehouse
soporta
procesamientos analíticos en líneas (OLAP).
una organización en un depósito central, y se ha convertido en una tecnología común y fundamental. Los
$UTXLWHFWXUD
Esta arquitectura incluye herramientas para:
Extracción de datos desde múltiples bases de datos
Carga de un dato en un data warehouse.
Refrescar periódicamente el warehouse para reflejar
operacionales y fuentes externas.
día a día las fuentes y depurar los datos del
Depuración, transformación e integración de esos
warehouse, quizás sobre almacenamientos más
datos.
lentos de archivos.
'
:
2
de una variedad de herramientas de front end: En adición al warehouse principal, pueden haber varios
herramientas
mercados de datos departamentales. Los datos en el
herramientas de análisis, y herramientas de data mining.
warehouse y los mercados de datos están almacenados
Finalmente, hay un repositorio de almacenamiento y
y administrados por uno o más servidores warehouse,
administración
los cuales presentan vistas multidimensionales de datos
monitoreo y administración de sistemas de warehousing.
Arquitectura de un Data Warehouse
de
consultas,
de
metadatos,
reportes
y
escritos,
herramientas
de
0RQLWRUHR $GPLQLVWUDFLyQ 6HUYLGRUHV
$QiOLVLV
2/$3
5HSRVLWRULRGH 0HWDGDWRV )XHQWHV ([WHUQDV
'DWD:DUHKRXVH
&RQVXOWDV5HSRUWHV
([WUDFFLyQ
6HUYLU
7UDQVIRUPDFLyQ
2SHUDFLRQDO
$EDVWHFHU
&DUJD
'DWD0LQLQJ
5HIUHVFR
GEV
+HUUDPLHQWDV
0HUFDGRVGH'DWRV
'DWDZDUHKRXVH
En muchos casos, el data warehouse se basa en
examinar y consultar herramientas que ofrecen diversas
resúmenes de información provenientes de sistemas de
funciones de reporte, las cuales incluyen la capacidad de
producción. Construir un data warehouse, en algunos
exponer progresivamente más detalles (profundizar). Las
casos, implica comprender la forma de como estos
técnicas
sistemas manejan y almacenan datos (las definiciones
organización interfaces gráficas para usuario final
de sus datos,
PHWDGDWRV
de
comunicación
proporcionan
a
una
). Asimismo, significa entender
convenientes y fáciles de usar para apoyar las tareas de
cómo construir extractores, los cuales transfieren datos
análisis. Una importante consideración es el uso
de los sistemas de producción al data warehouse, y el
apropiado de técnicas gráficas como la graficación,
software
despliegues en forma de árbol, despliegues en red, las
de
sincronización
que
conserva
razonablemente actualizado el data warehouse con la
curvas de tendencias y análisis multidimensionales.
información del sistema de producción. Básicamente, el data warehouse es una implementación de base de datos que usa su propio sistema de Un data warehouse guarda información histórica (y en
administración. Este sistema deriva su información de
algunas ocasiones actual) de un negocio de manera
otros sistemas de bases de datos que sustentan las
organizada, permitiendo consultas especializadas y
operaciones empresariales diariamente. Las bases de
recuperaciones de datos con facilidad. Esta capacidad
datos
es aprovechada por el usuario final para conocer,
tecnologías, tales como DB2, IMS, VSAM, Oracle,
'
:
operacionales
se
implementan
en
diversas
3
Sybase,
Informix,
DL/I,
y
Flat
Files.
Muchos
WUDQVIRUPDFLyQ
significa codificar datos que se han
administradores de bases de datos actuales que
decodificado en forma inconsistente en diferentes
sustentan la base de datos real son relacionales.
fuentes (por ejemplo, abreviaturas de estados, código de
Algunos ejemplos son la familia DB2/X, Oracle, Sybase e
productos y lugares de negocios). El software de
Informix. Diversos mecanismos de transporte llevan los
transformación convierte los datos durante el traslado
datos de las fuentes de producción al data warehouse.
para asegurar que la información sea compatible con la
Se usan distintos métodos de propagación y duplicación
base de datos que la recibe. Desarrollar, seleccionar e
para mantener información consistente en todas las
integrar estas piezas de software requiere técnicas de
bases de datos. Se emplean extractores para obtener y
administración de datos y de administración de base de
cargar información de una base de datos a otra.
datos. También se requieren técnicas en el área de afinar la ejecución de consultas en la base de datos para
Los datos extraídos deben ser uniformes para poder
obtener un rendimiento aceptable de la solución del data
combinar los datos de diferentes fuentes dentro del data
warehouse.
warehouse. Este proceso se llama transformación. La
(OGDWDZDUHKRXVHFRPRXQVLVWHPDGHPLVLyQFUtWLFD
Conforme las organizaciones confían más y más en la
Una aplicación de software se vuelve un sistema de
disponibilidad de información y en el acceso a un data
Misión Crítica cuando se tiene confianza en sus
warehouse, éste se convierte en un &UtWLFD
6LVWHPD GH 0LVLyQ
.
operaciones y se usa todos los días. También se torna fundamental para la misión del negocio que apoya. Su
¢&XiQGRVHFRQYLHUWHXQVLVWHPDHQ0LVLyQ&UtWLFD"
Cómo se incorpora una nueva tecnología en un importante sistema de Misión Crítica (Ciclo de madurez de la tecnología).
falla puede provocar una falla en el negocio mismo.
7LHPSR
,PSRUWDQFLD
Implementación expandida Ámbito más grande Uso del personal Uso para apoyar decisiones Sistema secundario
Sólido Uso diario Uso operacional y estratégico. Se mueve hacia un sistema primario
Piloto Inicial Ámbito pequeño Resuelve un problema determinado Prueba de conceptos Demostración de la tecnología Experimentos iniciales
&RQGXFLGRSRU
0LVLyQ
ODWHFQRORJtD
&UtWLFD
'
:
4
Conforme la compañía comienza ha usar cada vez más
Actividades basadas en requerimientos
la información del data warehouse para las actividades diarias, su disponibilidad comienza a ser cada vez más
Compatibilidad con la tecnología existente y la
importante.
Los
patrones
empíricos
de
uso
infraestructura de base.
de
Uso diario
información indican que conforme hay más información
Uso amigable
de consulta rápida y fácil, más personas posponen hasta
Desempeño
el último minuto las solicitudes de información. Cuando
esto ocurre, se vuelve muy importante que el sistema de
Verificable Seguridad
data warehouse, y todas las aplicaciones que lo acceden, estén disponibles todo el tiempo.
Entender los requerimientos para un sistema de Misión
Los requerimientos para un sistema de Misión Crítica
Crítica permite definir los requerimientos de data
incluyen lo siguiente:
warehouse.
Disponibilidad
Consistencia y precisión
Fuerza Estándares
&RQVWUXFFLyQGHOGDWDZDUHKRXVH
El
data
warehouse
sigue
el
mismo
ciclo
de
perfeccionamiento que todos los desarrollos de software.
Ciclo de desarrollo de software utilizado para el data warehouse
Las fases son las mismas, lo mismo que su secuencia.
358(%$ '(6$552//2
&216758&&,Ï1
',6(f2 3/$1($&,Ï1
$1È/,6,6
5(48(5,0,(1726
3ODQHDFLyQ
Los pasos que deben seguirse para implementar la fase
Es uno de los primeros pasos más importantes. La
de planeación del sistema del data warehouse son:
decisión tiene mucho que ver con la cultura de la organización y se basa en cómo se llevan a cabo
6HOHFFLyQGHODHVWUDWHJLDGHLPSOHPHQWDFLyQ
'
:
las tareas dentro de la organización. Las siguientes
5
son
estrategias
de
implementación
que
(O
han
RSHUDFLRQDO
HQ
El enfoque de arriba hacia abajo (de lo
RSHUDFLRQDOHV
general a lo particular).
de información operacional e histórica y las
El enfoque de abajo hacia arriba (de lo
(un data warehouse hace copias
almacena para uso privado).
6yORGDWDZDUHKRXVH
particular a lo general).
DOPDFHQDPLHQWR
FRPSDUDFLyQ FRQ HO XVR GH FRSLDV GH GDWRV
demostrado su popularidad:
Una combinación de los anteriores.
(por lo general, todas las
aplicaciones del data warehouse requieren diversas operaciones que se aplican sobre las
6HOHFFLyQGHODPHWRGRORJtDGHGHVDUUROOR
fuentes de datos).
6yOR PHUFDGRV GH GDWRV
En teoría, un data warehouse puede desarrollarse
(cada departamento
por medio de cualquier metodología. En realidad,
funcional en una organización tiene sus propias
los requerimientos de la implementación de un data
necesidades específicas y que un solo data
warehouse
warehouse corporativo no puede satisfacer
descartan
el
uso
de
cualquier
todas las necesidades).
metodología que requiera una fase prolongada de
'DWD ZDUHKRXVH \ PHUFDGRV GH GDWRV
acopio de requerimientos y análisis, una fase de
(las
desarrollo monolítico que tome muchos meses y
necesidades del data warehouse específicas de
una fase de despliegue que ocupe también varios
un departamento se deben abordar junto con la
meses. Las dos metodologías populares en el
necesidad de un data warehouse corporativo.
6HSDUDFLyQ GH SODWDIRUPD H LQIUDHVWUXFWXUD
desarrollo de software son:
Método de análisis y diseño estructurado
(los cortes arquitectónicos se usan para separar
(en cascada).
la plataforma para el data warehouse, los
Método de desarrollo espiral.
mercados de datos, las fuentes de datos y las herramientas del usuario final, posee flexibilidad
6HOHFFLyQGHOiPELWRGHLPSOHPHQWDFLyQ
y se pueden compartir plataformas).
$UTXLWHFWXUD FOLHQWHVHUYLGRU GH GRV KLOHUDV
En la mayoría de las organizaciones, la motivación principal del proyecto de data warehouse es una
(es el empleo de dos capas de plataformas, una
primera implementación que produzca beneficios
capa contiene a los clientes –aplicaciones
inmediatos a un grupo de usuarios. Después de
gráficas- y la otra al servidor –estación de
definir un rumbo general y un conjunto general de objetivos
para
el
data
warehouse,
se
hace
trabajo, macrocomputadora-). $UTXLWHFWXUD FOLHQWHVHUYLGRU GH WUHV KLOHUDV
necesario derivar con rapidez un ámbito limitado
(hay tres capas: una capa cliente –estación de
para la primera implementación. El ámbito del
trabajo -, una capa intermedia con base en un
proyecto de data warehouse puede restringirse
servidor y una tercera capa establecida en una
entre muchas dimensiones. Las dimensiones se
macrocomputadora).
dividen en dos categorías principales:
Ámbito
determinado
a
partir
de
la
SUR\HFWR
perspectiva del usuario empresarial del
'HVDUUROORGHXQSURJUDPD\GHOSUHVXSXHVWRGHO
Uno de los aspectos más importantes de la
data warehouse. Determinación del ámbito con base en
consideraciones tecnológicas.
planeación consiste en poder realizar: Articular tanto un plan de programa como un conjunto de planes de proyecto (un plan de
6HOHFFLyQGHOHQIRTXHDUTXLWHFWyQLFR
El
implementador
dispone
de
las
programa es una visión general de la actividad siguientes
del data warehouse y su función en la vida
opciones arquitectónicas:
diaria y semanal de la organización. El plan de
'
:
6
programa proporciona la estrategia y los planes
5HFRSLODFLyQGHPHWDGDWRV
Recopilar varios elementos de diseño relacionados
Reservar un presupuesto adecuado para el
con los metadatos.
programa al tiempo que se compromete el gasto
emplea para las definiciones de datos. Los
para proyectos específicos. La planeación de
metadatos
este presupuesto se basa en dos enfoques:
utilizado para la construcción del data warehouse.
•
Estimación del costo, con base en el historial
Los metadatos reunidos durante la fase de
de la organización en el desarrollo de
planeación del data warehouse provienen de las
software.
siguientes fuentes:
•
de proyecto proporcionan la táctica).
son
0HWDGDWRV
usados
es el término que se
para
el
anteproyecto
Los modelos empresariales (deben basarse en
Estimación del costo, con base en la
la naturaleza del negocio) construidos por la
arquitectura de referencia. Proporcionar medidas para la estimación de la
organización son modelos de datos abstractos
retribución del data warehouse.
utilizados
para
caracterizar
los
tipos
de
información que necesita, recopila y utiliza una
organización.
'HVDUUROORGHHVFHQDULRVGHXVRHPSUHVDULDO
Los depósitos y diccionarios de datos que
Las personas que utilizan el data warehouse son
manejan los administradores de datos contienen
distintas a los desarrolladores y gerentes, por lo que puede ser útil que los usuarios finales se
definiciones de datos operacionales ubicados en
involucren en el establecimiento de las expectativas
diversas bases de datos relacionales y no
de lo que puede ofrecer el data warehouse. Los escenarios
empresariales
son
una
importante
relacionales. Las fuentes externas de datos que se requieren
herramienta del prototipo de requerimientos. Estos
para responder consultas empresariales pueden
escenarios ayudan a definir las expectativas del
estar estructuradas o no para el acceso y
usuario final con respecto al data warehouse.
recuperación.
Algunos de estos pasos que constituyen la planeación pueden efectuarse al mismo tiempo (en paralelo), lo cual acorta la duración de esta fase.
5HTXHULPLHQWRV
Es una especificación precisa de las funciones que se
toma el enfoque de abajo hacia arriba, la mayoría de los
obtendrán del data warehouse. Los requerimientos
requerimientos se construyen de manera oportunista con
describirán con claridad el ambiente operativo en el que
base en las esperanzas y expectativas. Aquí, el
se
conductor principal es la implementación rápida y de bajo
entregará
el
data
warehouse,
así
como
las
características y funciones necesarias.
costo.
El volumen de acopio de requerimientos que se debe realizar depende del enfoque de implementación que se
•
0DUFR
tome. Si se toma el enfoque de arriba hacia abajo, la actividad
de
acopio
de
requerimientos
GH
UHIHUHQFLD
GH
DQiOLVLV
GH
UHTXHULPLHQWRV
es
Se trata de ver a un sistema de información desde
significativamente grande, pero debido a que las
la
actividades están conducidas por el negocio están bien
depositario tiene expectativas distintas del sistema,
perspectiva
de
varios
depositarios.
Cada
entendidas y pueden catalogarse con facilidad. Si se '
:
7
los requerimientos del sistema. Pasos del análisis de requerimientos. 'HILQLUORVUHTXHULPLHQWRVGHOSURSLHWDULR
'HILQLUORVUHTXHULPLHQWRVGHODUTXLWHFWR 5(48(5,0,(1726 'HILQLUORVUHTXHULPLHQWRVGHOGHVDUUROODGRU
'HILQLUORVUHTXHULPLHQWRVGHORVXVXDULRVILQDOHV
Los requerimientos para la solución del data warehouse desde varias perspectivas de la gente involucrada en su planeación e implementación.
$QiOLVLV
Significa convertir los requerimientos acopiados en la
información del data warehouse. Especificación de
fase anterior de requerimientos, en un conjunto de
los tipos de herramientas y técnicas de exhibición
especificaciones que puedan apoyar el diseño. En lo
que usan.
abstracto, hay tres especificaciones principales de El proceso de análisis consiste en derivar modelos
entrada para el data warehouse:
físicos y lógicos de datos para el data warehouse y los
que
mercados de datos y definir los procesos necesarios
delinean las fronteras de la información que debe
para conectar las fuentes de datos, el data warehouse,
comprender el data warehouse; determinará la
los mercados de datos y las herramientas de acceso del
audiencia y sus requerimientos.
usuario final.
Requerimientos
de
enfoque
empresarial
Especificaciones de requerimientos de fuentes de datos que delinean las fronteras de información
disponible en las fuentes de datos actuales. Especificaciones de requerimientos de usuario final y acceso, las cuales definen cómo se utilizará la
'LVHxR
Los modelos lógicos desarrollados en la fase de análisis
warehouse/mercado de datos con herramientas de
se
procesos
estación de trabajo del usuario final, se convierten en
identificados en la fase de análisis para conectar las
diseños para programas que realizarán las tareas
fuentes de datos con el data warehouse, el data
requeridas por los procesos. También se identifican y
warehouse con los mercados de datos y el data
detallan los procesos que requiere, de manera interna,
convierten
en
modelos
físicos.
Los
'
:
8
cada bloque de la arquitectura de referencia del data
extracciones
warehouse.
procesos que conectan las fuentes de datos
En la fase de diseño se encuentran dos actividades
con el data warehouse (o los mercados de
principales:
datos si no necesitan un data warehouse).
'LVHxRGHWDOODGRGHODDUTXLWHFWXUDGHGDWRV
Desarrollo de modelos físicos de datos para las
y
Procesos que son internos al data warehouse y
Procesos que conectan al data warehouse con
Procesos que son internos a los mercados de
warehouse y mercado de datos. Pudiera
datos (si se usan) y se emplean para fines de
requerirse también el desarrollo de modelos
manejo interno.
físicos para el almacenamiento local necesario
para las herramientas de usuario final.
Procesos que conectan al data warehouse (o a los mercados de datos) con herramientas de usuario final.
Correspondencia de los modelos físicos de datos de las fuentes de datos con los modelos
Procesos que son internos al data warehouse y
físicos del data warehouse/mercados de datos.
a los mercados de datos y para iniciar
Esta correspondencia ayuda a los procesos de
herramientas de análisis.
extracción, efectuar
refinamiento
sus
funciones
y
reingeniería
dentro
del
a
data
Procesos que sustentan tareas de manejo, administración y prácticas internas para el data
warehouse/mercado de datos.
información
los mercados de datos (si se usan).
bases de datos de almacenamiento del data
de
se usan para fines de manejo interno.
Comprende las siguientes actividades:
parciales
warehouse como sistema.
'LVHxRGHWDOODGRGHODDUTXLWHFWXUDGHDSOLFDFLyQ
Está comprendido en las siguientes aplicaciones:
Procesos que son internos a las fuentes de datos y se relacionan con depuraciones o
&RQVWUXFFLyQ
Esta fase es la responsable de implementar físicamente
Programas que realicen transformaciones de datos,
los diseños desarrollados durante la fase de diseño.
tales como integración, resumen y adición. También
La construcción del data warehouse es similar a la
los
construcción de un sistema de base de datos relacional
ofrecen
facilidades
para
la
generación automática de estos programas.
grande. La mayoría de las aplicaciones que se necesitan construir son las siguientes:
fabricantes
Programas que realicen actualizaciones de bases de datos relacionales.
Programas que efectúen búsquedas en bases de
Programas que creen y modifiquen las bases de
datos muy grandes. Varias herramientas de usuario
datos para el data warehouse y los mercados de
final han optimizado utilerías de búsqueda para las
datos. Los fabricantes ofrecen capacidades de
consultas que generan. También varios fabricantes
generación automática para dichos programas.
de
Programas
aceleración de consultas y capacidades para
que
extraigan
datos
de
fuentes
relacionales y no relacionales. Algunos fabricantes
bases
relacionales
ofrecen
utilerías
de
recuperación en paralelo.
ofrecen facilidades para la generación automática de estos programas. '
:
9
'HVSOLHJXH
Esta fase tiene que ver principalmente con los retos de
contenida en el data warehouse en términos y
instalación, puesta en servicio y uso de la solución de data
warehouse.
Varias
organizaciones
tienen
lenguajes que comprendan.
ya
Al
principio,
el
data
warehouse
se
percibe
experiencia en el despliegue y puesta en marcha de
principalmente como una capacidad de apoyo a las
sistemas de información empresarial, actividades en las
decisiones, no una capacidad de misión crítica. La
que han adquirido experiencia:
mayoría de los sistemas de información empresarial
Proporcionar
la
instalación
inicial,
incluyendo
que
proporcionan
apoyo
operacional
están
facilidades para las conexiones básicas de datos
enlazados a los resultados, a veces sin desearlo,
con
como sistemas de misión crítica. Debido a estas
las
fuentes
y
para
la
actualización
y
sincronización de datos.
diferencias en la percepción, existe una necesidad
Planeación y entrega de una implementación por
de promover activamente entre los usuarios finales
etapas.
la información que proporciona el data warehouse.
Proporcionar capacitación y orientación a todo tipo
Sólo después de que los usuarios finales usen
de usuarios.
diariamente la información del data warehouse, éste
Planeación e implementación de la actualización de
se convertirá en un sistema de Misión Crítica.
plataformas y el mantenimiento necesario por el
El despliegue del data warehouse requiere las siguientes
data warehouse cuando se requiere. Proporcionar
la
administración
de
usuarios
y
capacidades adicionales:
&RPHUFLDOL]DFLyQ GH OD LQIRUPDFLyQ
sistemas.
este es el
Proporcionar la capacidad de generar archivos
proceso de tratar a la información en sí como si
permanentes y respaldos.
fuera un producto de mercancía. Un producto de
Proporcionar la capacidad de recuperación.
mercancía ha exhibido con claridad los aspectos de
Asegurar la integración dentro de la infraestructura
creación de demanda, atractivo y utilidad percibida
existente.
por el consumidor. Para el vendedor que analiza las
Proporcionar controles de acceso y seguridad.
tendencias e historia de ventas en su computadora
Asegurar la completa disponibilidad y los procesos
portátil, la información de ventas del data warehouse
para manejar caídas de los sistemas y sus
es simplemente una mercancía requerida para el
componentes de infraestructura.
momento. Se requiere en un formato compatible con una hoja de cálculo que se ejecute en esta estación
Además de los requerimientos normales de despliegue
de trabajo. La comercialización también es mostrar a
para cualquier sistema de información empresarial, el
los usuarios finales cómo desplegar la información
sistema
del data warehouse para su provecho, mostrando
de
data
warehouse
tiene
los
siguientes
requerimientos adicionales:
La mayoría de los sistemas de información son
ejemplos de escenarios de uso.
'LUHFWRULR&DWiORJR GH LQIRUPDFLyQ
el catálogo
construidos y manejados por personal técnico. El
de información para el data warehouse contiene
nivel de documentación de los metadatos en dichos
listas de elementos de información, consultas
sistemas con frecuencia sólo es adecuado para una
empresariales
audiencia de técnicos. La mayoría de los usuarios
disponibles a partir del data warehouse. Las listas
finales del data warehouse no son técnicos.
están en un lenguaje (y posiblemente en multimedia)
Necesitan
familiar y obvio para el usuario. Los catálogos de
ver
definiciones
de
la
información
'
:
estándar
y
reportes
estándar
10
información se actualizan y se entregan a los
El data warehouse es un método para ofrecer la
usuarios con la regularidad de suscripción.
información que en el pasado controlaba y manejaba un
([DPLQDGRUHV EURZVHUV GH LQIRUPDFLyQ
con el
departamento en tecnología de la información para un
amplio interés y popularidad de los examinadores, la
grupo de usuarios finales que entienden el negocio, pero
información
se
no necesariamente la tecnología. El concepto de
presenta y distribuye a los usuarios de manera que
apreciar la información como una mercancía fuerza al
les permita examinar y hacer copias locales de
proveedor de información a considerar los aspectos de
información en forma selectiva.
comercialización de productos de mercancía y apoyarse
del
data
warehouse
también
en el cuerpo de conocimientos desarrollado en esta área
durante años.
([SDQVLyQ
herramientas
El método de desarrollo en espiral es un ingrediente
de
acceso
del
usuario
final
clave para el despliegue rápido inicial de un data
consumieron mucho tiempo para la carga inicial de
warehouse. Este método requiere también de una rápida
información desde el data warehouse.
evolución de características y funciones basadas en las
Otros departamentos no querían configurar sus
lecciones aprendidas en anteriores despliegues. Al
propios mercados de datos. Ahora es necesario
comenzarse a utilizar regularmente el data warehouse,
incrementar el ámbito del metamodelo del data
se podrían prever algunas de las siguientes áreas de
warehouse.
mejoramiento:
Consultas
empresariales
que
no
pudieran
Para explotar las ventajas que ofrece el modelo en
formularse o satisfacerse debido a las limitaciones
espiral, es importante comenzar a reunir requerimientos
impuestas por el metamodelo del data warehouse.
para la siguiente iteración del ciclo de desarrollo tan
Estas limitaciones pueden surgir debido a una falta
pronto como se entrega una iteración. Para su uso
de ciertos resúmenes o adiciones que no se
efectivo, se requiere que la mayoría de las versiones de
realizaron en la implementación inicial.
software se distribuyan con intervalos mínimos de seis
Consultas empresariales que comprendieran fuentes
meses. Gran parte de los proyectos de desarrollo de
de datos externos que no formaron parte de la
aplicaciones se debe entregar aproximadamente dentro
implementación
del mismo marco de tiempo para que la administración la
inicial.
Ciertas
consultas
empresariales requerían información de fuentes de
atienda y apruebe.
datos adquiridos que se relacionen con factores ambientales. Desempeño no satisfactorio de componentes clave del data warehouse. El data warehouse no se actualizó
con
suficiente
frecuencia.
'
Las
:
11
/RVXVXDULRVGHXQGDWDZDUHKRXVH\VXVQHFHVLGDGHV
Los data warehouses responden a las necesidades de
tienen diferentes niveles de confianza y experiencia con
soporte de decisiones para un rango de usuarios que
la tecnología computarizada.
6HUYLFLRDFOLHQWHV
Perfiles del usuario
(MHFXWLYRV
3URGXFFLyQ 9HQWDV
*HUHQWHV
&RPHUFLDOL]DFLyQ
Fu n c i o n e s
$QDOLVWDV
&RQWDELOLGDG\)LQDQ]DV
3HUVRQDOGH $SR\R 8VXD
8VXD
8VXD
ULRV
ULRV
ULRV
RFDVLR
UHJX
H[SHU
QDOHV
ODUHV
WRV
J e r a r q u ía o r g a n i za c i o n a l Nivel de c om pet enc ia de usuarios
Desde la perspectiva de un data warehouse, los usuarios
Las suposiciones básicas sobre los usuarios comunes
se dividen en categorías por jerarquía, por función, o por
del data warehouse elaboradas por la mayoría de los
su nivel de competencia en cómputo en la organización.
constructores de data warehouses son las siguientes: •
El corte de la
MHUDUTXtD RUJDQL]DFLRQDO
Los usuarios tienen conocimientos del área de la
incluye al
director general y al director operativo; ejecutivos de
empresa que maneja el data warehouse. •
Los usuarios entienden la semántica de los datos
primer nivel como el director financiero y el contralor; gerentes de mandos medios; analistas empresariales y de
tecnología
de
la
información;
y
al
recuperados del data warehouse. •
Los usuarios aprenderán a acceder y recuperar los
personal
datos en el data warehouse. •
administrativo o de apoyo.
Los usuarios tienen la posibilidad y la capacidad
Un corte IXQFLRQDO constituye departamentos tales como
para convertir los datos (recuperados del data
Contabilidad y finanzas, Comercialización y ventas,
warehouse) en hechos e información, convertir los
Producción e ingeniería, Servicios de apoyo al cliente y
hechos en conocimiento y, utilizar luego ese
Administración.
conocimiento para tomar decisiones o plantear
El corte por
QLYHO GH FRPSHWHQFLD
en cómputo divide a
recomendaciones y alternativas.
los usuarios en tres amplios grupos con niveles crecientes: usuarios ocasionales, regulares y expertos.
'
:
12
&RQVXOWDV\UHSRUWHV3URFHVDPLHQWR,QIRUPiWLFR
La recuperación de la inversión en un data warehouse se
empresariales pretenden extraer los datos correctos con
basa en la capacidad de los usuarios empresariales para
una mínima inversión en tiempo y sin frustraciones. Hay
extraer
los
convertirlos
datos en
correctos
información
del y
data
luego
warehouse, utilizar
esa
varias formas de extraer y analizar información valiosa del data warehouse.
información para tomar mejores decisiones. Los usuarios
Plataforma de soporte de decisiones
"!# $%'& ( % $%)$%+* , &, -+%&
= 1 %& * 23/, !4, %-5
. %/, /, *+* , 0-
=> ?@
=> ;< F
: , -+% 9 )$% 1 &
8 - 9 /, *5
6 -5!#7/, *5
DE
C< AB
El procesamiento informático consta de tres distintos
matrices, tablas y gráficas que van de sencillas a
componentes: consultas para acceder y recuperar datos
complejas. El ámbito del procesamiento informático por
del data warehouse, análisis de los datos y presentación
lo regular está limitado al procesamiento de dos o tres
del análisis en forma de reportes, hojas tabulares y
dimensiones (2D o 3D).
3URFHVDPLHQWRLQIRUPiWLFR
1 % /, -, * , 0-#$% )*5-5&2
8 *+*%& 4G %+* 2(+% +* , 0-
H 7 * 2 & : -, (2 +* , 08 - 7 , &, & %&+%-5 +* , 0K%( %&
1 , L2 M+*+, 0H / %+ I %+*N/0-, *5
Pasos del procesamiento informático
IJ( +* , 0O%/ !P, %-5 & $%Q%& * /, ", '
:
13
'HILQLFLyQGHODFRQVXOWD
utilizan diversas técnicas de análisis, tales como cuadros
Una hipótesis o cuestión empresarial tal como “¿existe
y gráficas; por ejemplo, cuadros de ventas mensuales y
una tendencia por temporada en las ventas trimestrales
trimestrales por tienda para cada artículo y ventas por
de artículos deportivos?”, se debe traducir a una consulta
territorio y región. La experiencia, intuición y destreza del
de cómputo para proponerla al data warehouse. Esta
usuario empresarial tienen un papel principal en el éxito
traducción la lleva a cabo ya sea un profesional de
del
tecnología de la información, o bien, un usuario
recomendaciones.
análisis
de
los
datos
y
la
formulación
de
empresarial que utilice herramientas de un fabricante o una aplicación personalizada. El reto consiste en traducir los
términos
empresariales
en
términos
que
3UHVHQWDFLyQGHODLQIRUPDFLyQ
la
Los resultados del análisis se presentan como reportes,
computadora entienda (y, por lo tanto, términos que
cuadros y gráficas, o como datos preprocesados para un
comprendan las herramientas de acceso de acceso y
mayor análisis. Existen varias opciones, tales como
consulta del data warehouse).
reportes de corte simple y tabulares, gráficas de pastel, de barras en dos o tres dimensiones, histogramas y de
$FFHVR\UHFXSHUDFLyQGHORVGDWRV
dispersión, y la elección depende de la naturaleza de la
Las herramientas de acceso proponen la consulta de
información analizada y de las necesidades particulares,
cómputo al data warehouse y recuperan los datos
estilo de comunicación y cultura de la organización.
adecuados. El proceso de acceso y recuperación pudiera incluir la capacidad de realizar cálculos, tal como
'LYXOJDFLyQGHODLQIRUPDFLyQ
clasificar resultados o crear subtotales por artículo. Por
Las recomendaciones se podrían divulgar como una
ejemplo: las cifras de ventas de cada tienda se resumen
copia en bruto o con formato, o enviarse por correo
en forma semanal y por artículo.
electrónico al usuario empresarial. Ahora, cada vez con mayor frecuencia, los resultados del análisis se exportan
&iOFXORPDQLSXODFLyQ\DQiOLVLVGHORVGDWRV
a herramientas de escritorio como hojas de cálculo, (para
El usuario empresarial puede realizar mayores cálculos y
un mayor análisis) o a procesadores de texto para
manipulación sobre los datos reunidos por la consulta. El
incorporarse a reportes y documentos.
propósito del análisis adicional sería convertir los datos recuperados en información o hechos. A fin de convertir datos en información para derivar recomendaciones, se
0LQHUtDGH'DWRV
Cuando los analistas empresariales utilizan el data
Descubrir
nociones
empresariales
vitales
que
warehouse para determinar lo que están haciendo sus
ayuden a controlar la participación en el mercado y
clientes, ¿por qué lo hacen?. Comprender la conducta de
elevar las utilidades.
los
clientes
o
el
comportamiento
empresarial
Comprender la relación total con cada cliente para
es
fundamental para mejorar el balance de la empresa y
desarrollar las estrategias de precios adecuadas y el
tener clientes complacidos. Los administradores y
mayoreo de productos correcto, con base no sólo en
analistas empresariales buscan respuestas para lograr
la intuición, sino en el uso real del producto y la
objetivos como:
Localizar y llegar a mejores clientes no sólo a
experiencia del cliente.
Discernir un valor de por vida para el cliente.
cualquier clienta nuevo.
'
:
14
Reducir los gastos promocionales e incrementar al
datos es un arma esencial en el arsenal del soporte de
mismo
decisiones del analista.
tiempo
la
efectividad
neta
de
las
promociones en general (analizar el comportamiento
La minería de datos auxilia a los usuarios empresariales
de compras y la respuesta a las promociones).
en el procesamiento de vastas reservas de datos para descubrir “relaciones insospechadas”, por ejemplo, entre
,QJUHGLHQWHVGHODPLQHUtDGHGDWRV
productos y clientes o patrones de compra de los warehouse
clientes. La meta es descubrir “ revelaciones estratégicas
proporciona al gerente empresarial dos ingredientes
competitivas” para controlar la participación en el
esenciales:
mercado y las utilidades. Una vez extraídas las
Para
lograr
estos
objetivos,
el
data
Una gran cantidad de datos sobre sus clientes, así
relaciones y presentadas a los analistas empresariales,
como la historia entre el cliente y la organización.
éstos las examinan y seleccionan las más interesantes y
Mucho más importante, es el carácter único de sus
útiles.
datos, ninguno de los competidores los posee. La empresa tiene su propia mina de datos, y tiene el
Los
analistas
potencial de encontrar y extraer la información de
necesidades:
empresariales
tienen
un
rango
revelaciones fundamentales en el comportamiento de
Comprender qué está sucediendo en el negocio.
sus clientes, sus propios productos, e incluso sus
Por
proveedores. Para esta capacidad, la solución del data
qué
está
sucediendo,
¿Cuál
es
de
el
comportamiento de clientes y mercados?
warehouse debe incorporar la minería de datos a su plataforma de soporte de decisiones. La minería de
¿Qué puede hacerse?, ¿Cuáles acciones se pueden tomar?
1HFHVLGDGHV HPSUHVDULDOHV
$FFLyQ
3RUTXp
4Xp
Metas del soporte de decisiones &RPSOHMLGDG
El valor de un análisis para los gerentes es más alto
utilizan el sub-bloque de Análisis y recuperación para
cuando genera una recomendación factible. Comprender
tener una interfaz con el data warehouse y con el
el comportamiento y los pronósticos de clientes y
mercado de datos. Muchas de las herramientas de la
mercados, y lo que puede hacerse, son retos para las
minería de datos también emplean el componente de
técnicas tradicionales de análisis. Las consultas, reportes
depósito local del bloque de Acceso y recuperación, a fin
y análisis multidimensional tradicionales se concentran
de almacenar los datos en estructuras de datos de
en lo que está sucediendo y, en menor medida, en el por
propietario para análisis subsecuentes y presentaciones
qué. La minería de datos se concentra en llenar la
de los resultados. La mayoría de las herramientas de
necesidad de descubrir el por qué, para luego predecir y
minería de datos puede con facilidad saltarse el data
pronosticar las posibles acciones con cierto factor de
warehouse o el mercado de datos y acceder de manera
confianza para cada predicción.
directa la fuente de los datos. Tradicionalmente, las
Las
herramientas
de
minería
de
datos
son
un
herramientas de minería de datos acceden los datos de
componente importante del sub-bloque de Análisis y
la fuente. Sin embargo, los datos del data warehouse o
reportes del bloque de Acceso y uso de la arquitectura
del mercado de datos están refinados, integrados y
de referencia. Las herramientas de minería de datos
estandarizados. La estandarización eliminó aspectos
'
:
15
como las convenciones de nombres múltiples, las
esencialmente por el analista empresarial. En estos
estructuras ocultas de codificación y los campos
casos, este proceso también se conoce como
faltantes. Los datos operacionales en la fuente son por lo
GH GDWRV
general inconsistentes y están dispersos en muchas
decisiones, la cual es conducida por los datos y no por el
aplicaciones. Además, se requieren datos históricos para
analista empresarial).
PLQHUtD
(modalidad de descubrimiento del soporte de
descubrir patrones temporales de interés. Los datos en el data warehouse deben estar al nivel de
6XUJLPLHQWRGHDSOLFDFLRQHVGHPLQHUtDGHGDWRV
detalle correcto. Debido a la naturaleza incipiente de la
En las aplicaciones empresariales, a la fecha, la
tecnología de minería de datos, es necesaria (en
tecnología
especial al principio) una estrecha cooperación entre los
principalmente en aplicaciones de comercialización,
analistas empresariales y los profesionales en tecnología
ventas y análisis de créditos; y se ha aplicado con éxito
de la información.
en áreas empresariales con el más alto potencial, tales
Para formar la mezcla correcta de actividades de minería
como la segmentación de clientes y del mercado y el
de datos, son cruciales tres ingredientes: usuarios,
análisis de comportamiento del cliente, en particular en
aplicaciones empresariales y tecnología y herramientas.
los sectores de menudeo, bancario y financiero. Hasta
de
minería
de
datos
se
ha
utilizado
aquí, la tecnología por lo general era costosa de aplicar y 8VXDULRVGHODPLQHUtDGHGDWRV
desplegar pero esta situación esta cambiando con
Los usuarios clave en perspectiva de la minería de datos
rapidez. Hoy en día, una confluencia de tres fuerzas
son
importantes conduce el crecimiento en la minería de
los
analistas
estadística
empresariales,
los
peritos
en
y los profesionales en tecnología de la
datos:
información que auxilian a los usuarios empresariales.
La tecnología del data warehouse para proporcionar
Quienes obtienen beneficios de los resultados de minería
un gran banco de datos bien organizados e
de datos son los gerentes empresariales y los ejecutivos,
históricos.
que desean entender los factores de éxito del negocio con base en datos completos del cliente, y utilizan luego
Hardware en paralelo, productos de base de datos y
este conocimiento
herramientas a precios razonables.
Tecnologías y herramientas para minería de datos
para afinar las estrategias de
producción, precios y comercialización; mejorara el nivel
cada vez más desarrolladas.
de éxito de las estrategias; e impulsar el balance.
Se espera que se acelere el uso de la minería de datos.
Hasta la fecha, las empresas han dependido del
La cantidad de aplicaciones del data warehouse crece
procesamiento informático y analítico para medir y
con rapidez, y los precios de hardware en paralelo y los
comprender
productos de apoyo de software disminuyen con rapidez.
la
estabilidad
de
un
negocio.
El
procesamiento informático (consultas y reportes) es más sencillo de usar, pero requiere de una estrecha dirección
7HFQRORJtDV\KHUUDPLHQWDVGHODPLQHUtDGHGDWRV
del
Existe una amplia variedad de tecnología para la minería
analista.
Los
analistas
preguntan
cuestiones
específicas y verifican las cuestiones e hipótesis con los
de datos y todavía va a aparecer más en el mercado.
datos. Para este fin, los datos deben estar bien
Estas herramientas y tecnologías de datos se clasifican
organizados. El procesamiento analítico (OLAP) requiere
en tres grandes categorías:
Análisis estadístico o de datos.
de menos dirección del analista, aunque los datos deben estar organizados en una forma especial (base de los datos multidimensionales), o accederse bien de manera
Descubrimiento de conocimientos.
Otros, como sistemas de visualización, sistemas de
especial (visión multidimensional). En ocasiones se
información
geográfica,
análisis
utiliza una combinación de técnicas de consulta y OLAP
herramientas de propietario.
fractal
y
para comprender el comportamiento del cliente o para construir perfiles de segmentos de mercado; pero el proceso
de
aplicar
estas
técnicas
es '
conducido
:
16
'LVWULEXLGRUHV\3URGXFWRV
,%0
La solución del data warehouse de IBM se denomina 'DWD :DUHKRXVH 3OXV
$
Ofrece tres soluciones de data warehouse:
El enfoque de IBM consiste en
Mercado de datos independiente: se concentra en
entregar un conjunto completo de productos y servicios;
un departamento o función empresarial de la
su meta está en ofrecer una solución integrada con base
organización, se maneja con una ayuda mínima de
en una sola arquitectura. La flia DB2 es el ancla de la
la organización en tecnología de la información.
estrategia del data warehouse de IBM.
Mercado de datos dependientes: es similar al
IBM tiene la ventaja de que los datos operacionales que
anterior, pero la organización en tecnología de la
se van a extraer y almacenar en el data warehouse
información controla y administra la conectividad con
residen en sistemas IBM. De ahí que la integración
las fuentes de datos.
apegada sea un resultado natural. El reto en este
Data Warehouse global: lo implementa y administra
momento es que casi todos los productos de IBM son
la organización en tecnología de la información, y se
para plataformas IBM. IBM tiene un programa de
apoya en una arquitectura de empresa. Esto puede
sociedades para reclutar más socios de productos y
implicar una data warehouse centralizado o uno
servicios.
distribuido con mercados de datos
En la figura se muestran las principales funciones del data warehouse que maneja IBM.
Funciones del data warehouse
1 rs(+% +* , -+ %& 1 &4IJ5 %/- &
8 aaTf^
gUWR5f+V\^U `Wh a [b R
1 [ fSNU [ Z ] a [ b R
8di ` WaTRW ` [ TR+Sj^
k ^a+W i_[ Y_Wa [ b R c H ^ `lU TR5f [ b R
• Interno • Datos externos
• Mejoramiento • Resumen • Adición
• Etapa • Unión de varias fuentes • Adición
• Datos relacionales • Múltiples plataformas y hardware
• Catálogo de Información • Visiones empresariales • Modelos
8 ] S_^`WS [ Y_Wa [ b Rdc : WR T_e\^
Imn [ Z [ a [ b R+o 8 5R p i[ f [ fqc 1 Tfa ] Z U [ ` [ TR+S_^ • Consulta • Análisis Multidimensional • Minería de datos
• Flujo de datos • Flujo de Procesos •
6 R5STU VXW Y 8 Z[ TU+S\W
• Arquitectura de información del data warehouse
'
:
17
En la siguiente figura se muestran los principales productos de IBM.
Arquitectura y productos del data warehouse
rs +* % t NG &3+&+% 6 -5!P, J 8 1 8vu 8 t
8 aaTf^
gUWR5f+V\^U `Wh a [b R
• DataJoiner • API para SQL
8di ` WaTRW ` [ TR+Sj^
1 [ fSNU [ Z ] a [ b R
• DPROP/R • DPROP/NR • Data Refresher
1 rs(+% +* , -+ %& 1 &4IJ5 %/- &
u w 1 6: t . t 8 :
• DPROP/R • DataJoiner
k ^a+W i_[ Y_Wa [ b R c H ^ `lU TR5f [ b R • Guía de datos
• Flia DB2
8 ] S_^`WS [ Y_Wa [ b Rdc : WR T_e\^
• DataHub • Flowmark • AdStar Distributed - Storge Manager
Imn [ Z [ a [ b R+o 8 5R p i[ f [ fqc 1 Tfa ] Z U [ ` [ TR+S_^ • • • • •
Visualizador AS QMF DIS Herramienta de minería de datos • PV Explorer
6 R5STU VXW Y 8 Z[ TU+S\W
• Arquitectura de información del data warehouse • Productos de otros fabricantes
Una solución global de data warehouse puede basarse
agrupamiento. Además, IBM Research ofrece Parallel
en DB2 para MVS, o DB2 para AIX Paralel Edition. La
Visual Explorer, una poderosa técnica de análisis para
solución visual para el data warehouse se asienta en
visualizar
espacio
dimensional
con
coordenadas
DB2 para OS/2 o DB2 para AIX, y se ofrece como el
paralelas, una alternativa de representación geométrica
punto de entrada de bajo costo. IBM aborda la
para
administración de metadatos con la familia DataGuide.
Explorer se está utilizando en aplicaciones de minería de
En la minería de datos, IBM tiene una familia reciente de
datos para análisis financieros, análisis comercial y
herramientas de descubrimiento de conocimientos. Las
manufactura.
datos
multimendisionales.
El
Parallel
Visual
técnicas de descubrimiento de conocimientos que aplican estas herramientas son las asociaciones, los patrones
secuenciales,
los
clasificadores
y
6\EDVH
Las estrategias corporativas de Sybase se concentran en
fortaleza de Sybase reside en su motor RDBMS (System
tres
11), en la capacidad de conexión y acceso de su base de
mercados:
el
procesamiento
en
línea
de
transacciones, el data warehousing y el soporte de
datos (OmniCONNET), y en sus herramientas de
decisiones, y “ despliegue masivo” de información en
desarrollo (Powerbuilder). Sybase continúa ampliando la
toda la empresa. Su estrategia de data warehouse se
línea y funcionalidad de sus productos por medio de
incluye en su estructura “ Warehouse WORKS”. La
adquisiciones. Por ejemplo, se está mejorando el motor
'
:
18
para data warehouse con características como la
integrado un grupo de socios para su solución de data
indización de bits, adquirida de Expressway Technology.
warehouse.
Al igual que sus competidores, Sybase continúa
Estructura de Warehouse WORKS
1 & rs(+% +* , -+ %&
(
5{q| }
7
+ ~ {
'
5 |
,
x
gIKzy 8 H I t
$
u 6 IKg 8 t
$
5
Replication Server Replication Agent SQL- Server InfoPump
Enterprise CONNECT S-Designer
Sybase IQ Sybase MPP SQL-Server Watcom OmniCONNECT
5HIHUHQFLDV '
:
Rao '
0
“La integración de información para la mejor toma de decisiones” – Harjinder S. Gill, Prakash C.
”An Overview from Database Perspective” – Ming-Syan Chen, Jiawei Han, Philip S. Yu
An Overview of Data Warehousing and OLAP Technology – Surajit Chaudhuri, Umeshwar Dayal
'
:
19