Almacén de Datos
|
Almacén de datos o Data warehouse. Colección de datos orientada a un dominio, integrado, no volátil, y que varía en el tiempo. Ayuda a la toma de decisiones de la empresa u organización. Un almacén de datos es, sobre todo, un expediente de una empresa más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficientes de datos (especialmente OLAP).
Sumario
Características
El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de los datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas que son conocidas como los centros comerciales dependientes de los datos.
Generalmente, dos ideas básicas dirigen la creación de un almacén de los datos:
- Integración de los datos de bases de datos distribuidas y diferentemente estructuradas, que facilita una descripción global y un análisis comprensivo en el almacén de los datos.
- Separación de los datos usados en operaciones diarias de los datos usados del almacén para los propósitos de la divulgación, de la ayuda en la toma de decisiones para el análisis y para controlar.
Periódicamente, se importan datos de sistemas de planeamiento del recurso de la empresa (ERP) y de otros sistemas de software relacionados al negocio en el almacén de los datos para la transformación posterior. Es práctica común "efectuar" datos antes de combinarlos en un almacén.
El programa del proceso previo lee los datos efectuados (a menudo bases de datos primarias de OLTP de un negocio), realiza el proceso previo cualitativo o la filtración (desnormalización, si juzga necesario incluyendo), y la escribe en el almacén.
Definiciones
Según Bill Inmon
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del repositorio de datos:
- Orientado a temas: Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
- Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
- No volátil: La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
- Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.
Según Ralph Kimball
Ralph Kimball es otro conocido autor en el tema de los data warehouse. Define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.
Función
Un almacén de datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto. El almacén de datos da respuesta a las necesidades de usuarios conocedores, utilizando sistemas de ayuda en la decisión (DSS), Sistemas de Información Ejecutiva (EIS) o herramientas para hacer consulta o informes. Los usuarios finales fácilmente pueden hacer consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema.
Estructura
El ambiente de un almacén de datos queda definido por la suma de los diferentes DataMarts integrados, no sólo a nivel físico sino también a nivel lógico.
Cubos de Información
Un Cubo de Información o DataMart es una vista lógica de los datos en bruto, de los datos provistos por su sistema de operaciones/finanzas hacia el almacén de datos con la adición de nuevas dimensiones o información calculada. Se les llama DataMart, porque representan un conjunto de datos relacionados con un tema en particular como: ventas, operaciones, recursos humanos, etc, y están a disposición de los "clientes" a quienes les puede interesar la misma.
Esta información puede accesarse por el Ejecutivo (Dueño) mediante "Tablas Dinámicas" de MS-Excel o programas personalizados. Las Tablas Dinámicas le permiten manipular las vistas (cruces, filtrados, organización) de la información con mucha facilidad. Los cubos de información (DataMarts) se producen con mucha rapidez. A ellos se les aplican las reglas de seguridad de acceso necesarias.
La información estratégica está clasificada en: dimensiones y variables. El análisis está basado en las dimensiones y por lo tanto es llamado: Análisis multidimensional. Llevando estos conceptos a un DW, un Data Warehouse es una colección de datos que está formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.
Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido.
En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor y toman como valores un conjunto de elementos menor que el de las variables.
Dimensiones
Son atributos relativos a las variables. Son las perspectivas de análisis de las variables. Forman parte de la Tabla de Dimensiones (Dimension Table).
Variables
También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la Tabla de Hecho (Fact Table). Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar.
Arquitectura de un Almacén de Datos
Los bloques funcionales se corresponden con un sistema de información completo que utiliza un almacén de datos:
- Nivel operacional: Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales.
- Almacén de datos: Contiene datos primitivos correspondientes a sucesivas cargas del Almacén de Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).
- Nivel departamental (Data Mart): Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones.
- Nivel individual: Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacén de Datos. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el Almacén de Datos.
Elementos que integran un Almacén de Datos
Metadata
Uno de los componentes más importantes de la arquitectura de un DW es el Metadata. Es definido comúnmente como: "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos y cómo se relacionan.
El Metadata documenta exactamente, entre otras cosas, qué tablas existen para esa aplicación, qué columnas poseen cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el Metadata es de interés para los programas que tienen que manejar estos datos.
Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol fundamental.
Middleware
La función del Middleware es la de asegurar la conectividad entre todos los componentes de la arquitectura de un DW. El Middleware puede verse como capa API, en base a la cual los programadores pueden desarrollar aplicaciones que trabajen en diferentes ambientes sin preocuparse de los protocolos de red y comunicaciones en que se correrán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas, en menos tiempo.
API
Application Programmer Interface (Interfaz de Programación de Aplicación). Lenguaje y formato de mensaje utilizados por un programa para activar e interactuar con las funciones de otro programa o de un equipo físico. middleware Asegura la conectividad entre todos los componentes de una infraestructura informática. Es la estructura para enlazar todas las aplicaciones en forma integrada.
Mecanismos de Extracción
Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de sistemas están orientados a la realización de análisis estratégicos de la información contenida en un DW de una manera ad-hoc. Los análisis estratégicos requieren de una visión dinámica y multidimensional de la información diferente a la que se encuentra en los sistemas OLTP.
Este tipo de análisis está orientado a procesar grandes volúmenes de datos de forma que se puede medir la evolución del negocio a través del tiempo, mediante la confección de comparaciones, el estudio de indicadores, desviaciones, etc. Esto requiere la posibilidad de realizar análisis Top Down, es decir, que estos sistemas deben poseer el dinamismo necesario para permitir la reformulación de la consulta realizada de acuerdo al análisis de los resultados obtenidos en una primera instancia.
Mecanismos de Carga
Existen dos formas básicas de desarrollar esta tarea:
- Acumulación Simple. La acumulación simple es, sin duda, la más sencilla y común, y consiste en realizar una sumarización o resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el DW.
- Rolling. El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo.
Diseño de un Almacén de Datos
Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia la bodega de datos. Ya construido, se requieren medios para manejar grandes volúmenes de información. Dependiendo de la estructura interna de los datos de la Bodega y especialmente del tipo de consultas a realizar, se diseña la arquitectura de la Bodega de datos.
Con este criterio los datos deben ser repartidos entre numerosos Data Marts. Para abordar un proyecto de Data Warehouse (Bodega de Datos) es necesario hacer el levantamiento de algunos temas generales de la Organización:
- Ambiente Actual: Cualquier solución propuesta de Data Warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.
- Ambiente de Negocios: Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la Organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.
- Ambiente Técnico : Se debe incluir tanto el aspecto de ambiente hardware: mainframes, servidores, redes, así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de Soporte en la Decisión, si existen en la actualidad, cómo operan, etc.
- Expectativas de los usuarios. : Un proyecto de Bodega de Datos no es un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.
- Etapas de Desarrollo : Con el conocimiento previo, ya se entra en el desarrollo de una estrategia conceptual para la construcción de un DW.
- Ambiente de Negocios : Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.
- Prototipo : Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto que será entregado a los usuarios.
- Piloto : El piloto de la Bodega de Datos, simplemente es el primero de muchos esfuerzos iterativos que se harán para llegar a la construcción de una Bodega de Datos.
- Prueba del concepto tecnológico : Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del DW funcionará finalmente como se espera.
Véase también
Referencias
- Pyle, Dorian. Business Modeling and Data Mining. Morgan Kaufmann, 2003. ISBN 155860653X
- Business Intelligence Almacenes de Datos ETL
- Características de un almacén de datos
- Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005).
- investigación/bd_efsi04.pdf Bases de datos y data warehouse: Herramientas estratégicas para la eficacia comercial