Definición. Un data warehouse es un conjunto de datos integrados orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración. (W.H. Inmon, considerado como el padre del data warehouse). Data warehouse es un concepto relativamente nuevo, orientado al manejo de grandes volúmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos datos cubren largos períodos de tiempo, lo que trae consigo que se tengan diferentes esquemas de las bases de datos fuentes. La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas. Su nombre, Data warehouse (bodega o almacén de datos) lo asocia con una colección de datos de gran volumen, provenientes de sistemas en operación y otras fuentes, después de aplicarles los procesos de análisis, selección y transferencia de datos seleccionados. Su misión consiste en, a partir de estos datos y apoyado en herramientas sofisticadas de análisis, obtener información útil para el soporte a la toma de decisiones.

El Data warehousing o almacenamiento de datos es el proceso de reunir información histórica de una organización en una(s) base(s) de datos central(es).
Los datos tendrán su fuente en los sistemas operacionales, de los cuales se seleccionara la información a transferir. Estos datos pueden estar almacenados en bases de datos relacionales, archivos jerárquicos, archivos planos, etc. Por lo anterior es necesario analizar y definir cuidadosamente que datos representan la esencia o filosofía del negocio que se pretenda manejar y cuales serán importantes para la meta que se le ha determinado a la bodega de datos.La información sobre los datos importados se almacena en metadatos, que son precisamente los que describen a los datos provenientes de los sistemas operacionales. Los metadatos guardan información sobre los formatos, significado y origen de los datos y facilitan, por lo tanto, el acceso, la navegación y la administración de los datos en la bodega. Son datos sobre los datos.
Fuente de Datos: Datos operativos actualizados por aplicaciones OLTP (On Line Processing Transaction. Procesamiento de transacciones en línea.). Están almacenados en las bases de datos operacionales.
Bases de Datos Integrados: Organizados a través de intereses concretos. Información histórica reflejando transacciones OLTP, acumulada por años o en general por periodos largos. Esto lo diferencia de otras bases de datos. Generalmente son bases de datos relacionales. Se puede decir que es el servidor de apoyo de decisiones que añade valor a los datos procedentes de las fuentes en producción.
Directorio de Información: Presenta al sistema qué datos están disponibles, en qué formato y cómo acceder a ellos. Construye sus metadatos a partir de los metadatos de las bases de datos que están en la red. Son vital ayuda para los Administradores de Bases de Datos DBA.
Administrador de duplicación de datos: Encargado del copiado y distribución de los datos de acuerdo con el diseño. Se determinan los datos a copiar, desde donde y hacia donde, periodos para las actualizaciones. Se determina si se realiza una regeneración (copia de la fuente de datos en su totalidad) o una actualización (solo se propagan los cambios). Contienen información detallada y agregada. El tamaño de estas bases de datos es muy grande, se suelen clasificar en: Pequeñas: 0-100 GBytes Medianas: 100-500 GBytes Grandes: mas 500 GBytes Incluye Metadatos. Los metadatos llevan registros de los datos almacenados, integrados en la misma base de datos. Describen el contenido de la base de datos de información. Describen las tablas, índices y el contenido de los datos. Los metadatos definen los formatos, significado y origen de los datos y facilitan el acceso y administración a los datos en la bodega.
Soporte de herramientas DSS: Proveen la interfaz humana con la bodega de datos. En el procesamiento de la información se pasa de simples consultas SQL a OLAP y de esta a Minería de Datos.
Los elementos tocados, dan a entender que un Data Warehouse difiere de las bases de datos que soportan las transacciones diarias en los negocios. Veamos algunos aspectos:
En los sistemas operativos la información está organizada para que sea recuperada y actualizada fácilmente. Se normaliza para estos fines. Dicha organización esta orientada a la aplicación. Un data warehouse esta organizado y orientado con vista al usuario final, buscando que el análisis a través de requerimientos empresariales correcto sea posible.
Las bases de datos OLPT son accesadas continuamente a lo largo de una jornada de trabajo, mientras que las bases de datos de apoyo de decisiones son accesadas esporádicamente.
Los datos almacenados en la bodega de datos comprenden largos períodos de tiempo. Durante este lapso en la empresa se han presentado cambios tecnológicos y de implementación de las fuentes de datos, es usual que se requiera condensar información desde diferentes productos de bases de datos y dentro de estas, diferentes esquemas que se han dado en el tiempo.
Consistente con lo anterior es claro que los volúmenes de datos que se administran en una bodega de datos son muy grandes. Por lo cual la condensación y agregación es necesaria. En un Data Warehouse se encuentra información con diferentes grados de granularidad.
REQUERIMIENTOS PARA LA CONSTRUCCIÓN DE UNA BODEGA DE DATOS
HARDWARE
Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construcción de la bodega presenta redimensionamiento a medida que se avanza en la implementación. La capacidad inicial de almacenamiento estará determinada por los requerimientos de información histórica presentados por la empresa y por la perspectiva de crecimiento que se tenga.
Dependiendo del diseño del sistema, puede ser necesario contar con un segundo servidor para las herramientas de consulta de datos. Este equipo debe tener el sistema operativo recomendado por el proveedor de la herramienta a utilizar, siendo el más usado alguna versión de Windows.
Las estaciones de trabajo de cada usuario deberán cumplir con las características recomendadas por el proveedor de la herramienta de consulta seleccionada.
HERRAMIENTAS DE SOFTWARE
Las herramientas se clasifican en cuatro categorías básicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes.
Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse.
Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales.
Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc.
Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos.
Uso de herramientas OLAP (data warehouse)
Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en información importante para la organización.
Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser:
Herramientas de consultas / reportes, con interfaz gráfica, sin usar sentencias SQL, realizar queries o peticiones complejas.
Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.
Modelo Multidimensional: Modelo estilo hoja de cálculo.
a. Elementos:
Medidas: Valores de interés
Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados en forma de arreglos multidimensionales.
b. Visión de Relaciones:
Tablas de hechos (Fact Table): Ejemplo: ventas.
Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.
Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.
Tipos de servidores OLAP.
MOLAP: Multimensionales OLAP.
Arreglos multidimensionales.
No escalan a grandes volúmenes.
No hay estándar.
Muy eficiente.
Realmente guarda el cubo de decisión.
Interfaz estilo hoja de cálculo.
Principalmente operaciones de agregación de medidas diferentes.
Niveles jerárquicos de las dimensiones.
Subir o bajar en los niveles de agregación (Roll-up, Drill-Down).
Otras operaciones comunes: Filtrar y rotar. Slice and Dice.
La herramienta RAD de Inprise, Delphi, permite la construcción de cubos de decisión a partir de consultas SQL, con varios parámetros de agrupación y fácil manipulación. Ver
ROLAP: Relational OLAP.
Relaciones.
Consultas SQL
Escalan bien a grandes volúmenes
Son menos eficientes.
HOLAP: Híbrido OLAP.
Datos agregados. MOLAP
Datos detallados. ROLAP
Construcción del Data Warehouse.El ciclo del desarrollo del data warehouse no difiere en mucho de las fases de perfeccionamiento de todos los desarrollos de software. Las fases y las secuencias son las mismas, pero existen variantes únicas asociadas al data warehouse.
Planeación
En esta fase se determina: El enfoque que se optará para la implementación: Top-Down (De Arriba abajo), Bottom-up (De abajo a arriba) o una combinación de estas dos. La metodología de desarrollo: Las más usuales son el método de análisis y diseño estructurado y el método del desarrollo en espiral.
Requerimientos
Especificación clara y precisa de las funciones que se esperan obtener del data warehouse. Estos deben definirse desde varias perspectivas: propietario, arquitecto o desarrollador del data warehouse y desde la visión del usuario. Se definen las áreas tema que apoyará la bodega de datos, las dimensiones de categorización (tiempo, geografía, industria, grupo de clientes, línea de producto, etc.).
Análisis
Consiste en convertir todos los requerimientos conseguidos en la fase anterior en especificaciones concretas que sirvan de base para el diseño. Se definen los modelos lógicos de los datos para el data warehouse, los mercados de datos, definir los procedimientos de conexión con las fuentes de datos y el data warehouse y las herramientas de acceso del usuario final.
Diseño
Los modelos lógicos conseguidos en la anterior fase se convierten en modelos físicos. Se generan los diseños para programas y procesos que se requieren según la arquitectura, tanto a nivel de los datos como de aplicación. Construcción. Se conoce también como diseño físico y consiste en plasmar en la práctica, los diseños lógicos de la fase anterior. Incluye la construcción de programas que creen y modifiquen las bases de datos, que extraigan datos de las fuentes, programas para transformación de datos tales como integración, resumen y adición, programas para la actualización de los datos, programas para búsquedas en bases de datos muy grandes.
Montaje
Relacionados con la instalación, puesta en marcha y uso del data warehouse. Un elemento importante consiste en concientizar a los usuarios sobre la disponibilidad, beneficios y presentación de data warehouse, esto se conoce como comercialización de la información.
Si desea conocer mas del tema, dejamos un link con mayor informacion sobre bases de datos: