team2: Mineria de Datos

Leamos lo que escribió en octubre de 1995 Edmun DeJesus, editor de la famosa revista BYTE Magazín:

"Gracias a la minería de datos, las computadoras se encargan de seleccionar vastos almacenes de datos. Con una incansable e incesante búsqueda, será posible encontrar la diminuta pepita de oro en una montaña de datos de desperdicio".

En data mining las búsquedas se hacen sobre datos dispersos, con poca o ninguna intervención del usuario. No se requiere formular un requerimiento estricto para que la herramienta entregue algunas relaciones ocultas y patrones interesantes, conseguidos a través de clasificación y predicción.

Algunas aplicaciones de estas técnicas están directamente relacionadas con el mercadeo de producto, pudiendo predecir el comportamiento de los clientes ante una oferta o un producto en particular, de acuerdo a su ubicación geográfica. También para conocer las preferencias de los consumidores y tomar medidas que los acerquen a los productos que se distribuyen.

Buscando Patrones

El proceso de buscar patrones significativos en los datos, que expliquen eventos pasados, con el objetivo de usar dichos patrones para ayudar a predecir eventos futuros.

Puede ser:
Descriptiva. Información. Análisis dimensional.

Predictiva. Generar modelos. Esto realmente es minería de datos. Partir de un cúmulo de datos y descubrir relaciones ocultas y complejas a partir de diversas operaciones.

Ejemplos de esto son:
El análisis de transacciones de tarjetas de crédito para encontrar patrones de fraudes.
Búsqueda de tendencias de los compradores de acuerdo a sexo, edad, ubicación, etc.

Tareas de minería de datos

Clustering. Agrupamiento-segmentación. Particionar un conjunto heterogéneo en subconjuntos mas homogéneos. Internamente el sistema define estas características.
Clasificación. Asignar un registro a una o varias posibles clases predefinidas.

Agrupamiento por afinidad. Análisis de correlaciones. Identifica eventos o transacciones que ocurran simultáneamente. Ejemplo de compra los días jueves en la noche de pañales y cervezas en mercado.

Estimación /predicción. Asignar un valor a una variable dependiente que toma valores numéricos continuos. Esto lo diferencia de la clasificación.

Un ejemplo tradicional de minería de datos es el relacionado con una búsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente:
Esto sirvió para que empresa tomara medidas relacionada con la ubicación de ciertos productos en sitios comunes.

Si edad <35;

y sexo = masculino;

y dia = jueves entonces compras incluyen pañales; y cerveza

Técnicas de Minería de Datos.

Redes Neuronales.
Clasificación
Estimación Clustering

Arboles de decisión.

Técnicas de Algoritmos genéticos
Optimización de funciones, se usan con redes neuronales.

Análisis de Correlaciones.

K-Vecinos.

Redes Neuronales artificiales (RNA). Como su nombre lo indica simula el sistema nervioso real en forma abstracta. Estas deben ser entrenadas para que den solución a los problemas. Esta enseñanza se realiza repitiendo sistemáticamente entradas clásicas, con sus respectivas salidas o respuestas. Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, predicción y optimización.

Reglas de Producción. Generalmente son transformaciones de árboles de decisión que han crecido mucho, llevándolos al plano proposicional, lo cual facilita el entendimiento.
Todas estas técnicas pueden ser mezcladas para obtener los resultados esperados.

K-vecinos. Usa razonamiento basado en memoria (MBR) para las predicciones. Identifica los vecinos más cercanos (valores similares para igual atributo) y observa como se comporta la variable de salida. Parte de un conjunto de datos modelo, que representa el mecanismo de clasificación, se determina la cantidad de vecinos que participan en la clasificación (K). Es permitido ponderar atributos para expresar su importancia en la técnica.

Arboles de decisión (AD). Representan reglas donde atributos independientes determinan los valores finales. En estos árboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales. Usadas donde se deben tomar decisiones a partir de varias alternativas combinadas y con pesos diferentes. Son útiles en problemas de alta dimensionalidad y pequeño numero de valores para cada atributo. Se usan, por enumerar unos, en dominios médicos y en simulaciones de juegos de ajedrez.

Inconvenientes

En estas tareas de minería de datos, se encuentran inconvenientes inherentes a las bodegas de datos:

Grandes volumen de información y altamente dimensionales, lo que dificulta el hallazgo de patrones.

Valores inconsistentes o no existentes en algunos atributos importantes. Estas situaciones deberían haberse corregido en la fase de población y actualización, pero en caso de presentarse se debe tener una política para su manejo.

La representación de los resultados no siempre es comprensible para todos los usuarios.

Valor estadístico de los patrones hallados.

Productos para minería de datos

Hoy existen una buena cantidad de productos, de diversos fabricantes, para minería de datos, varios de ellos impulsados por universidades reconocidas [Esc96]. Por enumerar algunos, Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind (Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir en sitios Internet, para las diferentes plataformas: Data Surveyor (www.ddi.nl), IDIS (http://datamine.inter.net/datamine), VisDB (http://www.informatik.uni-halle.de/dbs/Research/VisDB).

Este último producto tiene una versión para sistema operativo Linux. El VisDB se ha desarrollado para apoyar la exploración de bancos de datos grandes. Los instrumentos de VisDB implementan severas técnicas visuales, permitiendo trabajar con bodegas de datos de aproximadamente un millón de valores de datos. Las técnicas apoyadas por el sistema son: Técnicas orientadas a pixel (espirales, Ejes y Técnicas de Agrupación), Coordenadas Paralelas y figuras de madera.

Estos productos, en forma integrada o separada se basan en: Redes neuronales, algoritmos genéticos, árboles de decisión, algoritmos estadísticos, funciones de visualización gráfica, técnica de K-vecinos, reglas de producción.

Algunos pasos deben seguirse para lograr provechosos resultados

Qué se espera?.
Qué se quiere descubrir?
Conjuntos de datos que se analizaran.
Pre-procesamiento. Buscan desechar los valores con desviaciones muy altas, generados por ausencia o datos incorrectos.
Limpieza. A partir de un previo conocimiento obtenido en los pasos anteriores se determinan las variables y registros que realmente representaran importancia.
Elegir la función de la minería y sus algoritmos.

Tareas en la Implementación de Data Warehouse.

Enfrentar un proyecto de data warehouse implica apoyarse en diferentes técnicas:

Técnicas Administrativas. La información del data warehouse es propia para cada empresa, esta estrechamente ligada con el negocio que se esta sistematizando, por lo tanto el diseño e implementación deben apoyar la solución a las necesidades planteadas. Se debe partir de los requerimientos funcionales de información, que generen una ventaja competitiva para la empresa y faciliten la toma de decisiones por parte de la administración. Como plantean Gill y Rao "Con frecuencia, el reto reside en transformar los enunciados estratégicos generales de la empresa en indagaciones empresariales precisas y después convertirlos en solicitudes y reportes del data warehouse".

Técnicas de almacenamiento y extracción de datos. Recordemos que varios son los procesos asociados con esta tecnología: Población inicial y actualizaciones, almacenamiento y análisis de datos. Como se explicó en el artículo anterior, en ocasiones los datos que poblarán la bodega de datos provienen de diferentes orígenes. Se requiere definir una estructura y esquema eficientes. Además, consolidar esos datos implica conocer y manejar diferentes sistemas, diferentes motores de bases de datos y eventualmente varios lenguajes de programación, que permitan la extracción desde las fuentes. Las extracciones iniciales implicaran generalmente una conversión de tipo de datos y el manejo de datos ausentes o inconsistentes, que garantice la integridad.

Las actualizaciones implican la extracción de datos desde sistemas en operación, que se harán periódica y cíclicamente. Se requiere, de acuerdo al conocimiento de la situación en particular, definir si se hará semanal, mensualmente o en otro período establecido. Actualizaciones muy constantes normalmente no benefician el análisis de datos, puesto que rara vez cambian las tendencias y/o comparaciones. Se recomienda, en caso de extracciones voluminosas, hacerlo hacia un archivo, esto facilita el reinicio desde distintos puntos, repetir el cargue y preprocesar antes de enviar a la red.
Los cargues deben ser masivos, aprovechando los utilitarios de las bases de datos o las rutinas desarrolladas para esto y no una simple instrucción insert, que generalmente es ineficiente. Es usual y conveniente eliminar índices en este proceso y posteriormente volverlos a crear. En el caso de los refrescos es preferible manejar la detección y propagación de cambios. Eventualmente usar triggers (disparadores. Son acciones especiales definidas por el usuario que son automáticamente ejecutadas por el servidor de bases de datos a partir de eventos sucedidos: insert, update, delete) o aplicaciones propias. También es permitido la comparación de versiones, que algunos sistemas operativos apoyan a través de breves comandos.

En el almacenamiento se debe usar estrategias para lograr eficiencia. En las bodegas de datos es posible manejar diversos niveles de granularidad. A menor granularidad, mayor cantidad de detalle. Para aumentar la granularidad, los datos operacionales deben resumirse y acumularse. Entre mayor sea la granularidad mas procesamiento se tendrá para convertir y resumir los datos desde las fuentes pero, al mismo tiempo, menor será el volumen de almacenamiento y mayor la facilidad de las consultas. Como se nota algunos datos se pueden almacenar como agregados, eso implica un especial cuidado al momento de los refrescos, para que estos datos sumarios también sean actualizados.

Otro elemento importante son las dimensiones de categorización. Un especial interés al momento del análisis es el tiempo, que permite determinar tendencias e información por períodos. También estas son dimensiones que se usan: grupos de clientes, líneas de productos, ubicación geográfica, grupo industrial, área en la organización, estrato social y las específicas del negocio a modelar.
No obstante lo dicho hasta ahora, existen varios enfoques de la arquitectura del data warehouse y en algún caso podría optarse por no generar copias de los datos de las aplicaciones en producción sino utilizar los datos operacionales usando aplicaciones que los consulten directamente.

Técnicas de administración del programa y análisis de datos. Como se dijo anteriormente, no es suficiente con almacenar un volumen alto de datos. Data warehousing implica la gestión de los mismos para convertirse en vital herramienta de soporte a las decisiones, derivar conclusiones a partir de la historia. Esto incluye el descubrimiento de patrones y tendencias, que puedan ser extrapoladas e intentar predecir comportamientos futuros. Estas técnicas se basan en las matemáticas, estadísticas, en la psicología, algoritmos genéticos, redes neuronales e incluso en la experiencia.

Partiendo de datos almacenados es posible obtener consultas sencillas, descriptivas, de datos independientes. También se pueden obtener reportes que manejen varias dimensiones y permitan crecer o bajar en la granularidad, dando una visión de los diferentes valores combinados cuando se requiera. Pero, como se planteó en el párrafo anterior podemos ser más exigentes y a partir de software especializado, optar por la predicción.

Selección de Arquitectura de Data Warehouse

Otro elemento que reviste importancia al momento de implementar una bodega de datos, es la selección de la arquitectura. La arquitectura enfoca el proyecto como componentes (Fuente de datos, bodega de datos, datamart y el acceso y uso).

El diagrama siguiente explica como se organizan estos elementos. Este es un caso particular propuesto por la firma Oracle.

Otros proveedores ofrecen diferentes modelos.

jueves, 13 de noviembre de 2008

Mineria de Datos

No hay comentarios:

team2

Seguidores

Archivo del blog

Datos personales