miércoles, 30 de marzo de 2011

Buscando la minería de datos

El tema de minería de datos me ha llamado mucho la atención desde que estaba en la universidad allá por el 2002.
Primero me tope con el libro "Data Mining Techniques for marketing, sales and customer relationship management" de Michael Berry y Gordon Linoff. Ahi ellos describen un buen numero de expriencias de trabajo con conjunto de datos y diversas técnicas para aplicar conceptos tales como la agrupación, la clasificación, predicción, estimación, perfilación, etc. Desafortunadamente en ese momento no contaba con experiencia practica que me diera un marco mental donde pudiera aterrizar todas esas maravillosas ideas y lo que es posible encontrar cuando se aplican a los datos adecuados.
Hoy día mi experiencia ha sido catalizador para aterrizar no todo pero buena parte de lo leído. Tuve la fortuna de estar en un seminario con el señor Bill Inmon (el padre del data warehouse) y asistir tambien a la primer conferecia de BI que Microsoft ofreció en Seattle (2007). Me he visto expuesto a conceptos como los del DW2.0 asi como su competidor el Datamart del señor Ralph Kimball. Comento todo esto porque me doy cuenta que antes de poder ejecitar cualquier modelo y aplicar tecnicas de minería de datos hay que pasar por una serie de etapas donde el "negocio" o la actividad descrita por el proceso da como resultado datos que deben de ser perfilados de tal manera que puedan ser minados.
Donde trabajo actualmente uno de los trabajo de mas reto es el tema de la calidad de datos, usuacios allá afuera, por favor sí leen esto, recuerden caputrar con el mas riguroso sentido de detalle los datos de los cuales son responsables, ahorrar incontables horas de trabajo en el futuro creanmelo y despues sientanse satisfechos de que su trabajo bien hecho aportará a futuras generaciones. Disculpen, me salgo del punto, el punto es que me he topado con el reto de tener que limpiar muchos registros, los cuales son la base para poder armar dimensiones, hechos, jerarquías, medidas etc (toda esta terminología encuentro acoplada a la de Analysis Services de Microsoft). En fin, mucha de la ayuda que he recibido ha sido por parte de los key users del negocio, en este caso las pesonas que son dueñas de la información que se almacena en el sistema de CRM y de Help Desk, SAP ni se diga, el departamento de finanzas esta hecho trizas ahi y nos han puesto en un predicamento sin igual para extraer datos, cotejarlos y demás y es que el detalle esta en que esas personas exportan los datos, los manipulan en excel con macros y despues los vuelven a manipular, cosa que esta prohibidisima cuando se realizan esfuerzos de automatización con ETL para estructurar datos. Nuestro SAP se ha vuelto una Elba Esther Gordillo: un mounstro demasiado poderoso al que nadie se atreve a ponersele al brinco y frenar su lastimoso trabajo que afecta negativamente a todos.
Enlisto de una vez la tecnología que usamos para todo la estrategia de Data Warehousing y al final Data Mining:
1.- SQL Server 2005 SP2
2.- Integration Services
3.- Analysis Services
4.- XTract IS (Theobald) -- carisimo este componente para extraer datos de SAP
5.- QlikView
6.- Excel 2010 + Tablas dinámicas
7.- ProClarity -- Realmente ya lo dejamos usar, tristemente lo tuve que tirar pues los usuarios de negocio no tienen el nivel para entender esta herramienta de analisis
8.- SharePoint
9.- Reporting Services -- predilecta de muchos (entoces para que compramos QlikView?)
Ahora dejenme platicarles sobre la metodología, aunque de primer instancia estuve expuesto a Bill Inmon y me cautivo lo encontré sumamente complejo y nunca pude entender donde comenzar, crear una BD?, crear un modelo?, documentar, documentar, documentar? me fué muy frustrante encontrarme en un lugar donde lo unico que me hacía sentido eran las estrellas que son el fundamento para los Data Marts y fué aqui donde me tope con Ralph Kimball, por fin ahi pude comenzar a entregar "algo" (segun la visión de dirección claro esta, este publico normalmente quiere ver las cosas hechas en un minimo tiempo, con un gran nivel de impacto). Aqui en este punto pregunto ¿quien en México puede reclamar que usa la metodología de Ralph Kimball para construir los Data Mart?. Yo me tope con Gopac y lo que me dieron fué un experto en T-SQL que me contruyo cuantas dimensiones se le ocurrió por un precio exorbitante, por favor tengan cuidado y sean claros con lo que venden, no toda la gente somos neofitos y habemos algunos que en realidad hacemos nuestra tarea y leemos U_U
Bien pues en donde estoy hoy con respecto a la minería de datos: ya construi mi data mart para el área de Servicio en la empresa la cual se encarga de todo lo que es help desk y servicio segun el modelo ITIL V3, la carga la realizo usando con hechos acumulados (en el libro de Kimball se llaman Accumulating Facts), tengo las dimensiones con atributos SCD1 y SCD2 (SCD = Slowly Changing Dimension) y solo me falta ver que técnica de minería voy a implementar.
A propósito y hablando de SCD, quiero agrader mucho a Todd McDermid por su componente de SCD para SSIS, me ha servido de maravilla.