## set output options knitr::opts_chunk$set(echo = FALSE, message = FALSE, warning = FALSE) options(scipen=999) ## load packages
El primer objetivo del analista es comprender a fondo, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. A menudo, el cliente tiene muchos objetivos y limitaciones que compiten entre sí y que deben ser equilibrados adecuadamente. El objetivo del analista es descubrir factores importantes al principio del proyecto que pueden influir en el resultado final. Una consecuencia probable de descuidar este paso sería gastar mucho esfuerzo en producir las respuestas correctas a las preguntas equivocadas.
Recopilar la información que se conoce sobre la situación empresarial de la organización al inicio del proyecto. Estos detalles no sólo sirven para identificar más de cerca los objetivos de negocio a alcanzar, sino también para identificar los recursos, tanto humanos como materiales, que pueden ser utilizados o necesarios durante el transcurso del proyecto.
Describir el objetivo principal del cliente, desde una perspectiva de negocio. Además del objetivo principal del negocio, normalmente hay un gran número de preguntas comerciales relacionadas que el cliente desea abordar. Por ejemplo, el objetivo principal del negocio podría ser mantener a los clientes actuales mediante la predicción de cuándo son propensos a pasarse a la competencia, mientras que un objetivo secundario del negocio podría ser determinar si las tarifas más bajas afectan sólo a un segmento particular de clientes.
Describir los criterios para un resultado exitoso o útil del proyecto desde el punto de vista empresarial. Esto podría ser bastante específico y fácilmente medible, como la reducción de la rotación de clientes a un cierto nivel, o general y subjetivo, como "dar una visión útil de las relaciones". En este último caso, asegúrese de indicar quién haría el juicio subjetivo.
Cada uno de los criterios de éxito debe estar relacionado con al menos uno de los objetivos de negocio especificados
Antes de comenzar la evaluación de la situación, usted podría analizar experiencias previas de este problema, ya sea internamente, usando CRISP-DM, o externamente, usando soluciones pre-empaquetadas.
Esta tarea implica una investigación más detallada sobre todos los recursos, limitaciones, suposiciones y otros factores que deben ser considerados al determinar la meta del análisis de datos y al desarrollar el plan del proyecto.
Enumere los recursos disponibles para el proyecto, incluyendo el personal (expertos en negocios y datos, apoyo técnico, expertos en minería de datos), datos (acceso a datos operativos o almacenados), recursos informáticos (plataformas de hardware) y software (herramientas de minería de datos, otro software relevante).
Recuerde que se puede necesitar personal técnico en momentos puntuales durante todo el proyecto, por ejemplo, durante la transformación de datos.
Enumerar todos los requisitos del proyecto, incluyendo el cronograma de finalización, la comprensibilidad, la calidad de los resultados y la seguridad, así como los aspectos legales
Listar las suposiciones hechas por el proyecto. Estos pueden ser supuestos sobre los datos, que pueden ser verificados durante la minería de datos, pero también pueden incluir supuestos no verificables relacionados con el proyecto. Es particularmente importante enumerar estos últimos si afectan a la validez de los resultados.
Enumerar las limitaciones del proyecto. Estas limitaciones pueden incluir la falta de recursos para llevar a cabo algunas de las tareas del proyecto en el tiempo requerido, o pueden existir limitaciones legales o éticas en el uso de los datos o de la solución necesaria para llevar a cabo la tarea de minería de datos.
La lista de suposiciones también incluye las suposiciones iniciales del proyecto
Enumere los riesgos, es decir, los eventos que pueden ocurrir, que impactan el cronograma, el costo o el resultado. Enumerar los correspondientes planes de contingencia.
Elaborar un glosario de terminología relevante para el proyecto. Esto debe incluir al menos dos componentes:
Un glosario de terminología de minería de datos, ilustrado con ejemplos relevantes para el problema empresarial en cuestión.
Verificar la existencia de glosarios previos; de lo contrario, comenzar a redactarlos.
Preparar un análisis de costo-beneficio para el proyecto, comparando los costos del proyecto con los beneficios potenciales para el negocio si es exitoso.
La comparación debe ser lo más específica posible, ya que esto permite presentar una mejor propuesta de negocio.
Recuerde identificar los costos ocultos, tales como la extracción y preparación repetida de datos, los cambios en los flujos de trabajo y el tiempo requerido para la capacitación.
Una meta empresarial establece los objetivos en la terminología empresarial; una meta de minería de datos establece los objetivos del proyecto en términos técnicos. Por ejemplo, el objetivo empresarial podría ser, "Aumentar las ventas de catálogos a clientes existentes", mientras que el objetivo de la minería de datos podría ser, "Predecir cuántos productos comprará un cliente, dadas sus compras en los últimos tres años, la información demográfica relevante y el precio del artículo".
Describe los resultados previstos del proyecto que permitan alcanzar los objetivos de negocio. Tenga en cuenta que normalmente se trata de mensajes técnicos.
Definir los criterios para un resultado exitoso del proyecto en términos técnicos, por ejemplo, un cierto nivel de precisión predictiva o un perfil de propensión a la compra con un determinado grado de "elevación". Al igual que con los criterios de éxito empresarial, puede ser necesario describirlos en términos subjetivos, en cuyo caso se debe identificar a la persona o personas que hacen el juicio subjetivo.
Recuerde que los criterios de éxito de la minería de datos son diferentes a los criterios de éxito del negocio definidos anteriormente.
Recuerde que es prudente planificar la implementación desde el inicio del proyecto.
Describa el plan previsto para alcanzar los objetivos de la minería de datos y, por lo tanto, para alcanzar los objetivos del negocio.
Enumerar las etapas a ejecutar en el proyecto, junto con su duración, recursos requeridos, entradas, salidas y dependencias. Siempre que sea posible, explicite las iteraciones a gran escala en el proceso de minería de datos, por ejemplo, las repeticiones de las fases de modelado y evaluación. Como parte del plan del proyecto, también es importante analizar las dependencias entre el cronograma y los riesgos. Marque los resultados de estos análisis explícitamente en el plan del proyecto, idealmente con acciones y recomendaciones de acciones si los riesgos se manifiestan.
Aunque esta es la única tarea en la que se menciona directamente el plan del proyecto, debe ser consultado continuamente y revisado a lo largo de todo el proyecto. El plan de proyecto debe ser consultado como mínimo cada vez que se inicie una nueva tarea o se inicie una nueva iteración de una tarea o actividad.
Al final de la primera fase, el equipo del proyecto realiza una evaluación inicial de las herramientas y técnicas. Aquí, es importante seleccionar una herramienta de minería de datos que soporte varios métodos para diferentes etapas del proceso, ya que la selección de herramientas y técnicas puede influir en todo el proyecto.
Adquirir los datos (o acceso a los datos) listados en los recursos del proyecto. Esta recopilación inicial incluye la carga de datos, si es necesario para el análisis. Por ejemplo, si tiene la intención de utilizar una herramienta específica para el análisis de datos, es lógico cargarlos en esta herramienta.
Describa todos los datos utilizados para el proyecto e incluya cualquier requisito de selección para obtener datos más detallados. El informe de recopilación de datos también debe definir si algunos atributos son relativamente más importantes que otros.
Recuerde que cualquier evaluación de la calidad de los datos debe hacerse no sólo de las fuentes de datos individuales, sino también de cualquier dato que resulte de la fusión entre fuentes de datos. Debido a las inconsistencias entre las fuentes, los datos fusionados pueden presentar problemas que no existen en las fuentes de datos individuales.
Tenga en cuenta que los datos recopilados de diferentes fuentes pueden dar lugar a problemas de calidad cuando se fusionan (por ejemplo, los archivos de direcciones fusionados con una base de datos de clientes pueden mostrar inconsistencias de formato, invalidez de los datos, etc.).
Recuerde que algunos conocimientos sobre los datos pueden provenir de fuentes no electrónicas (por ejemplo, de personas, texto impreso, etc.).
Recuerde que puede ser necesario preprocesar los datos (datos de series temporales, promedios ponderados, etc.).
Examinar las propiedades "brutas" de los datos adquiridos e informar sobre los resultados.
Describa los datos que se han adquirido, incluyendo el formato de los datos, la cantidad de datos (por ejemplo, el número de registros y campos dentro de cada tabla), las identidades de los campos y cualquier otra característica que se haya descubierto.
Esta tarea aborda las preguntas de la minería de datos que pueden abordarse mediante técnicas de consulta, visualización y generación de informes. Estos análisis pueden abordar directamente los objetivos de la minería de datos. Sin embargo, también pueden contribuir a la descripción de los datos y los informes de calidad, o perfeccionarlos, y contribuir a la transformación y a otras medidas de preparación de los datos necesarias antes de que puedan realizarse análisis adicionales.
Describir los resultados de esta tarea, incluyendo los hallazgos o hipótesis iniciales y su impacto en el resto del proyecto. El informe también puede incluir gráficos que indican las características de los datos o apuntan a subconjuntos de datos interesantes que merecen un examen más detallado.
Examinar la calidad de los datos, abordando preguntas como: ¿Están completos los datos (cubre todos los casos requeridos)? ¿Están correctos o contienen errores? Si hay errores, ¿qué tan comunes son? ¿Hay valores faltantes en los datos? Si es así, ¿cómo se representan, dónde ocurren y qué tan comunes son?
Listar los resultados de la verificación de calidad de los datos; si hay problemas de calidad, enumerar las posibles soluciones.
Revise cualquier atributo que entre en conflicto con el sentido común (por ejemplo, adolescentes con altos niveles de ingresos).
Utilice gráficas de visualización, histogramas, etc. para revelar inconsistencias en los datos.
Recuerde que puede ser necesario excluir algunos datos que no muestran un comportamiento positivo o negativo (por ejemplo, para comprobar el comportamiento de los clientes en materia de préstamos, excluir a todos aquellos que nunca han pedido prestado, ni financiado una hipoteca de vivienda, aquellos cuya hipoteca está a punto de vencer, etc.).
Revisar si los supuestos son válidos o no, dada la información actual sobre los datos y el conocimiento del negocio.
Conjunto de datos: Estos son los conjuntos de datos producidos por la fase de preparación de los datos, utilizados para el modelado o para el trabajo de análisis principal del proyecto.
Descripción del conjunto de datos: Esta es la descripción de los conjuntos de datos utilizados para el modelado o para el trabajo de análisis principal del proyecto.
Decidir qué datos se utilizarán para el análisis. Los criterios incluyen la relevancia para los objetivos de la minería de datos, la calidad y las restricciones técnicas, como los límites en el volumen de datos o los tipos de datos.
Enumere los datos que deben utilizarse/excluirse y las razones de estas decisiones.
En función de los criterios de selección de datos, decida si uno o más atributos son más importantes que otros y pondere los atributos en consecuencia. Decidir, basándose en el contexto (es decir, la aplicación, la herramienta, etc.), cómo manejar la ponderación.
Elevar la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto puede implicar la selección de subconjuntos limpios de datos, la inserción de valores predeterminados adecuados, o técnicas más ambiciosas como la estimación de los datos que faltan mediante modelización.
Describa las decisiones y acciones que se tomaron para abordar los problemas de calidad de datos reportados durante la tarea de verificación de la calidad de datos. Si los datos se van a utilizar en el ejercicio de extracción de datos, el informe debe abordar las cuestiones pendientes relativas a la calidad de los datos y el posible efecto que esto podría tener en los resultados.
Recuerde que algunos campos pueden ser irrelevantes para los objetivos de la minería de datos y, por lo tanto, el ruido en esos campos no tiene importancia. Sin embargo, si el ruido se ignora por estas razones, debe documentarse completamente, ya que las circunstancias pueden cambiar más tarde.
Esta tarea incluye operaciones constructivas de preparación como la producción de atributos derivados, registros nuevos o valores transformados para atributos existentes.
Los atributos derivados son atributos nuevos que se construyen a partir de uno o más atributos existentes en el mismo registro. Un ejemplo podría ser: área = longitud * anchura.
¿Por qué debemos construir atributos derivados durante el curso de una investigación de minería de datos? No se debe pensar que sólo se deben utilizar datos de bases de datos u otras fuentes en la construcción de un modelo. Los atributos derivados pueden ser construidos porque:
Antes de agregar Atributos Derivados, trate de determinar si y cómo facilitan el proceso del modelo o facilitan el algoritmo de modelado. Tal vez "ingresos por persona" sea un atributo mejor y más fácil de usar que "ingresos por hogar". No derive atributos simplemente para reducir el número de atributos de entrada.
Otro tipo de atributo derivado es la transformación de un solo atributo, que normalmente se realiza para adaptarse a las necesidades de las herramientas de modelado.
Las transformaciones pueden ser necesarias para cambiar rangos a campos simbólicos (por ejemplo, edades a rangos de edad) o campos simbólicos ("definitivamente sí", "sí", "no sé", "no sé") a valores numéricos. Las herramientas de modelado o los algoritmos a menudo las requieren.
Los registros generados son registros completamente nuevos, que añaden nuevos conocimientos o representan nuevos datos que no están representados de otra manera (por ejemplo, habiendo segmentado los datos, puede ser útil generar un registro para representar al miembro prototípico de cada segmento para su posterior procesamiento).
Verificar las técnicas disponibles si es necesario (por ejemplo, mecanismos para construir prototipos para cada segmento de datos).
Estos son métodos para combinar información de múltiples tablas u otras fuentes para crear nuevos registros o valores.
La fusión de tablas se refiere a la unión de dos o más tablas que tienen información diferente sobre los mismos objetos. En esta etapa, también puede ser aconsejable generar nuevos registros. También se puede recomendar generar valores agregados.
La agregación se refiere a las operaciones en las que se calculan nuevos valores resumiendo la información de varios registros y/o tablas.
Recuerde que algunos datos pueden estar contenidos en un formato no electrónico.
Las transformaciones de formato se refieren principalmente a modificaciones sintácticas hechas a los datos que no cambian su significado, pero que pueden ser requeridas por la herramienta de modelado.
Algunas herramientas tienen requisitos sobre el orden de los atributos, como que el primer campo sea un identificador único para cada registro o que el último campo sea el campo de resultados que el modelo debe predecir.
Algunas herramientas tienen requisitos sobre el orden de los atributos, como que el primer campo sea un identificador único para cada registro o que el último campo sea el campo de resultados que el modelo debe predecir.
Puede ser importante cambiar el orden de los registros en el conjunto de datos. Tal vez la herramienta de modelado requiera que los registros se ordenen de acuerdo con el valor del atributo de resultado.
Estos son los conjuntos de datos producidos por la fase de preparación de datos, utilizados para la modelización o para los principales trabajos de análisis del proyecto.
Esta es la descripción de los conjuntos de datos utilizados para el modelado o para el trabajo de análisis principal del proyecto.
Como primer paso en el modelado, seleccione la técnica de modelado inicial. Si se van a aplicar múltiples técnicas, realice esta tarea por separado para cada técnica.
Recuerde que no todas las herramientas y técnicas son aplicables a todas y cada una de las tareas. Para ciertos problemas, sólo algunas técnicas son apropiadas (véase el Apéndice 2, donde se discuten con más detalle las técnicas apropiadas para ciertos tipos de problemas de minería de datos). Los "requisitos políticos" y otras restricciones limitan aún más las opciones disponibles para el ingeniero de minería de datos. Puede ser que sólo se disponga de una herramienta o técnica para resolver el problema, y que la herramienta no sea la mejor, desde un punto de vista técnico.
Registre la técnica de modelado real que se utiliza.
Elegir la técnica adecuada, teniendo en cuenta la herramienta seleccionada.
Muchas técnicas de modelado hacen suposiciones sobre los datos.
Antes de construir un modelo, es necesario definir un procedimiento para probar la calidad y validez del mismo. Por ejemplo, en tareas supervisadas de minería de datos como la clasificación, es común utilizar porcentajes de error como medidas de calidad para los modelos de minería. Por lo tanto, el diseño de las pruebas especifica que el conjunto de datos debe separarse en conjuntos de entrenamiento y pruebas. El modelo se construye sobre el equipo de entrenamiento y su calidad se estima sobre el equipo de prueba.
Describa el plan previsto para el entrenamiento, prueba y validación de los modelos. Un componente principal del plan es decidir cómo dividir el conjunto de datos disponible en datos de entrenamiento, datos de prueba y datos de validación.
Ejecutar la herramienta de modelado en el conjunto de datos preparado para crear uno o más modelos.
Con cualquier herramienta de modelado, a menudo hay un gran número de parámetros que pueden ser ajustados. Enumere los parámetros y sus valores elegidos, junto con la justificación de la elección.
Ejecutar la herramienta de modelado en el conjunto de datos preparado para crear uno o más modelos.
Describir el modelo resultante y evaluar su precisión, robustez y posibles deficiencias. Informe sobre la interpretación de los modelos y las dificultades encontradas.
El modelo debe ser evaluado ahora para asegurar que cumple con los criterios de éxito de la minería de datos y pasa los criterios de prueba deseados. Esta es una evaluación puramente técnica basada en el resultado de las tareas de modelado.
Resuma los resultados de esta tarea, enumere las cualidades de los modelos generados (por ejemplo, en términos de precisión) y clasifique su calidad en relación entre sí.
Se pueden construir "Tablas de elevación" y "Tablas de ganancia" para determinar qué tan bien está prediciendo el modelo.
De acuerdo con la evaluación del modelo, revise los ajustes de los parámetros y ajústelos para la siguiente ejecución.
Ajuste los parámetros para producir mejores modelos.
Los pasos anteriores de la evaluación trataron factores tales como la precisión y generalidad del modelo. Este paso evalúa el grado en que el modelo cumple con los objetivos de negocio, y busca determinar si hay alguna razón comercial por la cual este modelo es deficiente. Compara los resultados con los criterios de evaluación definidos al inicio del proyecto.
Una buena manera de definir los resultados totales de un proyecto de minería de datos es utilizar la ecuación: $$RESULTADOS = MODELOS + RESULTADOS$$$
En esta ecuación, estamos definiendo que el producto total del proyecto de minería de datos no son sólo los modelos (aunque, por supuesto, son importantes), sino también los hallazgos, que definimos como cualquier cosa (aparte del modelo) que sea importante para cumplir con los objetivos del negocio o que conduzca a nuevas preguntas, líneas de enfoque o efectos secundarios (por ejemplo, problemas de calidad de datos descubiertos por la minería de datos). Nota: Aunque el modelo está directamente relacionado con las preguntas del negocio, los hallazgos no necesitan estar relacionados con ninguna pregunta u objetivo, siempre y cuando sean importantes para el promotor del proyecto.
Este paso evalúa el grado en que el modelo cumple con los objetivos de negocio, y busca determinar si hay alguna razón comercial por la cual este modelo es deficiente. Otra opción es probar los modelos en aplicaciones de prueba en la aplicación real, si las limitaciones de tiempo y presupuesto lo permiten.
Además, la evaluación también valora otros resultados generados por la minería de datos. Los resultados de la minería de datos cubren modelos que están relacionados con los objetivos comerciales originales y todos los demás hallazgos. Algunos están relacionados con los objetivos comerciales originales, mientras que otros pueden revelar desafíos, información o pistas adicionales para futuros proyectos.
Resuma los resultados de la evaluación en términos de criterios de éxito comercial, incluyendo una declaración final relacionada con si el proyecto ya cumple con los objetivos comerciales iniciales.
Después de tener evaluados a los modelos con respecto a los criterios de éxito del negocio, seleccione y apruebe los modelos generados que cumplan con los criterios seleccionados.
En este punto, el modelo resultante parece ser satisfactorio y satisfacer las necesidades del negocio. Ahora es apropiado hacer una revisión más completa de la participación en la minería de datos para determinar si hay algún factor o tarea importante que de alguna manera se haya pasado por alto. En esta etapa del ejercicio de minería de datos, la Revisión del Proceso toma la forma de una Revisión de Garantía de Calidad.
Resuma el proceso de revisión y haga una lista de las actividades que se han omitido y/o que deben repetirse.
Basándose en los resultados de la evaluación y en la revisión del proceso, el equipo del proyecto decide cómo proceder. Las decisiones que se deben tomar incluyen si se debe terminar este proyecto y pasar al despliegue, iniciar nuevas iteraciones o establecer nuevos proyectos de minería de datos.
Enumere las posibles acciones adicionales junto con las razones a favor y en contra de cada opción.
Describa las decisiones tomadas, junto con la justificación de las mismas.
Esta tarea comienza con los resultados de la evaluación y concluye con una estrategia para la implementación de los resultados de la minería de datos en el negocio.
Resuma la estrategia de implementación, incluyendo los pasos necesarios y cómo llevarlos a cabo.
La supervisión y el mantenimiento son cuestiones importantes si los resultados de la minería de datos se convierten en parte del negocio diario y de su entorno. . Para poder monitorear el despliegue de los resultados de la minería de datos, el proyecto necesita un plan detallado de monitoreo y mantenimiento. Este plan tiene en cuenta el tipo específico de despliegue.
Resuma la estrategia de monitoreo y mantenimiento, incluyendo los pasos necesarios y cómo llevarlos a cabo.
Al final del proyecto, el equipo del proyecto redacta un informe final. Dependiendo del plan de implementación, este informe puede ser sólo un resumen del proyecto y su experiencia, o una presentación final de los resultados de la minería de datos.
Al final del proyecto, habrá al menos un informe final en el que se reunirán todos los hilos conductores. Además de identificar los resultados obtenidos, el informe también debe describir el proceso, mostrar los costos incurridos, definir cualquier desviación del plan original, describir los planes de implementación y hacer recomendaciones para trabajos futuros. El contenido del informe depende en gran medida de la audiencia a la que se dirige.
Además de un informe final, puede ser necesario hacer una presentación final para resumir el proyecto, por ejemplo, ante el patrocinador. La presentación normalmente contiene un subconjunto de la información contenida en el informe final, estructurada de manera diferente.
Evaluar lo que salió bien y lo que salió mal, lo que se hizo bien y lo que necesita ser mejorado.
Resuma la experiencia importante adquirida durante el proyecto. Por ejemplo, las trampas, los enfoques engañosos o los consejos para seleccionar las técnicas de minería de datos más adecuadas en situaciones similares podrían formar parte de esta documentación. En muchos proyectos, la documentación de la experiencia también cubre cualquier informe que haya sido escrito por miembros individuales del proyecto durante el proyecto.
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.