sábado, 27 de octubre de 2018

CONCEPTOS


Qué es el data mining o minería de datos?

La definición formal de data mining o minería de datos sería: la extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de datos. Otra manera de definirlo podría ser: la exploración y el análisis -por medios automáticos o semiautomáticos- de grandes cantidades de datos con el fin de descubrir patrones con significado.

Proceso de la minería de datos
Resultado de imagen para proceso de la mineria de datos
Metodología CRISP
Imagen relacionada
El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.
Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)
  • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito)
  • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
  • Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito)
  • Generación del plan del proyecto (plan, herramientas, equipo y técnicas)
Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)
  • Recopilación inicial de datos
  • Descripción de los datos
  • Exploración de los datos
  • Verificación de calidad de datos
Preparación de los datos (Obtener la vista minable o dataset)
  • Selección de los datos
  • Limpieza de datos
  • Construcción de datos
  • Integración de datos
  • Formateo de datos
Modelado (Aplicar las técnicas de minería de datos a los dataset)
  • Selección de la técnica de modelado
  • Diseño de la evaluación
  • Construcción del modelo
  • Evaluación del modelo
Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio)
  • Evaluación de resultados
  • Revisar el proceso
  • Establecimiento de los siguientes pasos o acciones
Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización)
  • Planificación de despliegue
  • Planificación de la monitorización y del mantenimiento
  • Generación de informe final
  • Revisión del proyecto

ALGORITMOS PARA APLICAR DATA MINING


A continuación se hará una pequeña descripción de los algoritmos para trabajar con Oracle o Analysis Services de Microsoft

Bayesiano Naive.
Naïve Bayes es uno de los clasificadores más utilizados por su simplicidad y rapidez.
Se trata de una técnica de clasificación y predicción supervisada que construye modelos que predicen la probabilidad de posibles resultados. Constituye una técnica supervisada porque necesita tener ejemplos clasificados para que funcione, como ya veremos.
Está basada en el Teorema de Bayes, también conocido como teorema de la probabilidad condicionada.

Bayesianos Adaptativo.
La red de bayesiano adaptativo (RBA) construye clasificadores de redes bayesianas mediante la longitud mínima de la descripción (LMD) y la selección de características automática. RBA funciona bien en ciertas ocasiones en las que el bayesiano ingenuo no funciona con precisión y funciona, como mínimo, igual de bien en el resto de situaciones, aunque el rendimiento puede ser más lento. El algoritmo RBA proporciona la capacidad de generar tres tipos de modelos avanzados basados en los bayesianos, incluido el árbol de decisión simplificado (mono-característica), el bayesiano ingenuo podado y los modelos multi-característica aumentados.

Máquina de Vectores de Soportes (SVM).
La máquina de vectores de soporte (SVM) es un algoritmo de clasificación y regresión que utiliza la teoría de aprendizaje de las máquinas para maximizar la precisión de las predicciones sin ajustar excesivamente los datos. SVM utiliza una transformación no lineal opcional de los datos de entrenamiento, seguida de la búsqueda de ecuaciones de regresión en los datos transformados para separar las clases (para objetivos categóricos) o ajustar el objetivo (para los objetivos continuos). La implementación de SVM de Oracle permite que se generen modelos mediante el uso de los dos kernels disponibles: lineal o gaussiano. El kernel lineal omite la transformación no lineal de una vez, de tal forma que el modelo resultante sea, en esencia, un modelo de regresión.

Modelos Lineales Generalizados (GLM).
Los modelos lineales generalizados relajan los supuestos restrictivos de los modelos lineales. Entre ellos se incluyen, por ejemplo, los supuestos de que la variable objetivo tiene una distribución normal y que el efecto de los predictores de la variable objetivo es lineal por naturaleza. Un modelo lineal generalizado es el adecuado para suposiciones en las que el objetivo es posible que tenga una distribución no normal, como una distribución multinomial o de Poisson. De forma similar, un modelo lineal generalizado es de gran utilidad en los casos en los que es probable que la relación o enlace entre los predictores y objetivo sea no lineal.
Un modelo lineal generalizado tiene tres componentes básicos:
Componente aleatoria: Identifica la variable respuesta y su distribución de probabilidad.
Componente sistemática: Especifica las variables explicativas (independientes o
predictoras) utilizadas en la función predictora lineal.
Función link: Es una función del valor esperado de Y , E(Y ), como una combinación
lineal de las variables predictoras.


Árbol de Decisiones.
Los árboles de decisión son populares porque su aplicación es universal y sencilla, y son fáciles de comprender. Los árboles de decisión criban a través de cada atributo de entrada potencial en busca del mejor "divisor", es decir, el punto de corte del atributo (por ejemplo, EDAD > 55) que divide los registros de datos posteriores de la ruta en varias poblaciones homogéneas. Tras cada decisión de división, ODM repite el proceso desarrollando el árbol entero y creando "hojas" terminales que representan poblaciones similares de registros, elementos o personas. Al descender desde el nodo raíz del árbol (por ejemplo, la población total), los árboles de decisión proporcionan reglas legibles para los humanos de las instrucciones Si A, entonces B. Estas reglas del árbol de decisión también proporcionan el soporte y la confianza para cada nodo del árbol.

O-Conglomerado.
El algoritmo O-clúster de Oracle identifica las agrupaciones que se producen de forma natural en una población de datos. La agrupación en clústeres de partición ortogonal (O-clúster) es un algoritmo de agrupación en clústeres propiedad de Oracle que crea un modelo de agrupación en clústeres jerárquica basado en la cuadrícula, es decir, crea particiones de eje paralelo (ortogonal) en el espacio del atributo de entrada. El algoritmo funciona de forma recursiva. La estructura jerárquica resultante representa una cuadrícula irregular que forma un mosaico de clústeres en el espacio del atributo.
El algoritmo O-clúster gestiona atributos numéricos y categóricos, y ODM selecciona de forma automática las mejores definiciones de clúster. ODM proporciona información detallada, reglas y valores centroides del clúster, y se puede utilizar para puntuar una población en relación con su pertenencia a un clúster.
Los algoritmos de formación de conglomerados se agrupan en dos categorías:
·         Algoritmos de partición: Método de dividir el conjunto de observaciones en k conglomerados (clusters), en donde k lo define inicialmente el usuario.
·         Algoritmos jerárquicos:  Método que entrega una jerarquía de divisiones del conjunto de elementos en conglomerados.

K-Medias.
El algoritmo K-medias de Oracle identifica los clústeres que se producen de forma natural en una población de datos. El algoritmo K-medias es un algoritmo de agrupación en clústeres basado en la distancia que divide los datos en un número de clústeres predeterminado (siempre que haya suficientes casos distintos). Los algoritmos basados en la distancia confían en una métrica de distancia (función) para calcular la similitud entre los puntos de datos. Los puntos de datos se asignan al clúster más próximo en función de la métrica de distancia empleada. ODM proporciona una versión mejorada de K-medias.

El algoritmo K-medias admite clústeres jerárquicos, trata atributos numéricos y categóricos, y divide la población en el número de clústeres especificado por el usuario. ODM proporciona información detallada, reglas y valores centroides del clúster, y se puede utilizar para puntuar una población en relación con su pertenencia a un clúster.

Factorización de matrices no negativas (NMF).
La factorización de matrices no negativas (NMF) permite reducir los grandes conjuntos de datos en atributos representativos. Conceptualmente, es similar al análisis de componentes principales (PCA) pero puede gestionar un mayor número de atributos en modelos de representación aditivos; NMF es un algoritmo de minería de datos potente y actual que se puede usar para una amplia variedad de casos.

NMF permite reducir grandes cantidades de datos, por ejemplo, datos de texto, en representaciones más pequeñas y dispersas que reducen la dimensionalidad de los datos (se puede conservar la misma información con muchas menos variables). El resultado de los modelos de NMF se puede analizar mediante técnicas de aprendizaje supervisado, como las de SVM, o técnicas de aprendizaje no supervisado, como las técnicas de agrupación en clústeres. Oracle Data Mining utiliza algoritmos NMF y SVM para analizar datos de texto no estructurados.

Longitud Minima de la descripcion (LMD).
El algoritmo de longitud mínima de descripción de Oracle (MDL) ayuda a identificar los atributos que tienen la mayor influencia en un atributo de destino. A menudo, saber qué atributos son más influyentes lo ayuda a comprender y administrar mejor su negocio y puede ayudar a simplificar las actividades de modelado. Además, estos atributos pueden indicar los tipos de datos que puede desear agregar para aumentar sus modelos. MDL podría usarse, por ejemplo, para encontrar los atributos del proceso más relevantes para predecir la calidad de una pieza fabricada, los factores asociados con la rotación, o los genes más probablemente involucrados en el tratamiento de una enfermedad en particular.

Oracle MDL descarta los campos de entrada que considera que no son importantes para predecir el destino. Con los campos de entrada restantes, construye un nugget de modelo sin refinar que está asociado con un modelo de Oracle, visible en Oracle Data Miner. Al explorar el modelo en Oracle Data Miner, se muestra un gráfico que muestra los campos de entrada restantes, ordenados por orden de importancia para predecir el objetivo.

La clasificación negativa indica ruido. Los campos de entrada clasificados en cero o menos no contribuyen a la predicción y probablemente deberían eliminarse de los datos.

Importancia del atributo de Oracle (AI).
El objetivo de la importancia del atributo es descubrir los atributos del conjunto de datos que están relacionados con el resultado y el grado en el que influyen en el resultado final. El nodo Importancia del atributo de Oracle analiza los datos, busca patrones y predice resultados con un nivel de confianza asociado.

REDES NEURONALES ARTIFICIALES




CONCEPTOS