A continuación se hará una pequeña descripción de los algoritmos para trabajar con Oracle o Analysis Services de
Microsoft
Bayesiano
Naive.
Naïve Bayes es uno de los
clasificadores más utilizados por su simplicidad y rapidez.
Se trata de una técnica de
clasificación y predicción supervisada que construye modelos que predicen la
probabilidad de posibles resultados. Constituye una técnica supervisada porque
necesita tener ejemplos clasificados para que funcione, como ya veremos.
Está basada en el Teorema de
Bayes, también conocido como teorema de la probabilidad condicionada.
Bayesianos
Adaptativo.
La red de bayesiano adaptativo
(RBA) construye clasificadores de redes bayesianas mediante la longitud mínima
de la descripción (LMD) y la selección de características automática. RBA
funciona bien en ciertas ocasiones en las que el bayesiano ingenuo no funciona
con precisión y funciona, como mínimo, igual de bien en el resto de
situaciones, aunque el rendimiento puede ser más lento. El algoritmo RBA
proporciona la capacidad de generar tres tipos de modelos avanzados basados en
los bayesianos, incluido el árbol de decisión simplificado (mono-característica),
el bayesiano ingenuo podado y los modelos multi-característica aumentados.
Máquina
de Vectores de Soportes (SVM).
La máquina de vectores de
soporte (SVM) es un algoritmo de clasificación y regresión que utiliza la
teoría de aprendizaje de las máquinas para maximizar la precisión de las
predicciones sin ajustar excesivamente los datos. SVM utiliza una
transformación no lineal opcional de los datos de entrenamiento, seguida de la
búsqueda de ecuaciones de regresión en los datos transformados para separar las
clases (para objetivos categóricos) o ajustar el objetivo (para los objetivos
continuos). La implementación de SVM de Oracle permite que se generen modelos
mediante el uso de los dos kernels disponibles: lineal o gaussiano. El kernel
lineal omite la transformación no lineal de una vez, de tal forma que el modelo
resultante sea, en esencia, un modelo de regresión.
Modelos
Lineales Generalizados (GLM).
Los modelos lineales
generalizados relajan los supuestos restrictivos de los modelos lineales. Entre
ellos se incluyen, por ejemplo, los supuestos de que la variable objetivo tiene
una distribución normal y que el efecto de los predictores de la variable
objetivo es lineal por naturaleza. Un modelo lineal generalizado es el adecuado
para suposiciones en las que el objetivo es posible que tenga una distribución
no normal, como una distribución multinomial o de Poisson. De forma similar, un
modelo lineal generalizado es de gran utilidad en los casos en los que es
probable que la relación o enlace entre los predictores y objetivo sea no
lineal.
Un modelo lineal generalizado
tiene tres componentes básicos:
Componente aleatoria:
Identifica la variable respuesta y su distribución de probabilidad.
Componente sistemática:
Especifica las variables explicativas (independientes o
predictoras) utilizadas en la
función predictora lineal.
Función link: Es una función
del valor esperado de Y , E(Y ), como una combinación
lineal de las variables
predictoras.
Árbol de Decisiones.
Los árboles de decisión son
populares porque su aplicación es universal y sencilla, y son fáciles de
comprender. Los árboles de decisión criban a través de cada atributo de entrada
potencial en busca del mejor "divisor", es decir, el punto de corte
del atributo (por ejemplo, EDAD > 55) que divide los registros de datos
posteriores de la ruta en varias poblaciones homogéneas. Tras cada decisión de
división, ODM repite el proceso desarrollando el árbol entero y creando
"hojas" terminales que representan poblaciones similares de registros,
elementos o personas. Al descender desde el nodo raíz del árbol (por ejemplo,
la población total), los árboles de decisión proporcionan reglas legibles para
los humanos de las instrucciones Si A, entonces B. Estas reglas del árbol de
decisión también proporcionan el soporte y la confianza para cada nodo del
árbol.
O-Conglomerado.
El algoritmo O-clúster de
Oracle identifica las agrupaciones que se producen de forma natural en una
población de datos. La agrupación en clústeres de partición ortogonal
(O-clúster) es un algoritmo de agrupación en clústeres propiedad de Oracle que
crea un modelo de agrupación en clústeres jerárquica basado en la cuadrícula,
es decir, crea particiones de eje paralelo (ortogonal) en el espacio del
atributo de entrada. El algoritmo funciona de forma recursiva. La estructura
jerárquica resultante representa una cuadrícula irregular que forma un mosaico
de clústeres en el espacio del atributo.
El algoritmo O-clúster
gestiona atributos numéricos y categóricos, y ODM selecciona de forma automática
las mejores definiciones de clúster. ODM proporciona información detallada,
reglas y valores centroides del clúster, y se puede utilizar para puntuar una
población en relación con su pertenencia a un clúster.
Los algoritmos de formación de
conglomerados se agrupan en dos categorías:
·
Algoritmos de partición: Método de dividir el
conjunto de observaciones en k conglomerados (clusters), en donde k lo define
inicialmente el usuario.
·
Algoritmos jerárquicos: Método que entrega una jerarquía de
divisiones del conjunto de elementos en conglomerados.
K-Medias.
El algoritmo K-medias de
Oracle identifica los clústeres que se producen de forma natural en una
población de datos. El algoritmo K-medias es un algoritmo de agrupación en
clústeres basado en la distancia que divide los datos en un número de clústeres
predeterminado (siempre que haya suficientes casos distintos). Los algoritmos
basados en la distancia confían en una métrica de distancia (función) para
calcular la similitud entre los puntos de datos. Los puntos de datos se asignan
al clúster más próximo en función de la métrica de distancia empleada. ODM
proporciona una versión mejorada de K-medias.
El algoritmo K-medias admite
clústeres jerárquicos, trata atributos numéricos y categóricos, y divide la
población en el número de clústeres especificado por el usuario. ODM
proporciona información detallada, reglas y valores centroides del clúster, y
se puede utilizar para puntuar una población en relación con su pertenencia a
un clúster.
Factorización
de matrices no negativas (NMF).
La factorización de matrices no
negativas (NMF) permite reducir los grandes conjuntos de datos en atributos
representativos. Conceptualmente, es similar al análisis de componentes
principales (PCA) pero puede gestionar un mayor número de atributos en modelos
de representación aditivos; NMF es un algoritmo de minería de datos potente y
actual que se puede usar para una amplia variedad de casos.
NMF permite reducir grandes
cantidades de datos, por ejemplo, datos de texto, en representaciones más
pequeñas y dispersas que reducen la dimensionalidad de los datos (se puede
conservar la misma información con muchas menos variables). El resultado de los
modelos de NMF se puede analizar mediante técnicas de aprendizaje supervisado,
como las de SVM, o técnicas de aprendizaje no supervisado, como las técnicas de
agrupación en clústeres. Oracle Data Mining utiliza algoritmos NMF y SVM para
analizar datos de texto no estructurados.
Longitud
Minima de la descripcion (LMD).
El algoritmo de longitud
mínima de descripción de Oracle (MDL) ayuda a identificar los atributos que
tienen la mayor influencia en un atributo de destino. A menudo, saber qué
atributos son más influyentes lo ayuda a comprender y administrar mejor su
negocio y puede ayudar a simplificar las actividades de modelado. Además, estos
atributos pueden indicar los tipos de datos que puede desear agregar para
aumentar sus modelos. MDL podría usarse, por ejemplo, para encontrar los
atributos del proceso más relevantes para predecir la calidad de una pieza
fabricada, los factores asociados con la rotación, o los genes más
probablemente involucrados en el tratamiento de una enfermedad en particular.
Oracle MDL descarta los campos
de entrada que considera que no son importantes para predecir el destino. Con
los campos de entrada restantes, construye un nugget de modelo sin refinar que
está asociado con un modelo de Oracle, visible en Oracle Data Miner. Al
explorar el modelo en Oracle Data Miner, se muestra un gráfico que muestra los
campos de entrada restantes, ordenados por orden de importancia para predecir
el objetivo.
La clasificación negativa
indica ruido. Los campos de entrada clasificados en cero o menos no contribuyen
a la predicción y probablemente deberían eliminarse de los datos.
Importancia
del atributo de Oracle (AI).
El objetivo de la importancia
del atributo es descubrir los atributos del conjunto de datos que están
relacionados con el resultado y el grado en el que influyen en el resultado
final. El nodo Importancia del atributo de Oracle analiza los datos, busca
patrones y predice resultados con un nivel de confianza asociado.