martes, 14 de abril de 2015

Técnicas de Minería de Datos



Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos que se aplican sobre un conjunto de datos para obtener resultados que se pretenden.

Inteligencia Artificial
Estudia la creación y diseño de entidades que son capaces de resolver situaciones por si misma utilizando un paradigma importante que es la inteligencia humana.

Las técnicas más representativas son:

+ Redes Neuronales.
+ Regresión Lineal.
+ Árboles de Decisión.
+ Modelos Estadísticos.
+ Reglas de Asociación.

Redes Neuronales

Es un paradigma de aprendizaje y procesamiento automático. Trata de un sistema de interconexión de neuronas que colaboran entre si para producir un estimulo de salida.

Ejemplos: 
* Perceptrón --- Es un algoritmo capaz de generar un criterio para seleccionar un sub-grupo,                                dentro de un grupo de componentes más grande. 
* Perceptrón multicapa --- Es una red neuronal artificial (RNA) formada por múltiples capas,                                                     puede ser totalmente conectado.



En el primer caso cada salida de una neurona de la capa "i" es entrada de todas las neuronas de la capa "i+1", mientras que en el segundo caso cada neurona de la capa "i" es entrada de una serie de neuronas (región) de la capa "i+1"




Las capas son clasificadas en:
  • Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de entrada en la red. En estas neuronas no se produce procesamiento.
  • Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas anteriores y cuyas salidas pasan a neuronas de capas posteriores.
  • Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de toda la red.

* Mapa autoorganizado --- Produce una representación discreta del espacio de las muestras                                                 de entrada "mapa".
Consiste  en componentes llamados nodos o neuronas. 
SOM por sus siglas en ingles resulta muy util para visualizar vistas de baja dimensión de datos de alta dimensión de datos. Operan en dos modos: mapeo y entrenamiento. 
En el entrenamiento construye el mapa usando ejemplos entrenantes, mientras el mapeo clasifica una nueva entrada.


Árbol de Decisión

Son representaciones gráficas y analiticas de datos ya establecidos mediante una base de datos.
Ayuda en la toma de decisiones, desde un punto de vista probabilistico, con el fin de obtener la opción que mejor convenga.
Se caracterizan en mineria de datos por ser una técnica que busca solucionar problemas de predicción, clasificación y segmentación, una vez que ya se han analizado todos los datos.
Ventajas
  • Facilita la interpretación en la toma de decisiones.
  • Reduce el número de variables independientes.
  • Explica el comportamiento respecto a una decisión determinada.
Ejemplo:
Algoritmo ID3 --- Se enfoca en la búsqueda de reglas en él, dado un determinado conjunto de                                 ejemplos.
Un conjunto de ejemplos debe estar formado por una serie de tuplas de valores (atributos), en el cual es de tipo binario.
Los elementos que conforman este algoritmo son:
  • Nodos: Contienen atributos.
  • Arcos: Contienen valores posibles del nodo padre.
  • Hojas: Clasifican el ejemplo, positivo o negativo.
Algoritmo C4.5 --- Construye árboles de decision desde un grupo de datos de entrenamiento, usando el concepto de entropía de información, donde los datos de entrenamiento son un grupo de ejemplos ya clasificados.
Este algoritmo tiene casos base los cuales son:
  • Todas las muestras en la lista pertenecen a la misma clase. Cuando esto sucede, simplemente crea un nodo de hoja para el árbol de decisión diciendo que elija esa clase.
  • Ninguna de las características proporciona ninguna ganancia de información. C4.5 crea un nodo de decisión más arriba del árbol utilizando el valor esperado de la clase.
  • Instancia de la clase previamente no vista encontrada. C4.5 crea un nodo de decisión más arriba en el árbol con el valor esperado.
Entropía de información---Mide incertidumbre de una fuente de información, también se puede considerar como cantidad promedio que contienen los símbolos usados.
  

Reglas de Asociación

Son utilizadas para descubrir hechos que ocurren dentro de un determinado conjunto de datos.
Existen varios algoritmos que realizan búsquedas de reglas de asociación:

* Apriori
Este algoritmo es basado en el conocimiento previo de los conjuntos frecuentes, esto indica que se reduce el espacio de búsqueda y aumenta la eficiencia.

La evaluación de éste algoritmo es la siguiente:
  • Accesos en la base de datos: este algoritmo busca todos los conjuntos frecuentes unitarios contando sus ocurrencias directamente en la base de datos, por lo tanto se realizan varias pasadas en dicha base. 
  • Costo computacional: el conteo de soporte de los candidatos es costoso debido a que el número de subconjuntos frecuentes en cada candidato es cada vez mayor y los niveles en el árbol hash de candidatos se incrementa. 
  • Tiempo de ejecución: hay que hacer tantos recorridos como sea necesario para encontrar todos los ítems frecuentes, por lo que no solo es costosa la solución en memoria, sino además en tiempo. 
  • Rendimiento: este algoritmo tiene algunas mejoras para el rendimiento, entre ellas está la de reducir el número de ítems que contienen subconjuntos infrecuentes, aunque posteriormente al mezclar pares de conjuntos frecuentes con k-2 elementos iguales hay que verificar si todos los subconjuntos de k-1 elementos pertenecen al conjunto de itemsets frecuentes, con lo cual mejora el rendimiento. 
 Así sucesivamente se repite el proceso hasta que en una iteración no se obtengan conjuntos frecuentes.

* Partition

Este algoritmo propone fraccionar la base de datos en tantas partes como fueren necesarias.
El algoritmo recorre la base de datos dos veces. 
  • En la primera, cada partición es minada independientemente para encontrar los conjuntos de ítems frecuentes en la partición y luego mezclarlos para generar el total de los conjuntos de ítems candidatos. (Pueden ser falsos positivos, pero ninguno falso negativo). 
  • En la segunda, se cuenta la ocurrencia de cada candidato, aquellos cuyo soporte es mayor que el mínimo soporte especificado.

* Eclat

Se basa en realizar un agrupamiento (clustering) entre los ítems para aproximarse al conjunto de ítems frecuentes maximales y luego emplean algoritmos eficientes para generar los ítems frecuentes contenidos en cada grupo. 
Para el agrupamiento proponen dos métodos que son empleados después de descubrir los conjuntos frecuentes de dos elementos:
  • El primero, por clases de equivalencia: esta técnica agrupa los itemsets que tienen el primer ítem igual. 
  • El segundo, por la búsqueda de cliques maximales (clique Es un grafo que indica número de nodos que contiene.)
Regresión Lineal

Es la más utilizada para formar relaciones entre datos. 
Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
La estructura de un modelo de regresión lineal es sumamente simple: el modelo de minería de datos representa los datos como nodo único, que define la fórmula de regresión.


Algunas otra técnicas en las que se enfoca Minería de Datos:


  • Análisis Factoriales Descriptivos. Permiten hacer visualizaciones de realidades multivariantes complejas y, por ende, manifestar las regularidades estadísticas, así como eventuales discrepancias respecto de aquella y sugerir hipótesis de explicación.



  • Market Basket Analysis Permite detectar que productos se adquieren conjuntamente, permite incorporar variables técnicas que ayudan en la interpretación, como el día de la semana, localización, forma de pago. También puede aplicarse en contextos diferentes del de las grandes superficies, en particular el e-comercio, e incorporar el factor temporal. 



  • Técnicas de clustering. Son técnicas que parten de una medida de proximidad entre individuos y a partir de ahí, buscar los grupos de individuos más parecidos entre sí, según una serie de variables mesuradas. Series Temporales. A partir de la serie de comportamiento histórica, permite modelizar las componentes básicas de la serie, tendencia, ciclo y estacionalidad y así poder hacer predicciones para el futuro, tales como cifra de ventas, previsión de consumo de un producto o servicio, etc. 

  • Redes bayesianas. Consiste en representar todos los posibles sucesos en que estamos interesados mediante un grafo de probabilidades condicionales de transición entre sucesos. Puede codificarse a partir del conocimiento de un experto o puede ser inferido a partir de los datos. Permite establecer relaciones causales y efectuar predicciones. 

  • Modelos Lineales Generalizados. Son modelos que permiten tratar diferentes tipos de variables de respuesta, por ejemplo la preferencia entre productos concurrentes en el mercado. Al mismo tiempo, los modelos estadísticos se enriquecen cada vez más y se hacen más flexibles y adaptativos, permitiendo abordar problemas cada vez más complejos: (GAM, Projection Pursuit, PLS, MARS, ). 

  • Previsión local  La idea de base es que individuos parecidos tendrán comportamientos similares respecto de una cierta variable de respuesta. La técnica consiste en situar los individuos en un espacio euclídeo y hacer predicciones de su comportamiento a partir del comportamiento observado en sus vecinos. 

  • Algoritmos genéticos. También aquí se simula el modelo biológico de la evolución de las especies, sólo que a una velocidad infinitamente mayor. Es una técnica muy prometedora. En principio cualquier problema que se plantee, como la optimización de una combinación entre distintas componentes, estando estas componentes sujetas a       restricciones, puede resolverse mediante algoritmos genéticos.

Encuentra información sobre Programación R 

No hay comentarios.:

Publicar un comentario