El término data mining o minería de datos hace re­fe­re­n­cia al análisis orientado de grandes volúmenes de datos con el objetivo de obtener in­fo­r­ma­ción nueva que pueda resultar útil. Te ex­pli­ca­mos este concepto en mayor pro­fu­n­di­dad y algunos métodos de análisis asociados.

¿Qué es el data mining?

Para entender este concepto, que bebe de las ciencias de la co­mpu­tación y la es­ta­dí­s­ti­ca, es útil entender la metáfora contenida en el nombre. Si se observa el resultado del rastreo casi absoluto del co­m­po­r­ta­mie­n­to de los usuarios en Internet como una montaña de datos apa­re­n­te­me­n­te inútil, el data mining, que se traduce como minería de datos, pro­po­r­cio­na las he­rra­mie­n­tas ne­ce­sa­rias para explorar esta cantidad ingente de datos y extraer de ella in­fo­r­ma­ción relevante. Estas he­rra­mie­n­tas consisten en métodos es­ta­dí­s­ti­cos que permiten ide­n­ti­fi­car patrones de co­m­po­r­ta­mie­n­to y co­ne­xio­nes en unos datos que, por sí solos, no si­g­ni­fi­can nada.

La minería de datos se relaciona, a menudo, con el big data, concepto que se refiere a las bases de datos cuyo volumen ya no permite un análisis co­n­ve­n­cio­nal y, por ello, se apoya en procesos co­mpu­tacio­na­les. Mediante el proceso de data mining se puede explorar, sin embargo, cualquier cantidad de datos. La in­fo­r­ma­ción que se extrae mediante la minería de datos puede aplicarse a una gran variedad de ámbitos, por ejemplo, a la pla­ni­fi­ca­ción es­tra­té­gi­ca de un negocio online y a la toma de de­ci­sio­nes de marketing.

Áreas de apli­ca­ción del data mining

La minería de datos permite optimizar el comercio ele­c­tró­ni­co sobre una base cie­n­tí­fi­ca. Las grandes bases de datos propias de las tiendas online co­n­s­ti­tu­yen el punto de partida para extraer co­n­clu­sio­nes y pro­nó­s­ti­cos. Estos datos, ela­bo­ra­dos es­ta­dí­s­ti­ca­me­n­te y vi­sua­li­za­dos de forma es­tru­c­tu­ra­da, permiten a los ad­mi­ni­s­tra­do­res de tiendas online ide­n­ti­fi­car los factores que influyen en el éxito de un negocio online y re­ca­l­cu­lar las es­tra­te­gias de marketing. La minería de datos se usa en este caso para:

  • Segmentar mercados
  • Analizar carritos de la compra
  • Crear perfiles de co­m­pra­do­res
  • Calcular los precios de los productos
  • Elaborar un pro­nó­s­ti­co sobre el ve­n­ci­mie­n­to de los contratos
  • Analizar la demanda
  • Ide­n­ti­fi­car fallos en los procesos de venta
He­rra­mie­n­tas de IA
Saca el máximo partido a la in­te­li­ge­n­cia ar­ti­fi­cial
  • Crea tu página web en tiempo récord
  • Impulsa tu negocio gracias al marketing de IA
  • Ahorra tiempo y obtén mejores re­su­l­ta­dos

¿Cómo funciona el data mining?

En realidad, la ex­plo­ra­ción de datos es una de las etapas de un proceso mayor, la de­no­mi­na­da “ex­tra­c­ción de co­no­ci­mie­n­tos en bases de datos” (Knowledge Discovery in Databases o KDD), que abarca los si­guie­n­tes pasos:

  • De­fi­ni­ción de objetivos: antes de empezar, es fu­n­da­me­n­tal es­ta­ble­cer qué preguntas concretas queremos responder con el análisis de datos. Esto fa­ci­li­ta­rá a los es­pe­cia­li­s­tas en ciencia de datos el re­co­no­ci­mie­n­to de los datos pe­r­ti­ne­n­tes y los métodos de análisis adecuados para cada caso.
  • Pre­pro­ce­sa­mie­n­to de los datos: la calidad de la base de datos es decisiva para la calidad de la in­fo­r­ma­ción obtenida mediante la minería de datos. Por eso, es im­pre­s­ci­n­di­ble limpiar los datos pe­r­ti­ne­n­tes antes de que sean ana­li­za­dos, eli­mi­na­n­do du­pli­ca­dos, valores atípicos y otras irre­gu­la­ri­da­des. Es posible que también sea necesario convertir los datos depurados al formato requerido para el análisis.
  • Análisis de datos: aquí tiene lugar el análisis ma­te­má­ti­co de los datos. Los métodos de análisis que se utilicen de­pe­n­de­rán en gran medida de los objetivos marcados y de las ca­ra­c­te­rí­s­ti­cas de los datos. Pueden uti­li­zar­se tanto al­go­ri­t­mos clásicos de análisis de datos como al­go­ri­t­mos más recientes de apre­n­di­za­je profundo, basados en redes neu­ro­na­les.
  • In­te­r­pre­ta­ción de los re­su­l­ta­dos: primero se evalúan los re­su­l­ta­dos derivados del análisis. Si los re­su­l­ta­dos son co­m­pre­n­si­bles e in­fo­r­ma­ti­vos, pueden servir para obtener nuevas co­rre­la­cio­nes y obtener co­no­ci­mie­n­tos que podrían influir en es­tra­te­gias em­pre­sa­ria­les futuras.

Métodos del data mining

Para extraer in­fo­r­ma­ción relevante para las empresas, se han im­ple­me­n­ta­do di­fe­re­n­tes métodos basados en la ide­n­ti­fi­ca­ción de co­ne­xio­nes, modelos y patrones si­g­ni­fi­ca­ti­vos y que usan pro­ce­di­mie­n­tos propios de las ciencias es­ta­dí­s­ti­cas:

  • Re­co­no­ci­mie­n­to del valor atípico (outlier detection): por valores atípicos se entienden aquellos valores que se di­s­ta­n­cian de forma extrema del resto, ya que se desvían de un patrón o una tendencia general. En la minería de datos este análisis sirve para ide­n­ti­fi­car datos lla­ma­ti­vos que podrían conducir a un fraude mediante tarjeta de crédito.

  • Análisis de agru­pa­mie­n­to o clu­s­te­ri­ng: un clúster es un grupo de objetos que se apoya en las re­la­cio­nes de parecido mutuo. El objetivo de este análisis es la se­g­me­n­ta­ción de datos no es­tru­c­tu­ra­dos, para lo que se usan al­go­ri­t­mos como K-Nearest-neighbor (KNN), que exploran bases de datos en busca de es­tru­c­tu­ras de semblanza para ide­n­ti­fi­car nuevos clústeres. Los datos que no se pueden su­bo­r­di­nar a ningún grupo pueden ser in­te­r­pre­ta­dos como datos atípicos. Un caso muy habitual de apli­ca­ción en comercio ele­c­tró­ni­co es la ide­n­ti­fi­ca­ción de grupos de usuarios.

  • Cla­si­fi­ca­ción (análisis di­s­cri­mi­na­n­te): mientras que en el anterior método de análisis la atención se centra en la ide­n­ti­fi­ca­ción de grupos nuevos, en el análisis di­s­cri­mi­na­n­te se aplican clases pre­de­fi­ni­das. La di­s­tri­bu­ción tiene lugar a partir de ca­ra­c­te­rí­s­ti­cas comunes a datos in­di­vi­dua­les. Una manera muy habitual para cla­si­fi­car datos au­to­má­ti­ca­me­n­te consiste en los árboles de decisión (decision trees), modelos de pre­di­c­ción usados en la in­te­li­ge­n­cia ar­ti­fi­cial para es­ta­ble­cer esquemas de co­n­s­tru­c­cio­nes lógicas que permiten ca­te­go­ri­zar una serie de co­n­di­cio­nes sucesivas. Funciona a partir de nodos, en cada uno de los cuales se fija un aspecto del objeto. Su co­n­s­ta­n­cia o no co­n­s­ta­n­cia en el objeto decide la elección del siguiente nodo (o ca­ra­c­te­rí­s­ti­ca del objeto). En el ámbito del comercio ele­c­tró­ni­co se usa este pro­ce­di­mie­n­to de data mining para segmentar a los clientes en di­fe­re­n­tes grupos.

  • Análisis de aso­cia­ción (reglas de aso­cia­ción): un análisis de este tipo busca ide­n­ti­fi­car co­ne­xio­nes que puedan ser fo­r­mu­la­das como regla absoluta. Para las tiendas online este pro­ce­di­mie­n­to de data mining se podría aplicar para ide­n­ti­fi­car co­rre­la­cio­nes en un carrito de la compra típico según el patrón “clientes que compran el producto A, compran también el producto B”.

  • Análisis de regresión: con este tipo de análisis es­ta­dí­s­ti­co se pueden crear modelos que expliquen una variable de­pe­n­die­n­te a partir de variantes in­de­pe­n­die­n­tes. En la práctica, permite elaborar un pro­nó­s­ti­co para la venta de un producto, poniendo en relación en un patrón de regresión el precio del producto y el sueldo medio del cliente.

Li­mi­ta­cio­nes del data mining

El data mining agrupa métodos es­ta­dí­s­ti­cos que permiten un análisis fu­n­da­me­n­ta­l­me­n­te objetivo de bases de datos. Sin embargo, la elección subjetiva del tipo de análisis y de los di­fe­re­n­tes al­go­ri­t­mos y pa­rá­me­tros según de­te­r­mi­na­dos objetivos, puede llevar, quizás de forma deseada, a una adu­l­te­ra­ción de los re­su­l­ta­dos. Una forma de evitarlo podría ser recurrir a un servicio externo de minería de datos.

Por último, no hay que olvidar que el data mining arroja los re­su­l­ta­dos en forma de patrones y co­ne­xio­nes. Para obtener re­s­pue­s­tas hay que in­te­r­pre­tar los re­su­l­ta­dos en función de las in­te­rro­ga­cio­nes y los objetivos es­ta­ble­ci­dos pre­via­me­n­te.

Ir al menú principal