El dirty data amenaza el mercado de análisis de datos

De acuerdo con un análisis realizado por Hocelot, la desbordada gestión de datos, su recopilación, procesamiento, y transformación en información de valor para el negocio, ha dado pie a un nuevo reto empresarial: dirty data.

Según datos de IDC, En México, el impacto económico y de reputación del dirty data podría provocar fuertes pérdidas económicas en un mercado de análisis de datos valuado entre 1,500 y 2,000 millones de dólares hacia el 2023, así como un retroceso en su crecimiento anual sostenido de alrededor del 18% desde 2017.

El dirty data son datos incorrectos, incompletos, desactualizados o duplicados que se encuentran en las bases de datos, generados por los usuarios, por ejemplo al rellenar un formulario, y que podría interferir con el análisis.

El usuario podría hacerlo de forma no intencionada, pero también con fines ilegales.

Hocelot asegura que un 8% de los usuarios miente o aporta al menos un dato falso cuando se le solicitan datos personales en Internet. Entre los datos más falsificados está el de la edad. Según el análisis, dentro de los fraudes detectados en 2019, a través de datos no verdaderos, 61% provino de hombres y 39% de mujeres.

Según los datos calculados por Hocelot, en nuestro país el dirty data podría representar una merma importante para cerca de 56% de las compañías que han iniciado o están contemplando iniciar su transformación digital, debido a que su análisis detectó que hasta 85% cuentan con datos falsos u obsoletos.

Esto adquiere gran relevancia si tomamos en cuenta que, de acuerdo a una encuesta de Select, 69% de las compañías confían de mucho a totalmente en los beneficios de la tecnología analítica.

Sin bien los datos “sucios” afectan al análisis de datos de cualquier sector, los daños son especialmente críticos para el sector financiero, donde las pérdidas ascienden a cuantiosas sumas por temas de morosidad y fraude, conceptos que le costaron a las entidades financieras mexicanas alrededor de 13 mil millones de dólares entre 2018 y 2019, de acuerdo con cifras oficiales de Hocelot.

En el dirty data analizado, Hocelot ha identificado cuáles son los datos personales más falsificados por los usuarios:

  1. Aspectos personales (edad, nivel educativo, búsquedas de trabajo, etc.)
  2. Económicos (sueldo, capacidad de ahorro, etc.)
  3. Relativo al domicilio habitado (renta de alquiler, precio estimado del inmueble, etc.)
  4. Salario

La importancia del dato actualizado

Contar con un dato fiable y actualizado es vital para las empresas que necesitan analizar el perfil de sus clientes para ofrecerles un producto personalizado (aseguradoras, bancos, compañías telefónicas). Cuando esos datos son erróneos es cuando las compañías incurren en pérdidas importantes, ya que se pierde agilidad en los procesos y se toman decisiones de negocio con base en análisis incorrectos.   

“Estamos percibiendo una mayor concientización de las empresas para implementar soluciones que les ayuden a entender los datos que generan sus negocios; sin embargo, este incremento en la generación de información y su uso analítico, también representa nuevos retos que las empresas deben asumir para lograr datos veraces, verificados, y dinámicos”, aseguró Luis Neira, Director de Hocelot México y Latinoamérica.