¿Qué es la higiene de datos?

La higiene de datos es la práctica de asegurarse de que los datos estructurados o no estructurados que se encuentran en las bases de datos o los archivos compartidos están “limpios”, es decir, son precisos y están actualizados y libres de errores. La higiene de datos también se conoce como “limpieza de datos” y “calidad de los datos”.

En general, la poca calidad de los datos se debe a:

La duplicación de los datos (también conocida como redundancia de datos): cuando los registros de las bases de datos están repetidos.
El carácter incompleto de los datos: cuando un registro no contiene todos los datos requeridos.
La incoherencia de los datos: cuando el mismo dato está en diferentes formatos en múltiples tablas, con lo que hay distintos archivos que contienen una información diferente sobre el mismo objeto o la misma persona.
La imprecisión de los datos: cuando los valores de los datos almacenados para un determinado objeto son incorrectos.

¿Por qué es importante la higiene de los datos?

La higiene de los datos fomenta la seguridad, la productividad, el cumplimiento normativo y regulatorio y la eficiencia. Esto es así porque garantiza que las aplicaciones y los procesos de la empresa solo utilizan datos limpios, correctos y relevantes —y eso incluye la eliminación de los datos personales sensibles cuando ya no son necesarios—. Si no adopta unas buenas prácticas en materia de datos, seguirá pistas y rastros que le llevarán a callejones sin salida y a tomar malas decisiones.

Aquí tiene algunos ejemplos de los problemas que unos datos de mala calidad pueden crear en las organizaciones.

Área de Ventas y Marketing

Un estudio de DiscoverOrg ha revelado que los departamentos de ventas y marketing pierden unas 550 horas y hasta 32 000 $ por agente comercial debido al uso de datos incorrectos.

En el marketing, los datos erróneos pueden provocar un exceso de gasto. También pueden molestar o incluso espantar a los posibles clientes si estos reciben el mismo contenido más de una vez debido a la duplicación de los datos (es decir, registros duplicados con el mismo nombre escrito de manera un poco distinta dentro de la misma base de datos).

En las ventas online, una mala higiene de datos puede hacer que intente vender el producto equivocado al cliente equivocado si le faltan datos sobre sus productos y sobre el público objetivo.

Área Financiera

En el campo de la información financiera, unos datos incorrectos pueden dar respuestas distintas a la misma pregunta, debido a la incoherencia de los datos, lo que se traduce en unos informes financieros inexactos y erróneos. Estos informes pueden proporcionarle o un falso sentimiento de seguridad financiera o una sensación alarmante de inseguridad financiera.

Cadena de Suministro

Los datos incorrectos también pueden causar estragos en las cadenas de suministro, porque es muy difícil automatizar los procesos si las decisiones referidas a dichos procesos se basan en una información de ubicación poco fiable.

Objetivos generales de la empresa

A nivel corporativo, los problemas con la calidad de los datos pueden afectar considerablemente a la capacidad para cumplir los objetivos a largo plazo. Unos datos incorrectos pueden causar:

Un impacto negativo en la capacidad para reaccionar y cambiar de rumbo rápidamente para adaptarse a las nuevas tendencias y condiciones del mercado.
Una mayor dificultad para cumplir los requisitos legales impuestos por las principales normativas de confidencialidad y protección de los datos, como el RGPD, la HIPAA y la CCPA.
Dificultades para aprovechar los análisis predictivos de los datos corporativos, lo que provoca que se tomen decisiones más arriesgadas en relación con los objetivos a corto y largo plazo de la empresa.

Los retos relacionados con el mantenimiento de una buena higiene de los datos

A pesar de la importancia de la higiene de los datos, muchas empresas tienen dificultades para mantener la calidad de sus datos. Según un estudio publicado por la Harvard Business Review, de media, el 47% de los registros de datos que se crean tienen al menos un error crítico (que, por ejemplo, afecta al trabajo) y solo el 3% de los resultados sobre la calidad de los datos son “aceptables” usando los estándares más laxos posibles.

Son varios los factores que pueden dificultar la optimización de la higiene de los datos. Estos son algunos de ellos:

La creciente variedad de fuentes de datos: las empresas solían usar únicamente los datos que generaban sus propios sistemas empresariales, como los datos de las ventas o de los inventarios. Sin embargo, en la actualidad, las fuentes de datos son muy variadas y pueden incluir conjuntos de datos procedentes de Internet y de dispositivos IdC, datos científicos y experimentales, etc. Cuantas más fuentes de datos tenga, más le costará garantizar que los datos no se han modificado o alterado de alguna manera. Cada vez que añade un nuevo sistema a su motor de procesamiento de datos, está aumentando las posibilidades de que esos datos pierdan valor porque se contaminen o se pierdan, ya que las diferentes fuentes de datos producen distintos tipos de datos. Según las estimaciones, los datos no estructurados —es decir, la información que no está organizada siguiendo un modelo o esquema de datos predefinido— constituyen actualmente el 80% de todos los datos.
El mayor volumen de datos: sin duda estamos en la era de los macrodatos y estos macrodatos son cada vez más grandes. Desde 1970, la cantidad de datos se duplica cada tres años. Y cuantos más datos hay, más difícil es recogerlos, limpiarlos, integrarlos y lograr un nivel de calidad razonablemente alto en un plazo de tiempo determinado. Por otro lado, si la mayoría de esos datos están sin estructurar, los tiempos de procesamiento todavía aumentarán más, ya que esos datos no estructurados tienen que transformarse en datos estructurados o semiestructurados, lo que aún empeora más la calidad del procesamiento de los datos.
El aumento de la velocidad de los datos: los datos “en tiempo real” se han convertido en un concepto muy de moda en los últimos cinco años. Eso es así porque cuantos más datos se generan, más rápidamente hay que procesarlos para no correr el riesgo de que los sistemas se saturen. En este sentido, los datos son como un líquido que fluye por una tubería —cuanto más deprisa entra el líquido, más peligro hay de que la tubería se rompa y la única manera de lidiar con el volumen creciente es haciendo la tubería más grande—. En el caso de los datos, hacer la tubería más grande significa procesar los datos más rápidamente para igualar la velocidad de entrada de los datos. Sin embargo, el procesamiento en tiempo real es una disciplina (y una funcionalidad) relativamente nueva, lo que significa que todavía hay mucho “ruido” en forma de datos no utilizados o de uso de datos irrelevantes. Debido a ello, las decisiones que se adoptan sobre la base de esos datos tienden a no ser óptimas, en el mejor de los casos, o erróneas en el peor.
La falta de unos estándares claros de calidad de los datos: existen normas sobre la calidad de los productos desde 1987, cuando la Organización Internacional para la Normalización (ISO) publicó la norma ISO 9000. En cambio, las normas oficiales sobre la calidad de los datos solo existen desde 2011 (desde la norma ISO 8000), lo que significa que siguen en fase de desarrollo y aún son relativamente nuevas. Según un estudio de 2015 publicado en el Data Science Journal: “Actualmente, faltan análisis y estudios completos sobre los estándares de calidad y los métodos de evaluación de la calidad de los macrodatos”.

Las buenas prácticas para la higiene de los datos

Los estándares de calidad de los datos aún están en fase de desarrollo, pero existen ciertas prácticas recomendadas para la higiene de los datos que se pueden adoptar para garantizar que la calidad de los datos es —y se mantiene— alta.

La buenas prácticas incluyen:

Auditoría

La auditoría de datos es fundamental para mantener una buena higiene de los datos y suele ser la primera fase de cualquier proceso de limpieza de los datos. Antes de adoptar cualquier medida, hay que evaluar la calidad de los datos y establecer un punto de partida realista sobre la calidad de los datos de la empresa. Una auditoría de datos típica incluye un estudio detenido de la infraestructura y los procesos de TI para ver dónde están los datos, cómo se usan y con qué frecuencia se actualizan.

Cumplimiento normativo

Es fundamental definir unas directivas que regulen qué datos se recogen y por qué, sobre todo si los datos proceden de los consumidores. Esto debe incluir la consolidación de unas políticas de conservación y supresión de los datos. Los planes de conservación establecen durante cuánto tiempo se almacenan los datos en un sistema hasta que se eliminan. La higiene consiste en saber qué datos se almacenan, por qué y dónde y cuándo hay que eliminarlos. Obtenga más información sobre las buenas prácticas para el cumplimiento normativo de los datos.

Gobernanza

La gobernanza de los datos es el conjunto de procesos, funciones, políticas, estándares e indicadores que garantizan un uso efectivo y eficiente de la información para que la organización logre sus objetivos. La gobernanza de los datos define quién puede tomar medidas, con qué datos, en qué situaciones y usando qué métodos. Una buena gobernanza de datos es esencial para garantizar que en toda la organización hay unos datos de gran calidad.

Automatización

Por último, una buena higiene de datos se consigue con la automatización de los procesos relacionados con la calidad de los datos. Esto significa ante todo que hay que actualizar automáticamente los datos con la mayor frecuencia posible, para garantizar que estos estén siempre actualizados y sean correctos. Los sistemas de limpieza de los datos pueden cribar grandes cantidades de datos y usar algoritmos para detectar anomalías e identificar los valores atípicos resultantes de errores humanos. También pueden limpiar las bases de datos de registros duplicados.

¿Qué hace que los datos sean de buena calidad?

Unos datos de calidad deben tener varios atributos. Los datos de gran calidad son:

Oportunos: se crean, mantienen y están disponibles inmediatamente y según sea necesario.
Concisos: no contienen información superflua.
Coherentes: no hay conflictos de información dentro de un sistema o entre sistemas.
Precisos: son correctos y exactos y están actualizados.
Completos: todos los datos posibles necesarios están presentes.
Conformes: se almacenan en un formato apropiado y estandarizado.
Válidos: son auténticos y proceden de fuentes fidedignas.

Si sus datos cumplen todos estos requisitos, usted, sus sistemas y sus aplicaciones funcionarán con la mejor información posible para mejorar el servicio al cliente, la experiencia del cliente y los resultados de la empresa.

Consiga la mejor reducción y desduplicación de datos con Pure Storage®

La desduplicación o deduplicación de datos es el proceso de eliminar copias duplicadas de los datos de dentro de un volumen de almacenamiento o en sistemas completos de almacenamiento (desduplicación multivolumen). Utiliza el reconocimiento de patrones para identificar los datos redundantes y sustituirlos por referencias a una copia única guardada. Con Purity Reduce, Pure Storage utiliza cinco tecnologías distintas de reducción de datos para ahorrar espacio en las cabinas totalmente flash. Obtenga más información aquí.