La higiene de datos es la práctica de asegurarse de que los datos estructurados o no estructurados que se encuentran en las bases de datos o los archivos compartidos están “limpios”, es decir, son precisos y están actualizados y libres de errores. La higiene de datos también se conoce como “limpieza de datos” y “calidad de los datos”.
En general, la poca calidad de los datos se debe a:
La higiene de los datos fomenta la seguridad, la productividad, el cumplimiento normativo y regulatorio y la eficiencia. Esto es así porque garantiza que las aplicaciones y los procesos de la empresa solo utilizan datos limpios, correctos y relevantes —y eso incluye la eliminación de los datos personales sensibles cuando ya no son necesarios—. Si no adopta unas buenas prácticas en materia de datos, seguirá pistas y rastros que le llevarán a callejones sin salida y a tomar malas decisiones.
Aquí tiene algunos ejemplos de los problemas que unos datos de mala calidad pueden crear en las organizaciones.
Área de Ventas y Marketing
Un estudio de DiscoverOrg ha revelado que los departamentos de ventas y marketing pierden unas 550 horas y hasta 32 000 $ por agente comercial debido al uso de datos incorrectos.
En el marketing, los datos erróneos pueden provocar un exceso de gasto. También pueden molestar o incluso espantar a los posibles clientes si estos reciben el mismo contenido más de una vez debido a la duplicación de los datos (es decir, registros duplicados con el mismo nombre escrito de manera un poco distinta dentro de la misma base de datos).
En las ventas online, una mala higiene de datos puede hacer que intente vender el producto equivocado al cliente equivocado si le faltan datos sobre sus productos y sobre el público objetivo.
Área Financiera
En el campo de la información financiera, unos datos incorrectos pueden dar respuestas distintas a la misma pregunta, debido a la incoherencia de los datos, lo que se traduce en unos informes financieros inexactos y erróneos. Estos informes pueden proporcionarle o un falso sentimiento de seguridad financiera o una sensación alarmante de inseguridad financiera.
Cadena de Suministro
Los datos incorrectos también pueden causar estragos en las cadenas de suministro, porque es muy difícil automatizar los procesos si las decisiones referidas a dichos procesos se basan en una información de ubicación poco fiable.
Objetivos generales de la empresa
A nivel corporativo, los problemas con la calidad de los datos pueden afectar considerablemente a la capacidad para cumplir los objetivos a largo plazo. Unos datos incorrectos pueden causar:
A pesar de la importancia de la higiene de los datos, muchas empresas tienen dificultades para mantener la calidad de sus datos. Según un estudio publicado por la Harvard Business Review, de media, el 47% de los registros de datos que se crean tienen al menos un error crítico (que, por ejemplo, afecta al trabajo) y solo el 3% de los resultados sobre la calidad de los datos son “aceptables” usando los estándares más laxos posibles.
Son varios los factores que pueden dificultar la optimización de la higiene de los datos. Estos son algunos de ellos:
Los estándares de calidad de los datos aún están en fase de desarrollo, pero existen ciertas prácticas recomendadas para la higiene de los datos que se pueden adoptar para garantizar que la calidad de los datos es —y se mantiene— alta.
La buenas prácticas incluyen:
La auditoría de datos es fundamental para mantener una buena higiene de los datos y suele ser la primera fase de cualquier proceso de limpieza de los datos. Antes de adoptar cualquier medida, hay que evaluar la calidad de los datos y establecer un punto de partida realista sobre la calidad de los datos de la empresa. Una auditoría de datos típica incluye un estudio detenido de la infraestructura y los procesos de TI para ver dónde están los datos, cómo se usan y con qué frecuencia se actualizan.
Es fundamental definir unas directivas que regulen qué datos se recogen y por qué, sobre todo si los datos proceden de los consumidores. Esto debe incluir la consolidación de unas políticas de conservación y supresión de los datos. Los planes de conservación establecen durante cuánto tiempo se almacenan los datos en un sistema hasta que se eliminan. La higiene consiste en saber qué datos se almacenan, por qué y dónde y cuándo hay que eliminarlos. Obtenga más información sobre las buenas prácticas para el cumplimiento normativo de los datos.
La gobernanza de los datos es el conjunto de procesos, funciones, políticas, estándares e indicadores que garantizan un uso efectivo y eficiente de la información para que la organización logre sus objetivos. La gobernanza de los datos define quién puede tomar medidas, con qué datos, en qué situaciones y usando qué métodos. Una buena gobernanza de datos es esencial para garantizar que en toda la organización hay unos datos de gran calidad.
Por último, una buena higiene de datos se consigue con la automatización de los procesos relacionados con la calidad de los datos. Esto significa ante todo que hay que actualizar automáticamente los datos con la mayor frecuencia posible, para garantizar que estos estén siempre actualizados y sean correctos. Los sistemas de limpieza de los datos pueden cribar grandes cantidades de datos y usar algoritmos para detectar anomalías e identificar los valores atípicos resultantes de errores humanos. También pueden limpiar las bases de datos de registros duplicados.
Unos datos de calidad deben tener varios atributos. Los datos de gran calidad son:
Si sus datos cumplen todos estos requisitos, usted, sus sistemas y sus aplicaciones funcionarán con la mejor información posible para mejorar el servicio al cliente, la experiencia del cliente y los resultados de la empresa.
La desduplicación o deduplicación de datos es el proceso de eliminar copias duplicadas de los datos de dentro de un volumen de almacenamiento o en sistemas completos de almacenamiento (desduplicación multivolumen). Utiliza el reconocimiento de patrones para identificar los datos redundantes y sustituirlos por referencias a una copia única guardada. Con Purity Reduce, Pure Storage utiliza cinco tecnologías distintas de reducción de datos para ahorrar espacio en las cabinas totalmente flash. Obtenga más información aquí.