¿Qué es la higiene de datos?

La higiene de datos es la práctica de garantizar que todos los datos estructurados o no estructurados dentro de bases de datos o archivos compartidos sean “limpios”, lo que significa que son precisos, están actualizados y no tienen errores. La higiene de datos también se conoce como “limpieza de datos” y “calidad de datos”.

En general, la mala calidad de datos proviene de:

Duplicación de datos (también conocida como redundancia de datos): Cuando se repiten los registros dentro de las bases de datos.
Incompleción de datos: Cuando no hay todos los datos requeridos para un registro.
Inconsistencia de datos: Cuando los mismos datos existen en diferentes formatos en varias tablas, lo que lleva a diferentes archivos que contienen información diferente sobre el mismo objeto o persona.
Inexactitud de datos: Cuando los valores de datos almacenados para un objeto determinado son incorrectos.

¿Por qué es importante la higiene de datos?

La higiene de datos impulsa la seguridad, la productividad, el cumplimiento normativo y de cumplimiento, y la eficiencia. Esto se logra al garantizar que sus aplicaciones y procesos comerciales solo utilicen datos limpios, correctos y relevantes, y eso incluye eliminar los datos personales sensibles que ya no se necesitan. Sin las buenas prácticas de datos, seguirá las pistas y las migas de pan hasta los callejones sin salida y las malas decisiones.

Estos son algunos ejemplos de problemas que los datos de mala calidad pueden crear en las organizaciones.

Ventas y marketing

Un estudio de DiscoverOrg descubrió que los departamentos de ventas y marketing pierden aproximadamente 550 horas y hasta $32 000 por representante de ventas por usar datos incorrectos.

En marketing, los datos incorrectos pueden provocar un gasto excesivo. También puede molestar o incluso alejar a los clientes potenciales si reciben el mismo contenido más de una vez debido a la duplicación de datos (es decir, registros duplicados con el mismo nombre escritos de manera un poco diferente dentro de la misma base de datos).

En las ventas en línea, una higiene de datos deficiente podría llevarle a intentar vender el producto equivocado al cliente equivocado si le faltan datos sobre sus productos y audiencias objetivo.

Finanzas

En los informes financieros, los datos incorrectos pueden darle diferentes respuestas a la misma pregunta debido a la incoherencia de los datos, lo que lleva a informes financieros inexactos y engañosos. Estos informes podrían darle una falsa sensación de seguridad financiera o una sensación alarmante de inseguridad financiera.

Cadena de suministro

Los datos incorrectos también pueden causar estragos en las cadenas de suministro porque dificultan la automatización de los procesos si esas decisiones de proceso se basan en información de ubicación poco confiable.

Objetivos corporativos generales

A nivel corporativo, los problemas de calidad de datos pueden afectar significativamente su capacidad para cumplir con sus objetivos a largo plazo. Pueden causar:

Un impacto negativo en su capacidad de cambiar y reaccionar rápidamente a las nuevas tendencias y condiciones del mercado.
Mayor dificultad para cumplir con los requisitos de cumplimiento de las principales regulaciones de privacidad y protección de datos, como GDPR, HIPAA y CCPA.
Dificultades para explotar el análisis predictivo de los datos corporativos, lo que genera decisiones de mayor riesgo para los objetivos a corto y largo plazo.

Los desafíos de mantener una buena higiene de datos

Por más importante que sea una buena higiene de datos, muchas empresas luchan por mantener la calidad de sus datos. Según un estudio publicado por Harvard Business Review , en promedio, el 47 % de los registros de datos recién creados tienen al menos un error crítico (p. ej., que afecta el trabajo) y solo el 3 % de los puntajes de calidad de datos se calificaron como “aceptables” utilizando el estándar más suelto posible.

Varios factores pueden dificultar la optimización de la higiene de datos. Entre ellas se incluyen:

Mayor variedad de fuentes de datos: Las empresas solían usar solo datos generados a partir de sus propios sistemas comerciales, como datos de ventas o inventario. Ahora, las fuentes de datos varían ampliamente y pueden incluir conjuntos de datos de Internet, dispositivos IoT, datos científicos y experimentales, y más. Cuantas más fuentes de datos tenga, más difícil será asegurarse de que los datos no se hayan alterado ni manipulado de alguna manera. Cada vez que agrega otro sistema a su motor de procesamiento de datos, agrega posibilidades de que esos datos pierdan valor al mancharse o perderse porque diferentes fuentes de datos producen diferentes tipos de datos. Los datos no estructurados, o la información que no se organiza de acuerdo con un esquema o modelo de datos preestablecidos, ahora representan un estimado del 80 % de todos los datos globales.
Aumento de volúmenes de datos: La era del big data está incuestionablemente aquí y el big data solo se ha convertido en datos más grandes. Desde 1970, la cantidad de datos se ha duplicado cada tres años. Cuantos más datos haya, más difícil será recopilar, limpiar, integrar y lograr una calidad de datos razonablemente alta dentro de un determinado período de tiempo. Si la mayoría de estos datos no están estructurados, los tiempos de procesamiento aumentarán aún más porque estos datos no estructurados deben convertirse en datos estructurados o semiestructurados, lo que deteriorará aún más la calidad del procesamiento de datos.
Mayor velocidad de datos: Los datos en “tiempo real” se han convertido en una gran palabra de moda en los últimos cinco años. Esto se debe a que cuantos más datos se generen, más rápido tendrá que procesarlos o se arriesgará a que se hagan copias de seguridad de sus sistemas. En ese sentido, los datos son como un líquido que fluye hacia una tubería: cuanto más rápido llegue, más peligro existe de que la tubería se rompa y la única forma de lidiar con el volumen creciente es hacer que la tubería sea más grande. Para los datos, hacer que la tubería sea más grande significa procesarla más rápido para cumplir con la velocidad a la que ingresa. Pero el procesamiento real en tiempo real sigue siendo un campo y una capacidad relativamente nuevos, lo que significa que todavía hay mucho “ruido” en la forma de datos no utilizados o irrelevantes que se utilizan. Como resultado, las decisiones que se tomen basadas en esos datos tenderán a ser subóptimas en el mejor de los casos y erróneas en el peor de los casos.
Falta de estándares claros de calidad de datos: Los estándares de calidad de los productos han existido desde 1987, cuando la Organización Internacional de Normalización (ISO) publicó la norma ISO 9000. Por el contrario, las normas oficiales de calidad de datos solo existen desde 2011 (de ISO 8000), lo que significa que siguen madurando y siguen siendo relativamente nuevas. Según un estudio de 2015 publicado en el Data Science Journal , “Actualmente, faltan análisis e investigación integrales de estándares de calidad y métodos de evaluación de calidad para big data”.

Mejores prácticas de higiene de datos

Aunque los estándares de calidad de datos aún están en proceso de maduración, existen ciertas mejores prácticas establecidas de higiene de datos que puede adoptar en este momento para garantizar que la calidad de sus datos sea, y permanezca, alta.

Las mejores prácticas incluyen:

Auditoría

La auditoría de datos es clave para mantener una buena higiene de datos y, por lo general, el primer paso en cualquier proceso de limpieza de datos. Antes de tomar cualquier medida, debe evaluar la calidad de sus datos y establecer una referencia realista de la higiene de datos de su empresa. Una auditoría de datos típica implica observar de cerca su infraestructura y procesos de TI para ver dónde viven sus datos, cómo se usan y con qué frecuencia se actualizan.

Cumplimiento

Es fundamental definir políticas sobre qué datos se recopilan y por qué, especialmente si los datos provienen de los consumidores. Esto incluye la consolidación de las políticas de retención y eliminación de datos. Los cronogramas de retención determinan cuánto tiempo se almacenan los datos en un sistema antes de ser purgados. Higiene significa saber qué datos está almacenando, por qué, dónde y cuándo se deben purgar. Obtenga más información sobre las mejores prácticas de cumplimiento de datos.

Gobernanza

La gobernanza de datos es la recopilación de procesos, roles, políticas, estándares y métricas que garantizan el uso eficaz y eficiente de la información para permitir que una organización logre sus objetivos. La gobernanza de datos define quién puede tomar qué acción, sobre qué datos, en qué situaciones y usando qué métodos. Una buena gobernanza de datos es esencial para garantizar una alta calidad de datos en toda una organización.

la automatización;

Por último, una buena higiene de datos proviene de la automatización de sus procesos relacionados con la calidad de los datos. Esto significa principalmente actualizar automáticamente sus datos con la mayor frecuencia posible para garantizar que siempre estén actualizados y sean correctos. Los sistemas de limpieza de datos pueden tamizar masas de datos y usar algoritmos para detectar anomalías e identificar valores atípicos resultantes de errores humanos. También pueden restregar sus bases de datos para registros duplicados.

¿Qué hace que los datos sean de alta calidad?

Hay varios atributos que comprenden la calidad de los datos. Los datos de alta calidad son:

Oportuno: Se crea, mantiene y está disponible de inmediato y según sea necesario.
Conciso: No contiene información extraña.
Consistente: No hay conflictos en la información dentro o entre los sistemas.
Preciso: Es correcto, preciso y actualizado.
Complete: Todos los datos posibles que se requieren están presentes.
conforme: Se almacena en un formato adecuado y estandarizado.
Válido : Es auténtico y proviene de fuentes conocidas y autorizadas.

Si sus datos cumplen con todos estos criterios, usted, sus sistemas y sus aplicaciones trabajarán con la mejor información posible para impulsar un mejor servicio al cliente, una mejor experiencia del cliente y mejores resultados comerciales.

Obtenga la mejor reducción y desduplicación de datos con Pure Storage ®

La desduplicación de datos, también conocida como desduplicación, es el proceso de eliminar copias duplicadas de datos dentro de un volumen de almacenamiento o en todo el sistema de almacenamiento (desduplicación de volúmenes cruzados). Utiliza el reconocimiento de patrones para identificar datos redundantes y reemplazarlos por referencias a una sola copia guardada. Con Purity Reduce ,Pure Storage utiliza cinco tecnologías de reducción de datos diferentes para ahorrar espacio en matrices basadas íntegramente en tecnología flash. Obtenga más información aquí .