En base de datos hay de todo, pero desordenado y confuso

Las empresas acumulan datos de todo tipo, pues cada sector genera y acopia los que se relacionan con sus tareas. Al intentar ensamblar tanta información, cuando varias bases de datos son combinadas, se generan registros inconsistentes, erróneos, innecesarios y/o repetidos y, como consecuencia, se hace imprescindible realizar un reordenamiento de estos.

4 noviembre, 2009

<p>Por Elisabeth Rassore</p>
<p>Para juegos de datos existentes, la soluci&oacute;n a estos problemas es la de intentar subsanar los datos de alg&uacute;n modo. El proceso de encontrar registros incompletos, incorrectos, faltantes, inexactos, irrelevantes, etc. para luego corregirlos, modificarlos o eliminarlos se conoce como limpieza de datos o<em> data cleansing.</em></p>
<p><strong>El proceso de data cleansing</strong><br />
<br />
En una primera etapa los datos deben ser auditados a fin de descubrir anomal&iacute;as y contradicciones entre ellos. Generalmente se utilizan m&eacute;todos estad&iacute;sticos# y los errores que pueden hallarse, entre otros, son:<br />
&bull; errores de sintaxis<br />
&bull; registros duplicados<br />
&bull; diferencia de formato entre registros similares<br />
&bull; omisiones<br />
&bull; informaci&oacute;n incorrecta <br />
&bull; datos innecesarios<br />
&bull; registros mal cargados<br />
Estos errores deben ser corregidos. Para lo cual es requisito considerar las causas de todas las anomal&iacute;as encontradas a fin de proceder con los cambios adecuadamente. A t&iacute;tulo de ejemplo: <br />
&bull; ante registros duplicados se procede con la deduplicaci&oacute;n de los mismos; <br />
&bull; si hay registros similares con distinto formato se realiza una normalizaci&oacute;n de los datos; como ser la separaci&oacute;n de nombre y apellido, conversi&oacute;n a may&uacute;sculas o min&uacute;sculas, eliminaci&oacute;n de caracteres extra&ntilde;os /, #, etc.<br />
&bull; en el caso de omisiones relevantes para el negocio, como ser tel&eacute;fonos de contacto, variables sociodemogr&aacute;ficas, coordenadas geogr&aacute;ficas, c&oacute;digos postales, sexo o edad. se procede con el enriquecimiento de dicha informaci&oacute;n.<br />
<br />
Finalmente, resta inspeccionar los resultados para verificar las correcciones hechas. Esta etapa es tan importante como todo el trabajo previo pues puede suceder que las modificaciones planteadas sean incorrectas o insuficientes y, consecuentemente, hay que volver a encarar este proceso.<br />
<br />
De ser posible, tanto en tiempo como en costo, validar y actualizar la informaci&oacute;n susceptible de sufrir modificaciones (direcciones postales, <em>e-mails,</em> tel&eacute;fonos, etc.). <br />
Tanto la actualizaci&oacute;n de los datos preexistentes como la captura de nuevos, puede hacerse a trav&eacute;s de campa&ntilde;as u otra t&eacute;cnica de marketing que sirva para recoger informaci&oacute;n fidedigna.</p>
<p><strong>El recelo a entregar los datos a un tercero</strong><br />
<br />
Si la entidad no cuenta con un departamento id&oacute;neo en la miner&iacute;a de sus datos necesitar&aacute; recurrir a especialistas en este tema. Sin embargo, ante el hecho de entregar a un consultor externo los datos propios de la empresa, aparece el l&oacute;gico recelo a proporcionar tanta informaci&oacute;n. Sin embargo, es cardinal proveerse de profesionales competentes, que re&uacute;nan tanto habilidades anal&iacute;ticas como el entendimiento del negocio. <br />
Es fundamental la facultad del profesional para decidir qu&eacute; herramientas de an&aacute;lisis usar y c&oacute;mo interpretar los resultados obtenidos sobre la base del negocio. Lo primero evita malgastar tiempo y dinero en estudios incongruentes. En cuanto a lo segundo, un error en la comprensi&oacute;n puede llevar a conclusiones que le hagan tomar decisiones incorrectas.</p>
<p>Opciones a tener en cuenta:<br />
<br />
&bull; Los datos cr&iacute;ticos, pueden entregarse codificados. As&iacute;, el profesional solo va a ver c&oacute;digos pero no sabr&aacute; qu&eacute; significa cada uno. La desventaja es que este proceder puede reducir las conclusiones interpretativas de quien est&eacute; haciendo el an&aacute;lisis.<br />
&bull; Existen contratos de confidencialidad que el profesional externo puede firmar. Este tipo de contrato es fundamental para salvaguardar la confidencialidad tanto de los datos como de la informaci&oacute;n de la empresa y para que no se ponga en riesgo los secretos de su &eacute;xito u operatoria en general.<br />
&bull; Asimismo, no es imperativo entregarle al profesional toda la informaci&oacute;n disponible; solo basta con darle la que quiera que analice.<br />
Una vez que se logra tener una base de datos confiable, es muy poco lo que no se pueda hacer con ella, pues se vuelve un recurso excelente tanto para realizar acciones de marketing como para descubrir patrones y tendencias ocultas en los datos.</p>

Compartir:
Notas Relacionadas

Suscripción Digital

Suscríbase a Mercado y reciba todos los meses la mas completa información sobre Economía, Negocios, Tecnología, Managment y más.

Suscribirse Archivo Ver todos los planes

Newsletter


Reciba todas las novedades de la Revista Mercado en su email.

Reciba todas las novedades