Archivo de posts de la categoria: ‘Encriptación’
Compresión vs Deduplicación (compress or dedupe in primary storage)
La mayoría de estudios coinciden en que cada 18 meses se duplica la cantidad de información mundial .
Aquellos que no se han parado a analizar su esquema de almacenamiento, aun piensan, erróneamente, que eso ocurre únicamente en ciertos lugares…pero no es así. Los mismos estudios indican que el 97% de las empresas tienen un crecimiento en almacenamiento no estructurado (aquel que corresponde a ficheros diversos, que no forman parte de bases de datos), mayor al 80% anual.
La solución del usuario, hace décadas que está presente. En su día optábamos por herramientas como arj, rar o lha y hoy en día continuamos con los winzip, winrar, gzip, b2zip y clones de los anteriores con nombres variopintos.
La solución al problema, por concienciados que tengamos a nuestros usuarios, no tiene una solución corporativa con la utilización de estas sencillas técnicas, dado que el usuario no puede andar comprimiendo y descomprimiendo los datos y ficheros que utiliza a diario (dado que en caso contrario invertiría una ingente cantidad de tiempo en estos procesos).
Ya hace años que existen soluciones, unas incluidas en el paquete de almacenamiento del propio fabricante de los sistemas, otros por medio de appliances, destinados específicamente a ello que permiten la optimización de los datos de la empresa. Pero también es cierto que cada vendedor nos canta la canción con la melodía que a él le hace más gracia.
Compresión inline, deduplicación, shrinking de fichero sin pérdida (no, no le llaman compresión aunque lo parezca…)
La compresión es un proceso por el cual se utiliza un algoritmo que permite disminuir el volumen total de datos, pero como bien argumentan los defensores de la deduplicación, tiene un límite por el cual no se puede comprimir más, sin pérdida de información.
Tomemos como ejemplo una película de vídeo. El formato original digital, puede ocupar varios “Gigas”, mientras que su conversión (compresión), a un formato DivX hace que dispongamos de ese film, ocupando solamente una porción de su original. Pero este sistema tan radical de compresión hace que el nuevo formato tenga una pérdida de información y la calidad de la imagen en pantalla es menor.
Hay a quien no le importa esa pérdida de datos pero si llevamos ese mismo procedimiento al sistema de nóminas de los empleados y desaparece un dígito de su sueldo (el empresario puede argumentar que “solamente “ se ha perdido un dígito de todo el documento), mientras que para el empleado, será todo un escándalo (ya decía Einstein que todo es relativo, ¿verdad?).
Este ejemplo viene a ilustrar que no siempre se puede comprimir más allá de un cierto límite.
Una solución alternativa (que se puede combinar con la compresión en la mayoría de casos), pasa por la deduplicación de los datos.
Esta tecnología ataca y realiza su trabajo a nivel de bloque en los sistemas de almacenamiento. Muy utilizado en almacenamiento secundario y cada vez mas en el primario…con ciertas restricciones.
Pongamos un escenario sencillo para entender la deduplicación.
Supongamos que disponemos de varios ficheros de Word, imágenes jpg, pdfs y otros tipos de archivos.
La compresión del formato “doc”, tiene muy buenos resultados mientras que este proceso sobre ficheros jpg y/o pdfs ofrece índices más bien discretos.
Si se observa los ficheros a nivel de bloque, comprobamos como todas las imágenes jpg, tienen una misma cabecera y por tanto bloques similares, lo mismo ocurre con los ficheros de Word, Excel, pdfs…
Si disponemos de 1000 ficheros pdf (difícilmente comprimibles con resultado satisfactorio). En vez de almacenar 1000 veces su cabecera y bloques comunes, el algoritmo de deduplicación, hace que solamente se almacene una vez (realmente por seguridad, algunas más pero lo olvidaremos para este ejemplo), y dicho bloque sea utilizado por todos los ficheros que disponen de él. Lo mismo ocurrirá con el resto de ficheros almacenados.
De ese modo reducimos el volumen del almacenamiento, sin pérdida de datos, con resultados increíbles…en muchos casos.
La deduplicación, sin embargo, ofrece algunos problemas.
Los sistemas operativos, no están preparados para que les modifiquen ciertas características y por tanto los procesos de deduplicación, en almacenamiento primario hacen que el espacio ahorrado, quede disponible como almacenamiento libre para nuevos volúmenes y no como espacio libre dentro de los volúmenes (el sistema operativo se volvería loco si le decimos que tiene un disco de 10 GB, con 15 GB de datos y 5 de espacio libre…)
La solución sigue siendo magnífica pero se debe tener en cuenta este aspecto.
Otro problema es que los fabricantes de almacenamiento realizan estos procesos de deduplicación off-line ya que requieren de mucho trabajo y no suelen disponer de potencia de cálculo y disco como para realizarlos inline.
La combinación de las dos técnicas aun ofrecen mejores frutos, en lo referente a espacio ahorrado (y por tanto energía, refrigeración, costes de mantenimiento…) pero debe de estudiarse el impacto en nuestro sistema a nivel de rendimiento, pues no todas las soluciones funcionan de igual modo. NetApp ha sido uno de los valedores de esta tecnología para entornos SAN/NAS, aunque la mayoría de fabricantes ofrecen ya este tipo de solución. Otros como 3PAR, ofrecen para el mercado mid-size (alto) y Highend, deduplicación inline, si bien el coste de su solución suele ser algo mayor que otras del mercado.
Algunas compañías, están ofertando soluciones más curiosas.
Por ejemplo Ocarina Networks, una startup Californiana, ofrece tecnología propia, por la que utilizando un appliance mas un software instalado en los servidores, abre el archivo almacenado, los descompone en segmentos (no a nivel de bloque), lo optimiza y lo reescribe. Cuando se precisa el archivo, el software lo recompone, sin pérdida de datos.

Imagen de appliance para optimización de datos de Ocarina Networks
La solución dice ofrecer mejores ratios de espacio salvado, que la deduplicación y compresión tradicionales, si bien tiene el problema de requerir parte de los ciclos de la CPU de los servidores para obtener los datos. Como casi siempre, es una solución muy válida para algunos entornos y que puede tener detractores para otros.
Cuando los datos almacenados están encriptados, la solución se torna más difícil.
La deduplicación no funciona con archivos encriptados dado que sus bloques son un galimatías y no es fácil encontrar bloques iguales. Así mismo la compresión no surte efecto tras la encriptación (si antes, pero no siempre es posible efectuar estos procesos en el orden adecuado).
En este tipo de entornos, y en caso de resultar factible, se requiere de la desencriptación de los datos, compresión y deduplicación de los datos y vuelta a encriptar a nivel de volumen, pero dado que la encriptación es una técnica realizada la mayoría de veces a nivel de aplicación, esta solución no es fácilmente aplicable.
Una solución factible y que puede otorgar flexibilidad, potencia y buenos resultados pasa por unir varias tecnologías.
IBM ofrece (sin ser el único fabricante que lo hace), discos encriptados en algunas de sus cabinas (a partir de la serie DS5000), con lo que cualquier “cosa”, que se introduzca en dicho tipo de disco lo hace de forma encriptada.
Si a esto se añade un appliance o SVC que permita realizar la dedupliación/compresión de los datos inline (normalmente un/varios appliance por necesidades de potencia de cálculo dedicado), será factible disponer de una solución que permita mantener los datos encriptados y por tanto los niveles de seguridad, ahorrando espacio.
vSolutions.es, aplica diversas tecnologías para disponer siempre de entornos avanzados y seguros. El servicio BKOL, de copias de seguridad para archivos, bases de datos y servidores de correo empresariales en caliente, descansa sobre sistemas de procesado y almacenamiento optimizados mediante diversas técnicas, entre las que figuran las indicadas en el presente artículo.
Publicado enAlmacenamiento, GreenIT Tagged: Almacenamiento, Backup Online, BKOL, Compresión, Deduplicación, Encriptación, storage, vSolutions.es
Teléfono de atención a clientes y partners: