Construyendo Confiabilidad y Durabilidad en Datto

  • home Construyendo Confiabilidad y Durabilidad en Datto
Administrador Abril 27, 2022

Cuando vendí mi segunda startup (una empresa de software de almacenamiento centrada en ZFS) a Oracle en 2014, me senté a tomar un café con el vicepresidente ejecutivo de Oracle que dirigía la división de sistemas (la antigua Sun Microsystems). Compartió la siguiente opinión: “Hay dos tecnologías que son imposibles de corregir perfectamente: las CPU y el almacenamiento”. Creo que desde cierta perspectiva, tenía razón. ¿Por qué? En pocas palabras, a medida que reduce el tamaño del proceso de la CPU o aumenta los dispositivos de almacenamiento, las leyes de la física cuántica, que rigen el funcionamiento del hardware, comienzan a introducir errores.

En las CPU, puede obtener efectos de tunelización cuántica que hacen que las puertas lógicas fallen y, en el almacenamiento, obtiene UBER (tasas de error de bits no corregibles). En el caso de los propios dispositivos de almacenamiento, el UBER (alrededor de 1x10-15) se ha mantenido constante incluso cuando las capacidades han aumentado en órdenes de magnitud. En resumen, la pérdida de datos es una certeza dado el tiempo suficiente; la clave, por supuesto, es diseñar sistemas que administren activamente los dispositivos de almacenamiento para que el MTTDL (tiempo medio de pérdida de datos) sea mayor que la vida útil de los datos.

En Datto administramos activamente el almacenamiento para que la durabilidad de los datos (piense en esto como lo contrario de MTTDL) o la probabilidad de pérdida de datos anualmente, se mida en 9 (más 9, mejor). En Datto, buscamos lograr (dependiendo de la aplicación) entre 6 y 11 9 de durabilidad de datos en la nube y alrededor de 5 9 en el borde (la flota de dispositivos Siris). Sin profundizar demasiado en las matemáticas, esperamos que la durabilidad de los datos supere la mayoría de las políticas de retención racionales.

Podemos realizar una prueba retroactiva de esto, y no hemos tenido incidentes conocidos de pérdida de datos irrecuperables por fallas del sistema en la nube (alrededor de 1,6 EB) en los últimos 24 meses.

Pero esto es sólo la mitad de la historia. Los datos son inútiles si no puede acceder a ellos. La segunda consideración en nuestra arquitectura de nube es la disponibilidad. A veces nos referimos a esto internamente como radio de explosión. Diseñamos nuestra infraestructura crítica para que esté libre de puntos únicos de falla, pero múltiples fallas pueden ocurrir y ocurren. Cuando lo hacen, un sistema bien diseñado tendrá un modo de falla que limita la interrupción del servicio a un nivel predefinido. En el caso de BCDR, la falla total de un nodo de la nube interrumpiría el acceso a la nube de aproximadamente el 0,026 % de los agentes de BCDR. Por supuesto, esto no incluye la flota de borde que proporciona la réplica principal para las operaciones de continuidad típicas.

En Datto, tenemos un dicho: "La copia de seguridad es fácil, la restauración es difícil". Las operaciones en la nube y el almacenamiento en la nube están en nuestro ADN y, como siempre, estamos comprometidos con la mejora continua para nuestros socios y sus clientes.