Migración online
Clase 47 de 75 • Curso de AWS Certified Solutions Architect Associate
Migración Online: Estrategias para Transferencia de Datos a AWS
Nexiabank con más de 500 TB de archivos de video y audio necesitaba migrar su contenido a AWS sin interrumpir sus operaciones diarias. Utilizando una combinación de DataSync para la migración inicial masiva y Storage Gateway para el acceso continuo, lograron completar la migración en 45 días mientras mantenían sus flujos de trabajo de producción sin cambios. Esta es la realidad de las migraciones modernas: deben ser transparentes, eficientes y no disruptivas.
AWS DataSync: Transferencia Automatizada y Eficiente
AWS DataSync es un servicio de transferencia de datos que simplifica, automatiza y acelera el movimiento de datos entre sistemas de almacenamiento on-premises y servicios de almacenamiento de AWS. Es especialmente útil para migraciones únicas, replicación periódica y flujos de trabajo de procesamiento de datos.
Características Principales
- Transferencia acelerada: Hasta 10 veces más rápido que herramientas tradicionales como
rsync
- Verificación de integridad: Validación automática de datos transferidos
- Programación flexible: Transferencias únicas o recurrentes
- Preservación de metadatos: Mantiene permisos, timestamps y atributos
- Filtrado: Incluir o excluir archivos basados en patrones
- Compresión y cifrado: Optimización del uso de ancho de banda y seguridad
Funcionamiento
DataSync utiliza un agente que se despliega como una máquina virtual en el entorno on-premises. Este agente se comunica de forma segura con el servicio DataSync en AWS para transferir datos a los destinos configurados.
[Sistema On-Premises] <-> [Agente DataSync] <-> [Servicio DataSync] <-> [Destino AWS]
Destinos Soportados
- Amazon S3: Cualquier clase de almacenamiento, incluido S3 Glacier
- Amazon EFS: Sistemas de archivos elásticos para cargas de trabajo Linux
- Amazon FSx: FSx for Windows File Server, FSx for Lustre, FSx for OpenZFS
- Amazon CloudWatch: Monitoreo detallado del proceso de transferencia
# Ejemplo de comando AWS CLI para crear una tarea de DataSync aws datasync create-task \\ --source-location-arn "arn:aws:datasync:us-east-1:123456789012:location/loc-abcdef01234567890" \\ --destination-location-arn "arn:aws:datasync:us-east-1:123456789012:location/loc-09876543210fedcba" \\ --name "MigraciónDatosProducción" \\ --options VerifyMode=ONLY_FILES_TRANSFERRED,Atime=BEST_EFFORT,Mtime=PRESERVE,Uid=NONE,Gid=NONE,PreserveDeletedFiles=PRESERVE,PreserveDevices=NONE,PosixPermissions=PRESERVE,BytesPerSecond=1000000000 \\ --schedule IntervalValue=1,IntervalUnit=DAY
AWS Storage Gateway: Extensión Híbrida de Almacenamiento
AWS Storage Gateway es un servicio híbrido que permite extender el almacenamiento on-premises a la nube de AWS, proporcionando acceso local de baja latencia a los datos mientras se aprovechan las ventajas de la nube.
Modos de Operación
1. File Gateway
Proporciona interfaces SMB o NFS para almacenar archivos como objetos en S3, manteniendo acceso local de baja latencia a los archivos usados recientemente.
Casos de uso:
- Migración gradual de archivos a S3
- Respaldo y archivado de datos
- Almacenamiento híbrido para aplicaciones que requieren protocolos de archivos
[Aplicaciones] <-> [File Gateway (SMB/NFS)] <-> [Amazon S3]
2. Volume Gateway
Proporciona volúmenes de almacenamiento basados en bloques que se pueden montar como dispositivos iSCSI. Ofrece dos configuraciones:
Stored Volumes:
- Almacena todos los datos localmente
- Realiza respaldos asíncronos a S3 como EBS snapshots
- Ideal para acceso de baja latencia a todos los datos
Cached Volumes:
- Almacena los datos principalmente en S3
- Mantiene una caché local de los datos accedidos frecuentemente
- Reduce la huella de almacenamiento on-premises
# Stored Volumes [Aplicaciones] <-> [Volume Gateway] <-> [Almacenamiento Local] --> [Snapshots en S3] # Cached Volumes [Aplicaciones] <-> [Volume Gateway] <-> [Caché Local] <-> [Datos Primarios en S3]
3. Tape Gateway
Emula una biblioteca de cintas virtual, permitiendo a las empresas utilizar su infraestructura de respaldo existente basada en cintas mientras almacenan los datos en S3 y Glacier.
Casos de uso:
- Reemplazo de infraestructura física de cintas
- Cumplimiento de políticas de retención a largo plazo
- Integración con software de respaldo existente (Veeam, Veritas, Commvault)
[Software de Respaldo] <-> [Tape Gateway] <-> [S3/S3 Glacier]
AWS Transfer Family: Transferencia Segura Basada en Protocolos Estándar
AWS Transfer Family proporciona soporte totalmente gestionado para transferencias de archivos directamente hacia y desde Amazon S3 o Amazon EFS utilizando protocolos estándar:
- SFTP (SSH File Transfer Protocol)
- FTPS (FTP Secure)
- FTP (File Transfer Protocol)
Características Principales
- Endpoints gestionados: Sin necesidad de administrar servidores
- Autenticación flexible: Integración con sistemas de identidad existentes
- Direcciones IP elásticas: Endpoints con IPs estáticas
- Integración con Route 53: Uso de dominios personalizados
- Monitoreo detallado: Métricas e integración con CloudWatch Logs
- Escalabilidad automática: Manejo de picos de transferencia
Casos de Uso
- Migración de servidores FTP/SFTP existentes a AWS
- Intercambio de datos B2B (Business-to-Business)
- Distribución de contenido a socios y clientes
- Cumplimiento de requisitos regulatorios que exigen protocolos específicos
# Ejemplo de configuración de AWS Transfer Family en CloudFormation Resources: SFTPServer: Type: AWS::Transfer::Server Properties: EndpointType: PUBLIC IdentityProviderType: SERVICE_MANAGED LoggingRole: !GetAtt TransferLoggingRole.Arn Protocols: - SFTP Tags: - Key: Name Value: MiSFTPServer TransferUser: Type: AWS::Transfer::User Properties: ServerId: !Ref SFTPServer UserName: usuario1 HomeDirectory: /bucket-nombre/usuario1 Role: !GetAtt TransferUserRole.Arn SshPublicKeys: - "ssh-rsa AAAA..."
Comparativa de Rendimiento y Costos
Al elegir entre las diferentes soluciones de migración, es importante considerar tanto el rendimiento como los costos asociados:
DataSync vs. Transfer Family
Aspecto | DataSync | Transfer Family |
---|---|---|
Caso de uso principal | Migraciones masivas, replicación periódica | Transferencias basadas en protocolos estándar (FTP/SFTP) |
Rendimiento | Alto (hasta 10 Gbps por agente) | Medio (limitado por protocolo) |
Modelo de precios | Por GB transferido | Por hora de endpoint + GB transferido |
Complejidad de configuración | Media (requiere agente VM) | Baja (totalmente gestionado) |
Automatización | Alta (programación, filtrado) | Media (requiere scripts o integraciones) |
Verificación de datos | Integrada | Manual |
Consideraciones de Costo
- DataSync: Ideal para transferencias grandes y programadas (0,0125 USD por GB)
- Storage Gateway: Combina costos de almacenamiento S3 con costos por hora del gateway
- Transfer Family: Más costoso para volúmenes pequeños debido al costo base del endpoint
# Ejemplo de cálculo de costos para migración de 10 TB DataSync: 10.000 GB × 0,0125 USD = 125 USD Transfer Family: (730 horas × 0,30 USD) + (10.000 GB × 0,04 USD) = 619 USD
Integración con Servicios de Destino
Amazon S3
- Clases de almacenamiento: Selección automática basada en patrones de acceso
- Ciclo de vida: Transición automática entre clases
- Versionado: Protección contra eliminaciones accidentales
- Replicación: Distribución geográfica de datos
// Ejemplo de política de ciclo de vida para datos migrados { "Rules": [ { "Status": "Enabled", "Prefix": "datos-migrados/", "Transitions": [ { "Days": 30, "StorageClass": "STANDARD_IA" }, { "Days": 90, "StorageClass": "GLACIER" } ] } ] }
Amazon EFS
- Clases de almacenamiento: EFS Standard y EFS Infrequent Access
- Políticas de ciclo de vida: Transición automática a IA
- Rendimiento: Modos Bursting y Provisioned
- Escalabilidad: Crecimiento automático sin interrupciones
Amazon FSx
- FSx for Windows: Compatibilidad con SMB, Active Directory
- FSx for Lustre: Alto rendimiento para HPC
- FSx for OpenZFS: Snapshots, clones y compresión
- FSx for NetApp ONTAP: Funcionalidades avanzadas de gestión de datos
Buenas Prácticas de Seguridad
Cifrado
- En tránsito: TLS para todas las transferencias
- En reposo: Cifrado con claves gestionadas por AWS (AWS KMS)
- Validación: Verificación de integridad post-transferencia
Control de Acceso
- IAM: Roles y políticas de mínimo privilegio
- Resource-based policies: Políticas de bucket S3
- Autenticación multifactor: Para accesos críticos
Aislamiento de Red
- VPC Endpoints: Transferencia de datos sin exposición a Internet
- Security Groups: Control de tráfico a nivel de puerto/protocolo
- AWS PrivateLink: Acceso privado a servicios AWS
# Ejemplo de configuración de VPC Endpoint para DataSync Resources: DataSyncVpcEndpoint: Type: AWS::EC2::VPCEndpoint Properties: ServiceName: !Sub "com.amazonaws.${AWS::Region}.datasync" VpcEndpointType: Interface VpcId: !Ref MyVPC SubnetIds: - !Ref PrivateSubnet1 - !Ref PrivateSubnet2 SecurityGroupIds: - !Ref DataSyncSecurityGroup PrivateDnsEnabled: true
Monitoreo y Auditoría
- CloudTrail: Registro de todas las operaciones de API
- CloudWatch: Métricas y alarmas de rendimiento
- AWS Config: Evaluación de configuración de seguridad
- Notificaciones: Alertas sobre éxito/fracaso de transferencias
La migración de datos a AWS no tiene por qué ser un proceso disruptivo o complejo. Con las herramientas adecuadas como DataSync, Storage Gateway y Transfer Family, podemos diseñar estrategias de migración que se adapten a las necesidades específicas de cada organización. Lo importante es evaluar cuidadosamente los requisitos de rendimiento, costos, seguridad y compatibilidad antes de elegir la solución más adecuada. Una migración bien planificada no solo traslada datos a la nube, sino que también prepara el terreno para aprovechar todas las ventajas que AWS ofrece en términos de escalabilidad, disponibilidad y nuevas capacidades para innovar con esos datos.