AWS anunció cinco nuevas capacidades en su portafolio de bases de datos y analítica que aceleran y simplifican para los clientes administrar y analizar datos a escala de petabytes. Estas nuevas capacidades de Amazon DocumentDB (con compatibilidad con MongoDB), Amazon OpenSearch Service y Amazon Athena facilitan a los clientes la ejecución de workloads de analítica y bases de datos de alto rendimiento a escala. Además, la compañía anunció una nueva capacidad para que AWS Glue administre automáticamente la calidad de los datos en data lakes y pipelines de datos. Por último, Amazon Redshift ahora ofrece compatibilidad con una configuración de alta disponibilidad entre varias AWS Availability Zones (AZ). Estos anuncios buscan impulsar el aprovechamiento de datos en AWS al permitirles tener acceso a las herramientas adecuadas para sus workloads de datos, operar a escala y aumentar la disponibilidad.
- Amazon DocumentDB Elastic Clusters impulsa aplicaciones a escala de petabytes con millones de escrituras por segundo: Ayuda a ejecutar sus workloads de documentos de manera rápida, escalable, altamente disponible y completamente administrado. Si bien cada nodo de Amazon DocumentDB puede escalar hasta 64 tebibytes de datos y admitir millones de solicitudes de lectura por segundo, un subconjunto de clientes con workloads extremadamente exigentes necesita la capacidad de escalar más allá de estos límites para admitir millones de escrituras por segundo y almacenar petabytes de datos. Anteriormente, estos clientes tenían que distribuir manualmente los datos y administrar la capacidad en varios nodos de Amazon DocumentDB.
- Amazon OpenSearch Serverless escala automáticamente los workloads de analítica y búsqueda: Para impulsar casos de uso como la búsqueda de sitios web y el monitoreo de aplicaciones en tiempo real, decenas de miles de clientes utilizan Amazon OpenSearch Service. Muchos de estos workloads son propensos a picos de uso repentinos e intermitentes, lo que dificulta la planificación de la capacidad. Amazon OpenSearch Serverless aprovisiona, configura y escala automáticamente la infraestructura para ofrecer una ingesta de datos rápida y respuestas a consultas en milisegundos, incluso para workloads impredecibles e intermitentes. Con este servicio, la ingesta de datos y los recursos de búsqueda se escalan de forma independiente, lo que permite que estas operaciones se ejecuten simultáneamente sin ningún impacto en el rendimiento.
- Amazon Athena para Apache Spark acelera el inicio de los analytics interactivos a menos de un segundo: Los clientes utilizan Amazon Athena, un servicio de consulta interactivo sin servidor, porque es una de las formas más fáciles y rápidas de consultar petabytes de datos en Amazon Simple Storage Service (Amazon S3) mediante una interfaz SQL estándar. Muchos clientes buscan la misma facilidad de uso cuando se trata de usar Apache Spark, un marco de procesamiento de código abierto para grandes workloads de datos que admite marcos de lenguaje populares (Java, Scala, Python y R). Si bien los desarrolladores disfrutan de la rápida velocidad de consulta y la facilidad de uso de Apache Spark, no desean invertir tiempo en configurar, administrar y escalar su propia infraestructura de Apache Spark cada vez que desean ejecutar una consulta.
- AWS Glue Data Quality monitorea y administra automáticamente la calidad, la precisión y la integridad de los datos: Cientos de miles de clientes utilizan AWS Glue para crear y administrar canales de datos modernos de forma rápida, fácil y rentable. Las organizaciones necesitan monitorear la calidad, precisión e integridad de los datos, de la información en sus data lakes y pipelines de datos para garantizar que sean de alta calidad antes de usarlos para potenciar sus aplicaciones de análisis o Machine Learning. Pero la gestión eficaz de la calidad de los datos es un proceso complejo que requiere mucho tiempo, lo que hace que los ingenieros de datos pasen días reuniendo estadísticas detalladas, identificando manualmente las reglas de calidad de los datos basadas en esas estadísticas y aplicándolas a miles de conjuntos y pipelinede datos. Una vez que se implementan estas reglas, los ingenieros de datos deben monitorear continuamente los errores o cambios en los datos para ajustar las reglas en consecuencia.
- Amazon Redshift ahora admite implementaciones multi-AZ: varios clientes de AWS procesan colectivamente exabytes de datos con Amazon Redshift todos los días. Para respaldar los workloads de misión crítica de estos clientes, este servicio ofrece capacidades que aumentan la disponibilidad y la confiabilidad, como hacer copias de seguridad automáticas o reubicar clústeres a otra AZ en minutos. En la actualidad, muchas bases de datos utilizan un modo de replicación de standby primario para admitir una alta disponibilidad en la que una sola base de datos atiende el tráfico en vivo y las copias destandby replican los datos de la versión en vivo en caso de que necesiten reemplazarla.