Las operaciones de aprendizaje automático no pertenecen a cloudops

Es lunes por la mañana, y después de un largo fin de semana de problemas en el sistema, el equipo de operaciones en la nube está discutiendo lo que sucedió. Parece que varios sistemas que estaban asociados con un sistema de gestión de inventario nuevo y muy avanzado habilitado con aprendizaje automático tuvieron problemas durante el fin de semana. La autopsia concluyó lo siguiente:

  • El proceso por lotes que movió datos sin procesar de la base de datos operativa a la base de datos de capacitación falló, así como el proceso de recuperación automática. Un miembro del equipo de operaciones que trabajó durante el fin de semana intentó volver a enviar pero no causó una, sino cuatro actualizaciones parciales que dejaron la base de datos de entrenamiento en un estado inestable.
  • Esto hizo que los modelos de conocimiento en los sistemas de aprendizaje automático se entrenaran con datos erróneos y requirió que se eliminara la nueva información en la base de conocimiento y se reconstruyeran los modelos.
  • Además, varias fuentes externas de datos, como los precios y los impuestos, se actualizaron al mismo tiempo en la base de datos de capacitación. Aunque estos funcionaron bien, ellos también necesitaban ser retirados de la base de datos de conocimiento considerando que los datos operativos no estaban en buen estado.
  • El sistema no estuvo disponible durante dos días y la compañía perdió $ 4 millones, considerando la pérdida de productividad, las reacciones de los clientes y los problemas de relaciones públicas.

Esto no es 2025; esto es hoy A medida que las empresas encuentran más usos para los sistemas de aprendizaje automático basados ​​en la nube "baratos y buenos", descubrimos que los sistemas que aprovechan el aprendizaje automático son complejos de operar. Los equipos de operaciones no esperan el grado de dificultad y la complejidad y están descubriendo que no tienen suficiente entrenamiento, falta de personal y falta de fondos.

La suposición es que los equipos de operaciones en la nube podrían manejar bases de datos basadas en la nube, almacenamiento basado en la nube y cómputo basado en la nube con una transición bastante fácil. En la mayor parte de los casos, teniendo en cuenta que los sistemas basados ​​en la nube son similares a los sistemas tradicionales.

Sin embargo, los sistemas basados ​​en el aprendizaje automático aún no han sido vistos en su mayor parte por los equipos de operaciones. Estos sistemas tienen propósitos especializados, así como sistemas especializados, como bases de datos y motores de conocimiento, que deben ser monitoreados y administrados de ciertas maneras. Aquí es donde los equipos de operaciones actuales están fallando.

La solución es bastante fácil de entender, pero a la mayoría de las empresas no les va a gustar, teniendo en cuenta que significa gastar más dólares para ML cloudops o abandonar ML cloudops. Los sistemas de aprendizaje automático son motosierras tecnológicas. Si se usan con cuidado, son altamente efectivos. Si se manejan mal, pueden ser peligrosos. Las fallas pueden pasar desapercibidas, y si el sistema usa automáticamente el mal conocimiento resultante, podría terminar con grandes problemas que pueden no ser descubiertos hasta que se haga mucho daño. Parece más riesgo que recompensa.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *