Investigadores de UC Berkeley, MIT e Instituto de Estudios Avanzados advierten sobre la posibilidad de plantar puertas traseras indetectables en modelos de aprendizaje automático, lo que representa un desafío en la seguridad de estas tecnologías.
¿Cuál es la probabilidad de que puedas descubrir una puerta trasera maliciosa plantada en un modelo de aprendizaje automático entregado por un adversario? Un artículo reciente de investigadores de UC Berkeley, MIT y el Instituto de Estudios Avanzados indica que las posibilidades son muy escasas. La seguridad en el aprendizaje automático se vuelve cada vez más crítica a medida que estos modelos se integran en un número creciente de aplicaciones. El estudio se centra en las amenazas de seguridad al delegar la capacitación y el desarrollo de modelos de aprendizaje automático a terceros y proveedores de servicios.
Debido a la escasez de talento y recursos en inteligencia artificial, muchas organizaciones subcontratan su trabajo en aprendizaje automático, utilizando modelos previamente entrenados o servicios en línea. Estos modelos y servicios pueden convertirse en fuentes de ataques contra las aplicaciones que los utilizan. El artículo presenta dos técnicas para plantar puertas traseras indetectables en modelos de aprendizaje automático que pueden usarse para desencadenar comportamientos maliciosos.
Los modelos de aprendizaje automático están diseñados para realizar tareas específicas, como reconocer rostros, clasificar imágenes, detectar spam o determinar la opinión de una reseña de productos o publicaciones en redes sociales. Las puertas traseras en aprendizaje automático son técnicas que implantan comportamientos secretos en modelos entrenados. El modelo funciona como de costumbre hasta que la puerta trasera se activa mediante una entrada especialmente diseñada por el adversario.
Un método conocido de puertas traseras en aprendizaje automático es el envenenamiento de datos. En este método, el adversario modifica los datos de entrenamiento del modelo objetivo para incluir artefactos desencadenantes en una o más clases de salida. El modelo se vuelve sensible al patrón de la puerta trasera y desencadena el comportamiento previsto cuando lo detecta.
Existen otras técnicas más avanzadas, como las puertas traseras sin desencadenantes y PACD. Las puertas traseras en aprendizaje automático están relacionadas con los ataques adversarios, datos de entrada que se alteran para que el modelo los clasifique incorrectamente. Mientras que en los ataques adversarios, el atacante busca encontrar vulnerabilidades en un modelo entrenado, en el envenenamiento de datos, el adversario influye en el proceso de entrenamiento e implanta intencionalmente vulnerabilidades adversarias en el modelo.
Las puertas traseras indetectables en aprendizaje automático suelen tener un compromiso en el rendimiento de la tarea principal del modelo. Si el rendimiento del modelo en la tarea principal se degrada demasiado, la víctima se volverá sospechosa o dejará de usarlo porque no cumple con el rendimiento requerido. En su artículo, los investigadores definen puertas traseras indetectables como 'computacionalmente indistinguibles' de un modelo entrenado normalmente. Esto significa que, en cualquier entrada aleatoria, los modelos malignos y benignos deben tener un rendimiento igual. Por un lado, la puerta trasera no debe activarse accidentalmente y solo un actor malicioso que tenga conocimiento del secreto de la puerta trasera debe poder activarlo. Por otro lado, con el secreto de la puerta trasera, el actor malicioso puede convertir cualquier entrada en maliciosa realizando cambios mínimos.