Científicos del MIT construyen un sistema capaz de generar modelos de IA para la investigación biológica | Noticias del MIT



¿Es posible construir modelos de aprendizaje automático sin experiencia en aprendizaje automático?

Jim Collins, Profesor Termeer de Ingeniería y Ciencias Médicas en el Departamento de Ingeniería Biológica del MIT y Director de la Facultad de Ciencias de la Vida en la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel), así como varios colegas han decidió abordar este problema frente a un enigma similar. Un artículo de acceso abierto sobre su solución propuesta, llamada BioAutoMATED, se publicó el 21 de junio en Sistemas celulares.

Reclutar investigadores de aprendizaje automático puede ser un proceso costoso y lento para los laboratorios de ciencia e ingeniería. Incluso con un experto en aprendizaje automático, seleccionar el modelo apropiado, formatear el conjunto de datos para el modelo y luego ajustarlo puede cambiar drásticamente el rendimiento del modelo y requerir mucho trabajo.

«En su proyecto de aprendizaje automático, ¿cuánto tiempo dedicará normalmente a preparar y transformar datos?» solicita un curso de Fundamentos del aprendizaje automático (ML) de Google 2022. Las dos opciones que se ofrecen son «Menos de la mitad del tiempo del proyecto» o «Más de la mitad del tiempo del proyecto». Si adivinas lo último, estarías en lo cierto; Google dice que se necesita más del 80 % del tiempo del proyecto para formatear los datos, y eso sin tener en cuenta el tiempo que lleva definir el problema en términos de aprendizaje automático.

«Tomaría varias semanas de esfuerzo encontrar el modelo correcto para nuestro conjunto de datos, y ese es un paso realmente prohibitivo para muchas personas que quieren usar el aprendizaje automático o la biología», dice la estudiante de doctorado de quinto grado Jacqueline Valeri. de bioingeniería en el laboratorio de Collins, quien es el primer coautor del artículo.

BioAutoMATED es un sistema de aprendizaje automático que puede seleccionar y construir un modelo apropiado para un conjunto de datos determinado e incluso hacerse cargo de la laboriosa tarea de preprocesamiento de datos, reduciendo un proceso de meses a solo horas. Los sistemas de aprendizaje automático automático (AutoML) aún se encuentran en una etapa de desarrollo relativamente incipiente, y el uso actual se centra principalmente en el reconocimiento de imágenes y texto, pero en gran parte no se utiliza en los subcampos de la biología, señala el primer coautor y posdoctorado de Jameel Clinic, Luis Soenksen PhD. ’20.

«El lenguaje fundamental de la biología se basa en secuencias», dice Soenksen, quien obtuvo su doctorado en el Departamento de Ingeniería Mecánica del MIT. “Las secuencias biológicas como el ADN, el ARN, las proteínas y los glicanos tienen la sorprendente propiedad informativa de estar intrínsecamente estandarizados, como un alfabeto. Muchas herramientas de AutoML están desarrolladas para texto, por lo que tenía sentido extenderlas a [biological] secuencias.

Además, la mayoría de las herramientas de AutoML solo pueden explorar y crear pequeños tipos de modelos. «Pero realmente no se puede saber al principio de un proyecto qué modelo será el mejor para su conjunto de datos», dice Valeri. «Al incorporar múltiples herramientas bajo una herramienta general, realmente habilitamos un espacio de búsqueda mucho más grande que el que cualquier herramienta AutoML individual podría lograr por sí sola».

El repertorio de modelos de aprendizaje automático supervisado de BioAutoMATED incluye tres tipos: modelos de clasificación binaria (dividir datos en dos clases), modelos de clasificación multiclase (dividir datos en varias clases) y modelos de regresión (ajustar valores a números continuos o medir la fuerza de las relaciones clave entre variable). BioAutoMATED incluso puede ayudar a determinar la cantidad de datos necesarios para entrenar adecuadamente el modelo elegido.

«Nuestra herramienta explora modelos que se adaptan mejor a conjuntos de datos biológicos más pequeños y dispersos, así como a redes neuronales más complejas», dice Valeri. Esta es una ventaja para los grupos de investigación con nuevos datos que pueden o no ser adecuados para un problema de aprendizaje automático. .

“Realizar experimentos innovadores y exitosos en la intersección de la biología y el aprendizaje automático puede ser muy costoso”, dice Soenksen. “Actualmente, los laboratorios enfocados en biología necesitan invertir en una infraestructura digital significativa y recursos humanos capacitados en AI-ML antes de que puedan ver si sus ideas están listas para realizarse. Queremos reducir estas barreras para los expertos en biología. Con BioAutoMATED, los investigadores tienen la libertad de realizar experimentos iniciales para evaluar si vale la pena contratar a un experto en aprendizaje automático para construir un modelo diferente para una mayor experimentación.

El código fuente abierto está disponible públicamente y, según señalan los investigadores, es fácil de ejecutar. «Lo que nos gustaría ver es que la gente tome nuestro código, lo mejore y colabore con comunidades más grandes para convertirlo en una herramienta para todos», dice Soenksen. «Queremos preparar a la comunidad de investigación biológica y generar conciencia relacionada con las técnicas de AutoML, como una vía muy útil que podría fusionar la práctica biológica rigurosa con la práctica rápida de AI-ML mejor de lo que es actualmente».

Collins, el autor principal del artículo, también está afiliado al Instituto MIT de Ingeniería y Ciencias Médicas, el Programa Harvard-MIT en Ciencias y Tecnología de la Salud, el Instituto Broad del MIT y Harvard, y el Instituto Wyss. Otros contribuyentes del MIT al artículo incluyen a Katherine M. Collins ’21; Nicolaas M. Angenent-Mari PhD ’21; Felix Wong, ex becario postdoctoral en el Departamento de Ingeniería Biológica, IMES y el Instituto Broad; y Timothy K. Lu, Profesor de Ingeniería Biológica e Ingeniería Eléctrica e Informática.

Este trabajo fue apoyado, en parte, por una subvención de la Agencia de Reducción de Amenazas de Defensa, el programa SD2 de la Agencia de Proyectos de Investigación Avanzada de Defensa, el Grupo de Fronteras Paul G. Allen, el Instituto Wyss de Ingeniería Biológicamente Inspirada en la Universidad de Harvard; una beca MIT-Takeda, una beca de la Fundación Siebel, una beca CONACyT, una beca del Centro MIT-TATA, una beca de investigación de pregrado Johnson & Johnson, una beca Barry Goldwater, una beca Marshall, Cambridge Trust y el Instituto Nacional de Alergias y Enfermedades Infecciosas de los Institutos Nacionales de Salud. Este trabajo es parte del proyecto Antibióticos-IA, que cuenta con el apoyo de Audacious Project, Flu Lab, LLC, Sea Grape Foundation, Rosamund Zander y Hansjorg Wyss para Wyss Foundation, y un donante anónimo.

Deja un comentario