El marco de aprendizaje profundo de DeepAIR puede mejorar la comprensión de la inmunidad adaptativa
En un estudio reciente publicado en Avances de la cienciaLos investigadores han introducido un marco de aprendizaje profundo, llamado DeepAIR, para predecir con precisión la unión del antígeno al receptor inmunitario adaptativo (AIR) mediante la integración de características de secuencia y estructura en los AIR.
Uno de los procesos más fundamentales en la inmunidad adaptativa es el acoplamiento estructural entre los AIR, como los receptores de células T (TCR) y los receptores de células B (BCR) y sus antígenos correspondientes. Sin embargo, los métodos actuales para la predicción de la interacción AIR-antígeno se centran en gran medida en las propiedades AIR derivadas de la secuencia, dejando de lado las características estructurales críticas de la afinidad de unión.
sobre estudiar
En este estudio, los investigadores presentan un marco de aprendizaje profundo, llamado DeepAIR, para el análisis de receptores inmunitarios adaptativos de estructura mejorada.
DeepAIR es un marco de aprendizaje profundo que combina datos estructurales en 3D para la predicción de la unión al antígeno AIR y la clasificación de los repertorios inmunitarios. Se utilizaron los datos estructurales de AIR predichos por AlphaFold2, centrándose en el bucle de la región determinante de la complementariedad (CDR3) del gen AIR y la utilización, estructura y secuencia de V(D)J. Las etapas de procesamiento de datos fueron la extracción de características multicanal, la fusión de características multimedia y la predicción específica de tareas.
Un módulo de fusión con un mecanismo basado en puertas para extraer propiedades importantes de los datos codificados está integrado con un mecanismo de fusión de tensores. Para caracterizar objetivamente la contribución de los datos de estructura, se generaron dos variantes de DeepAIR, es decir, DeepAIR-stru y DeepAIR-seq. DeepAIR-stru usó solo datos estructurales, mientras que DeepAIR-seq aprendió de la secuencia y los datos de utilización del gen V (D) J. AlphaFold2 se usó para predecir la estructura de AIR sin ensamblar y construir el modelo.
Las estructuras TCR y BCR (anticuerpo) validadas experimentalmente se obtuvieron de la base de datos Protein Data Bank (PDB). La estructura de AIR se predijo utilizando las secuencias de aminoácidos de las cadenas beta y pesadas de longitud completa.
Los valores de desviación cuadrática media (RMSD) de las estructuras AIR predichas y validadas experimentalmente se utilizaron para determinar la precisión de la predicción. El equipo utilizó el número de moléculas de TCR únicas capturadas por el complejo principal de histocompatibilidad del péptido (p-MHC, antígeno) como indicador indirecto observado de la afinidad de unión del antígeno AIR.
Los datos de TCR de una sola célula capturados por pMHC se obtuvieron del sitio web de 10x Genomics y se normalizaron mediante el flujo de trabajo de normalización integrador CONtext (ICON). El rendimiento de DeepAIR se comparó con el de DeepAIR-stru, DeepAIR-seq y DeepTCR para examinar si la afinidad de unión predicha era lo suficientemente precisa como para identificar la unión específica entre TCR y pMHC.
Los investigadores también evaluaron el rendimiento de DeepAIR en la predicción de la potencia de unión de los TCR y la interacción de unión de BCR con un antígeno o epítopo específico.
La funcionalidad de DeepAIR incluía la predicción de la unión al antígeno AIR y la clasificación de los repertorios inmunitarios. Para cada pMHC, los TCR en el conjunto de datos se dividieron en conjuntos de datos de entrenamiento (70 %), validación (20 %) y prueba (10 %).
Se realizó un análisis de correlación de Pearson entre las puntuaciones de pLDDT (prueba de diferencia de distancia local prevista) de los valores RMSD y AlphaFold2, comparando las estructuras TCR CDR3 previstas con las contrapartes reales obtenidas de la base de datos de receptores de células T estructurales (STCRDab).
Se obtuvieron BCR con antígenos validados experimentalmente a partir del epítopo inmunohistoquímico Base de datos (IEDB) y anticuerpos con epítopos de unión validados experimentalmente de la base de datos de anticuerpos de coronavirus (CoV-AbDab).
resultados
DeepAIR demostró un rendimiento de predicción excepcional al predecir la afinidad de unión de los receptores de células T y la reactividad de unión entre TCR y BCR. DeepAIR logró una correlación de Pearson de 0,8 en la predicción de la afinidad de unión por los receptores de células T y un área intermedia bajo la curva característica operativa (AUC) del receptor de 0,94 y 0,90 en la predicción de la interacción de unión entre BCR y TCR, respectivamente.
Mientras tanto, utilizando el repertorio de TCR y BCR, DeepAIR identificó correctamente a todos los pacientes con cáncer de nasofaringe y enfermedad inflamatoria intestinal en los datos de prueba.
En seis conjuntos de datos que contenían TCR y BCR (anticuerpos), DeepAIR logró un rendimiento de predicción superior en términos de la curva AUC en las tres tareas del análisis de antígenos AIR en comparación con SOTA para la clasificación de repertorios inmunitarios, incluidos soNNia, DeepTCR y TCRAI.
El rendimiento del modelo mejoró significativamente al incorporar datos estructurales de la región CDR3 en el modelo DeepAIR y también se vio afectado por la similitud de secuencia entre los datos de entrenamiento y prueba.
La mediana de la precisión de la predicción de AIR CDR3 utilizando la secuencia completa fue comparable a la mediana de la precisión lograda por AlphaFold2 en la 14.ª evaluación crítica de la predicción de la estructura de proteínas (CASP14).
DeepAIR predijo con precisión las estructuras de TCR, lo que reveló que la estabilización de la estructura acoplada a α es fundamental para la afinidad de unión del antígeno TCR. DeepAIR predijo con precisión la afinidad de unión de AIR-Antígeno e identificó los residuos importantes que contribuyeron directamente a la unión de AIR a los antígenos. pLDDT refleja la precisión de predicción de la estructura TCR-CDR3.
DeepAIR es un modelo interpretable que muestra residuos importantes en las cadenas alfa y beta que son fundamentales para la unión del antígeno AIR utilizando pesos de atención. El modelo también permitió el examen de la estabilidad del complejo AIR-antígeno al resaltar residuos estructural y funcionalmente importantes en las cadenas alfa y beta.
La precisión de predicción media de las regiones AIR CDR3 usando la secuencia completa fue similar a la que se logró usando AlphaFold2 en 14y Una evaluación crítica del Pronosticador de Estructura de Proteínas (CASP14), que indica que las estructuras pronosticadas AlphaFold-2 eran fiables para su uso. Las asociaciones AIR-antígeno predichas por DeepAIR fueron las más cercanas a las observaciones experimentales.
En general, los resultados del estudio muestran que DeepAIR mejora la predicción de la inmunidad adaptativa mediante la integración de secuencias y datos estructurales para el análisis de unión de antígenos AIR. Supera a los predictores de SOTA y proporciona un modelo interpretable para identificar residuos importantes en las cadenas alfa y beta.
DeepAIR identifica residuos de contacto entre beta y antígeno, así como residuos críticos en la cadena α que estabilizan la estructura del aire. Este enfoque permite una mejor comprensión de la estabilidad del complejo AIR-Antígen y mejora el diseño de inmunoterapia personalizada.