Investigadores de Huawei han mejorado la técnica de Mezcla de Expertos (MoE) de DeepSeek para el entrenamiento de IA, creando un nuevo método llamado Mezcla de Expertos Agrupados (MoGE). Este avance, detallado en un artículo del equipo Pangu de 78 personas de Huawei, aborda las ineficiencias en MoE causadas por la activación desigual de expertos en múltiples dispositivos. MoGE mejora el rendimiento agrupando expertos durante la selección, lo que lleva a una carga de trabajo más equilibrada. «Expertos», en este contexto, son submodelos especializados dentro de un modelo de IA más grande, cada uno manejando tareas específicas.
La mejora aprovecha el hardware propietario de Huawei, ofreciendo una ventaja significativa dadas las sanciones de EE. UU. que restringen el acceso a chips de IA avanzados de empresas como Nvidia. Este desarrollo es crucial para las empresas de IA chinas que se esfuerzan por mejorar la eficiencia del entrenamiento e inferencia de modelos a través de sinergias algorítmicas y de hardware-software a pesar de estas restricciones.
Tomado de https://www.scmp.com/
Más historias
Alibaba presenta nuevos modelos de incrustación de IA, un campo que lidera a nivel mundial
Alibaba presenta nuevos modelos de incrustación de IA, un campo que lidera a nivel mundial
El fundador de Xiaomi permanece como presidente honorario en una empresa de software china