Investigadores de Huawei han mejorado la técnica de Mezcla de Expertos (MoE) de DeepSeek para el entrenamiento de grandes modelos de lenguaje (LLM). Su nuevo enfoque, llamado Mezcla de Expertos Agrupados (MoGE), aborda las ineficiencias en MoE al equilibrar mejor la carga de trabajo entre los «expertos» – submodelos especializados dentro del LLM más grande. Esta eficiencia mejorada se logra agrupando expertos durante la selección, lo que lleva a un mejor rendimiento, especialmente cuando se ejecuta en múltiples dispositivos en paralelo. La investigación, publicada la semana pasada por el equipo Pangu de 78 personas de Huawei, aprovecha el hardware propietario de Huawei, un desarrollo significativo dados los sanciones de EE. UU. que restringen el acceso a chips de IA avanzados. Este avance es crucial para las empresas de IA chinas que se esfuerzan por mejorar la eficiencia del entrenamiento e inferencia de modelos a pesar de estas restricciones.
Tomado de https://www.scmp.com/



Más historias
La navegación de Google Maps con Gemini ya está disponible para peatones y ciclistas
Las empresas ya están utilizando inteligencia artificial agéntica para tomar decisiones pero la gobernanza va rezagada
Inteligencia Personal en Modo IA en el Buscador: ayuda que es solo tuya