Huawei afirma tener un método de entrenamiento de IA mejor que DeepSeek usando sus propios chips

Tomado de https://www.scmp.com/

Investigadores de Huawei han mejorado la técnica de Mezcla de Expertos (MoE) de DeepSeek para el entrenamiento de grandes modelos de lenguaje (LLM). Su nuevo enfoque, llamado Mezcla de Expertos Agrupados (MoGE), aborda las ineficiencias en MoE al equilibrar mejor la carga de trabajo entre los «expertos» – submodelos especializados dentro del LLM más grande. Esta eficiencia mejorada se logra agrupando expertos durante la selección, lo que lleva a un mejor rendimiento, especialmente cuando se ejecuta en múltiples dispositivos en paralelo. La investigación, publicada la semana pasada por el equipo Pangu de 78 personas de Huawei, aprovecha el hardware propietario de Huawei, un desarrollo significativo dados los sanciones de EE. UU. que restringen el acceso a chips de IA avanzados. Este avance es crucial para las empresas de IA chinas que se esfuerzan por mejorar la eficiencia del entrenamiento e inferencia de modelos a pesar de estas restricciones.

Tomado de https://www.scmp.com/