DeepSeek, un laboratorio de investigación de inteligencia artificial (IA) chino, ha publicado un artículo de investigación que detalla su enfoque rentable para construir sistemas de IA de alto rendimiento y código abierto. El artículo, «Perspectivas sobre DeepSeek-V3: Desafíos de escalabilidad y reflexiones sobre el hardware para arquitecturas de IA», coescrito por el fundador de DeepSeek, Liang Wenfeng, revela cómo una estrategia de diseño conjunto de hardware y software permitió importantes ahorros de costos.
DeepSeek-V3, entrenado utilizando 2.048 GPU Nvidia H800, muestra la efectividad de este enfoque. Estas GPU, originalmente diseñadas para el mercado chino pero luego prohibidas para su exportación a China en 2023, fueron acumuladas por DeepSeek y su propietario de fondo de cobertura, High-Flyer. La investigación destaca los costos exorbitantes del entrenamiento de grandes modelos de lenguaje (LLM) como los que impulsan ChatGPT, y enfatiza la importancia de abordar las limitaciones de hardware.
El artículo describe varias optimizaciones técnicas implementadas por DeepSeek para reducir costos y mejorar el rendimiento. Estas incluyen el aumento de la eficiencia de la memoria, la optimización de la comunicación entre chips y la mejora del rendimiento general de la infraestructura de IA. Los investigadores afirman que estos avances proporcionan un plan práctico para el desarrollo futuro de sistemas de IA.
DeepSeek también enfatiza su uso de una arquitectura de modelo de mezcla de expertos (MoE). Este enfoque divide el modelo de IA en subredes especializadas, mejorando la eficiencia al enfocar cada subred en un subconjunto específico de los datos de entrada. La naturaleza colaborativa de estas subredes permite el procesamiento efectivo de información compleja mientras se mantiene la rentabilidad. El artículo concluye que el enfoque de DeepSeek ofrece un avance significativo en la construcción de sistemas de IA potentes a una fracción del costo tradicional.
Tomado de https://www.scmp.com/
Más historias
Del salón a la pantalla: una marca capilar argentina que conquistó el mercado digital
Nuestros momentos favoritos de los 20 años de Google Earth
Nuestros momentos favoritos de los 20 años de Google Earth