Llama 3 vs.GPT-4: ¿Cuál es mejor?

By DiarioTiempo

enlaces rápidos

Llama 3 y GPT-4 son dos de los modelos de lenguaje grande (LLM) más avanzados disponibles para el público. Veamos qué LLM es mejor comparando ambos modelos en términos de multimodalidad, duración del contexto, rendimiento y costo.




¿Qué es GPT-4?

GPT-4 es el último modelo de lenguaje grande (LLM) desarrollado por OpenAI. Se basa en los cimientos de los modelos GPT-3 más antiguos y utiliza diferentes técnicas de entrenamiento y optimizaciones utilizando un conjunto de datos mucho más grande. Esto aumentó significativamente el tamaño de los parámetros de GPT-4, que se rumorea que tiene un total combinado de 1,7 billones de parámetros de sus modelos expertos más pequeños. Con la nueva capacitación, optimizaciones y una mayor cantidad de parámetros, GPT-4 proporciona mejoras en el razonamiento, la resolución de problemas, la comprensión del contexto y un mejor manejo de instrucciones matizadas.

Actualmente existen tres variaciones del modelo:

  • GPT-4: Una evolución de GPT-3 con mejoras significativas en velocidad, precisión y base de conocimientos.
  • GPT-4 Turbo: Una versión optimizada de GPT-4, diseñada para ofrecer un rendimiento más rápido y al mismo tiempo reducir el costo operativo.
  • GPT-4o (omni): Amplía la capacidad de GPT-4 integrando entradas y salidas multimodales, incluidos texto, visión y audio.


Ahora puede acceder a los tres modelos GPT-4 suscribiéndose a los servicios API de OpenAI, interactuando con ChatGPT o mediante servicios como Descript, Perplexity AI y los distintos copilotos de Microsoft.

¿Qué es Llama 3?

Llama 3 es un LLM de código abierto desarrollado por Meta AI (empresa matriz de Facebook, Instagram y WhatsApp), capacitado mediante una combinación de ajuste supervisado, muestreo de rechazo y optimización de políticas con un conjunto de datos diverso que incluye millones de anotaciones humanas. ejemplos. Su capacitación se centró en indicaciones de alta calidad y clasificaciones de preferencias, con el objetivo de crear un modelo de IA versátil y capaz.


Actualmente hay dos modelos de Llama 3 a disposición del público: Llama 3 8B y Llama 3 70B. La «B» significa mil millones y señala el tamaño del parámetro del modelo. Meta también está entrenando un modelo Llama 3 400B, cuyo lanzamiento se espera para finales de 2024.

Puedes acceder a Llama 3 a través de Meta AI, su chatbot de IA generativa. Alternativamente, puede ejecutar los LLM localmente en su computadora descargando los modelos Llama 3 y cargándolos a través de Ollama, Open WebUI o LM Studio.

Multimodalidad

El lanzamiento de GPT-4o finalmente cumplió con la comercialización inicial de GPT-4 con capacidades multimodales. Ahora se puede acceder a estas funciones multimodales interactuando con ChatGPT utilizando el modelo GPT-4o. A junio de 2024, GPT-4o no tiene ninguna forma integrada de generar video y audio. Sin embargo, tiene capacidades para generar texto e imágenes basadas en entradas de video y audio.


Llama 3 también planea proporcionar un modelo multimodal para el próximo Llama 3 400B. Lo más probable es que integre tecnologías similares a CLIP (Contrast Language-Imager Pre-Training) para generar imágenes utilizando técnicas de aprendizaje de disparo cero. Pero como Llama 400B todavía está en entrenamiento, la única forma de que los modelos 8B y 70B generen imágenes es usar extensiones como LLaVa, Visual-LLaMA y LLaMA-VID. A partir de ahora, Llama 3 es puramente un modelo basado en lenguaje que puede tomar texto, imagen y audio como entradas para generar texto.

Longitud del contexto

La longitud del contexto se refiere a la cantidad de texto que un modelo puede procesar a la vez. Es un factor importante al considerar la capacidad de un LLM, ya que dicta la cantidad de contexto con el que puede trabajar el modelo al interactuar con los usuarios. En general, una mayor longitud de contexto hace que un LLM sea mejor, ya que proporciona un mayor nivel de coherencia, continuidad y puede reducir la repetición de errores durante las interacciones.

Modelo

Descripción de los datos de entrenamiento

parámetros

Longitud del contexto

GQA

Recuento de tokens

Límite de conocimiento

Llama 3

Combinación de datos en línea disponibles públicamente

8B

8k

15T+

marzo, 2023

Llama 3

Combinación de datos en línea disponibles públicamente

70B

8k

15T+

diciembre, 2023


Los modelos Llama 3 presentan una longitud de contexto de 8.000 tokens (aproximadamente 6.400 palabras). Esto significa que un modelo Llama 3 tendrá una memoria de contexto de alrededor de 6400 palabras dentro de su interacción. Cualquier palabra que supere el límite de 8000 tokens se olvidará y no proporcionará ningún contexto adicional durante la interacción.

Modelo

Descripción

Ventana de contexto

Datos de entrenamiento

GPT-4o

Modelo insignia multimodal, más económico y rápido que el GPT-4 Turbo.

128.000 tokens (API)

Hasta octubre de 2023

GPT-4-Turbo

Modelo GPT-4 Turbo optimizado con capacidades de visión.

128.000 tokens (API)

Hasta diciembre de 2023

GPT-4

Primer modelo GPT-4

8.192 fichas

Hasta septiembre de 2021

Por el contrario, GPT-4 ahora admite una longitud de contexto significativamente mayor de 32.000 tokens (alrededor de 25.600 palabras) para los usuarios de ChatGPT y 128.000 tokens (alrededor de 102.400 palabras) para aquellos que usan puntos finales API. Esto brinda a los modelos GPT-4 una ventaja en la gestión de conversaciones extensas y la capacidad de leer documentos extensos o incluso un libro completo.


Actuación

Comparemos el rendimiento mirando el informe comparativo de Llama 3 del 18 de abril de 2024 de Meta AI y el informe de GitHub GPT-4 del 14 de mayo de 2024 de OpenAI. Aquí están los resultados:

Modelo

MMLU

GPQA

MATEMÁTICAS

evaluación humana

GOTA

GPT-4o

88,7

53,6

76,6

90.2

83,4

GPT-4 Turbo

86,5

49.1

72.2

87,6

85,4

Llama3 8B

68,4

34.2

30.0

62.2

58,4

Llama3 70B

82.0

39,5

50,4

81,7

79,7

Llama3 400B

86.1

48.0

57,8

84.1

83,5

Esto es lo que evalúa cada criterio:

  • MMLU (Comprensión masiva del lenguaje multitarea): Evalúa la capacidad del modelo para comprender y responder preguntas en una variedad de temas académicos.
  • GPTQA (Respuesta a preguntas de propósito general): Evalúa la habilidad del modelo para responder preguntas fácticas de dominio abierto.
  • MATEMÁTICAS: Pruebe la capacidad del modelo para resolver problemas matemáticos.
  • Evaluación Humana: Mide la capacidad del modelo para generar código correcto basándose en indicaciones de programación dadas por humanos.
  • DROP (razonamiento discreto sobre párrafos): Evalúa la capacidad del modelo para realizar razonamientos discretos y responder preguntas basadas en pasajes de texto.


Las pruebas comparativas recientes resaltan la diferencia de rendimiento entre los modelos GPT-4 y Llama 3. Aunque el modelo Llama 3 8B parece estar muy por detrás, los modelos 70B y 400B proporcionan resultados inferiores pero similares a los modelos GPT-4o y GPT-4 Turbo en términos de conocimiento académico y general, lectura y comprensión, razonamiento y lógica, y codificación. Sin embargo, ningún modelo de Llama 3 se acerca todavía al rendimiento del GPT-4 en términos de matemáticas puras.

Costo

El costo es un factor crítico para muchos usuarios. El modelo GPT-4o de OpenAI está disponible para todos los usuarios de ChatGPT de forma gratuita con un límite de 16 mensajes cada 3 horas. Si necesita más, tendrá que suscribirse a ChatGPT Plus, que cuesta $20 USD por mes para ampliar el límite de mensajes de GPT-4o a 80 y al mismo tiempo tener acceso a los otros modelos GPT-4.


Por otro lado, tanto el modelo Llama 3 8B como el 70B son gratuitos y de código abierto, lo que puede ser una ventaja significativa para los desarrolladores e investigadores que buscan una solución rentable sin comprometer el rendimiento.

Accesibilidad

Los modelos GPT-4 son ampliamente accesibles a través del chatbot de IA generativa ChatGPT de OpenAI y a través de su API. También puedes usar GPT-4 en Microsoft Copilot, que es una forma de usar GPT-4 de forma gratuita. Esta disponibilidad generalizada garantiza que los usuarios puedan aprovechar fácilmente sus capacidades en diferentes casos de uso. Por el contrario, Llama 3 es un proyecto de código abierto que proporciona flexibilidad de modelo y fomenta una experimentación y colaboración más amplias dentro de la comunidad de IA. Este enfoque de acceso abierto puede democratizar la tecnología de IA, poniéndola a disposición de un público mucho más amplio.

Aunque ambos modelos están disponibles, GPT-4 es mucho más fácil de usar porque está integrado en herramientas y servicios de productividad populares. Por otro lado, Llama 3 está integrado principalmente en plataformas de investigación y negocios como Amazon Bedrock, Ollama y DataBricks (excepto la asistencia de chat Meta AI), lo que no atrae al mercado más amplio de usuarios no técnicos.


GPT-4 vs Llama 3: ¿Cuál es mejor?

Entonces, ¿qué LLM es mejor? Debo decir que GPT-4 es el mejor LLM. GPT-4 sobresale en multimodalidad con capacidades avanzadas en el manejo de entradas de texto, imágenes y audio, mientras que características similares de Llama 3 aún están en desarrollo. GPT-4 también ofrece una longitud de contexto mucho mayor y mejor rendimiento y es ampliamente accesible a través de herramientas y servicios populares, lo que lo hace más fácil de usar.

Sin embargo, es importante resaltar que los modelos Llama 3 han funcionado excepcionalmente bien para un proyecto gratuito y de código abierto. Como resultado, Llama 3 sigue siendo un LLM destacado, favorecido por investigadores y empresas por su naturaleza gratuita y de código abierto, al tiempo que proporciona un rendimiento impresionante, flexibilidad y características de privacidad confiables. Si bien es posible que los consumidores en general no encuentren un uso inmediato para Llama 3, sigue siendo la opción más viable para muchos investigadores y empresas.


En conclusión, aunque GPT-4 se destaca por sus capacidades multimodales avanzadas, mayor longitud de contexto y perfecta integración con herramientas ampliamente utilizadas, Llama 3 ofrece una alternativa valiosa con su naturaleza de código abierto, lo que permite una mayor personalización y ahorro de costos. Entonces, en términos de aplicación, GPT-4 es ideal para quienes buscan facilidad de uso y funciones integrales en un modelo, mientras que Llama 3 es ideal para desarrolladores e investigadores que buscan flexibilidad y adaptabilidad.

Anterior

Siguiente