Les fabricants de grands modèles se disputent la technologie des longs textes, 400 000 tokens pourraient être un nouveau point de départ.

Les fabricants de grands modèles rivalisent pour surmonter la capacité des longs textes, 400 000 tokens n'est que le début.

Les grands modèles étendent leur capacité à traiter du texte à une vitesse incroyable. Passant des 4000 tokens initiaux à aujourd'hui 400 000 tokens, la capacité de traitement de longs textes semble être devenue un nouveau standard pour les fournisseurs de grands modèles afin de démontrer leur puissance.

Actuellement, plusieurs grandes entreprises de technologie de modèles de langage telles qu'OpenAI, Anthropic, Meta et Moon's Dark Side se concentrent sur l'extension de la longueur de contexte comme direction de mise à niveau. Ces entreprises sont toutes des chouchous du marché des capitaux. OpenAI a reçu près de 12 milliards de dollars d'investissement, la valorisation d'Anthropic pourrait atteindre 30 milliards de dollars, et Moon's Dark Side a réussi à boucler plusieurs tours de financement en seulement six mois.

Pourquoi les entreprises de modèles de grande taille accordent-elles une si grande importance à la technologie des longs textes ? En surface, cela signifie que le modèle peut traiter des textes d'entrée plus longs, ayant une capacité de lecture plus forte. De 2000 mots de GPT-3.5 à 200 000 mots de Kimi Chat, la quantité de lecture du modèle s'étend d'un court article à un long chef-d'œuvre.

À un niveau plus profond, la technologie des longs textes stimule l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Ces domaines nécessitent un résumé, une compréhension et des réponses aux questions sur de longs documents, ce qui représente des scénarios nécessitant une mise à niveau intelligente.

Cependant, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des recherches montrent qu'il n'est pas possible d'établir un lien direct entre le soutien des modèles à des entrées de contexte plus longues et l'amélioration des performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu du contexte. Actuellement, l'exploration des techniques de textes longs est encore loin d'atteindre ses limites, 400 000 tokens n'est peut-être qu'un début.

Les percées de la technologie des longs textes aident à résoudre certains problèmes présents dans les modèles de grande taille au début, tels que l'oubli d'informations importantes par les personnages virtuels et l'analyse insuffisante des domaines professionnels. C'est également l'une des technologies clés qui favorisent la mise en œuvre des applications industrielles, marquant l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.

Grâce à la technologie des longs textes, les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur accrues. Cela pourrait devenir un levier important pour la mise en œuvre des applications industrielles et des super APP. Cependant, les scénarios de conversation avec longs textes présentent encore un grand potentiel d'optimisation, notamment en ce qui concerne la mise à jour des données, le contrôle des dialogues et la précision, qui nécessitent encore des améliorations.

Dans la quête de la capacité de traitement de longs textes, les fabricants de grands modèles sont confrontés au dilemme du "triangle impossible" des longueurs de texte, de l'attention et de la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur les informations clés ; l'attention est limitée, et les courts textes rendent difficile la compréhension complète d'informations complexes ; le traitement de longs textes nécessite beaucoup de puissance de calcul, ce qui augmente les coûts.

La racine de ce dilemme réside dans le fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'attention auto-gérée entraîne une augmentation quadratique de la charge de calcul en fonction de la longueur du contexte. Actuellement, il existe principalement trois solutions : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention auto-gérée, et utiliser des méthodes d'optimisation de modèle.

Bien que le "triangle impossible" du long texte n'ait pas encore de solution, cela clarifie également la direction d'exploration des fabricants de grands modèles : rechercher le meilleur point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en tenant compte des limites de calcul d'attention et de puissance de calcul.

TOKEN-3.9%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • Reposter
  • Partager
Commentaire
0/400
ResearchChadButBrokevip
· 07-19 04:16
Combien de gwei peut-on obtenir pour 40token ?
Voir l'originalRépondre0
FomoAnxietyvip
· 07-19 04:14
Même avec plus de tokens, ça ne compense pas mon foie.
Voir l'originalRépondre0
FalseProfitProphetvip
· 07-19 03:54
Encore un grand spectacle de gaspillage de capitaux
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)