Os fornecedores de grandes modelos competem para ultrapassar a capacidade de longos textos, 400 mil tokens são apenas o começo
Os grandes modelos estão a expandir continuamente a sua capacidade de processamento de texto a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400.000 tokens, a capacidade de processamento de longos textos parece ter-se tornado um novo padrão para os fabricantes de grandes modelos demonstrarem a sua força.
Atualmente, várias empresas de tecnologia de grandes modelos, como OpenAI, Anthropic, Meta e Moonlight, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a Anthropic pode ter uma avaliação de até 30 bilhões de dólares, e a Moonlight completou várias rodadas de financiamento apenas seis meses após sua criação.
Por que as empresas de grandes modelos valorizam tanto a tecnologia de texto longo? À primeira vista, isso significa que os modelos podem lidar com textos de entrada mais longos, com uma capacidade de leitura maior. De 2000 palavras do GPT-3.5 até 200.000 palavras do Kimi Chat, a quantidade de leitura do modelo se expandiu de um pequeno artigo para um grande romance.
Em um nível mais profundo, a tecnologia de texto longo está impulsionando a aplicação de grandes modelos em áreas especializadas como finanças, justiça e pesquisa científica. Esses campos necessitam de resumos, compreensão e perguntas e respostas de documentos longos, sendo cenários que precisam de uma atualização inteligente.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que a melhoria do desempenho do modelo com entradas de contexto mais longas não pode ser diretamente igualada. O importante é como o modelo utiliza efetivamente o conteúdo do contexto. Atualmente, a exploração de tecnologias de texto longo ainda está longe de atingir seu limite, 400 mil tokens podem ser apenas um começo.
A quebra da tecnologia de longos textos ajuda a resolver alguns problemas existentes nos grandes modelos, como o esquecimento de informações importantes por personagens virtuais e a análise insuficiente em áreas especializadas. É também uma das tecnologias-chave que impulsionam a aplicação na indústria, marcando a transição dos grandes modelos de LLM para Long LLM.
Através da tecnologia de texto longo, os robôs de conversa estão a evoluir numa direção de especialização, personalização e profundidade. Isto pode tornar-se uma alavanca importante para a aplicação industrial e a concretização de super APPs. No entanto, os cenários de conversa com texto longo ainda têm muito espaço para otimização, como atualização de dados, controle de conversa, precisão, entre outros aspectos que precisam de mais melhorias.
Na busca pela capacidade de lidar com textos longos, os fabricantes de grandes modelos enfrentam o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder de computação. Quanto mais longo o texto, mais difícil é focar nas informações-chave; a atenção tem limitações, e textos curtos são difíceis de interpretar completamente as informações complexas; lidar com textos longos requer uma grande quantidade de poder de computação, o que aumenta os custos.
A raiz deste dilema reside no fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção faz com que a carga computacional cresça de forma quadrática com o comprimento do contexto. Atualmente, existem três soluções principais: utilizar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e empregar métodos de otimização de modelos.
Embora o "triângulo impossível" de textos longos não tenha uma solução temporária, isso também clarifica a direção de exploração dos fabricantes de grandes modelos: buscar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e a capacidade computacional, a fim de processar informações suficientes enquanto se considera as limitações de custo da atenção e da capacidade computacional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
3
Compartilhar
Comentário
0/400
ResearchChadButBroke
· 07-19 04:16
Quantos gwei podem ser trocados por 40token?
Ver originalResponder0
FomoAnxiety
· 07-19 04:14
Mais tokens não conseguem substituir meu fígado.
Ver originalResponder0
FalseProfitProphet
· 07-19 03:54
Mais uma peça de teatro de queima de dinheiro do capital
Os fabricantes de grandes modelos competem pela tecnologia de longos textos, 400 mil tokens podem ser um novo ponto de partida.
Os fornecedores de grandes modelos competem para ultrapassar a capacidade de longos textos, 400 mil tokens são apenas o começo
Os grandes modelos estão a expandir continuamente a sua capacidade de processamento de texto a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400.000 tokens, a capacidade de processamento de longos textos parece ter-se tornado um novo padrão para os fabricantes de grandes modelos demonstrarem a sua força.
Atualmente, várias empresas de tecnologia de grandes modelos, como OpenAI, Anthropic, Meta e Moonlight, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a Anthropic pode ter uma avaliação de até 30 bilhões de dólares, e a Moonlight completou várias rodadas de financiamento apenas seis meses após sua criação.
Por que as empresas de grandes modelos valorizam tanto a tecnologia de texto longo? À primeira vista, isso significa que os modelos podem lidar com textos de entrada mais longos, com uma capacidade de leitura maior. De 2000 palavras do GPT-3.5 até 200.000 palavras do Kimi Chat, a quantidade de leitura do modelo se expandiu de um pequeno artigo para um grande romance.
Em um nível mais profundo, a tecnologia de texto longo está impulsionando a aplicação de grandes modelos em áreas especializadas como finanças, justiça e pesquisa científica. Esses campos necessitam de resumos, compreensão e perguntas e respostas de documentos longos, sendo cenários que precisam de uma atualização inteligente.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que a melhoria do desempenho do modelo com entradas de contexto mais longas não pode ser diretamente igualada. O importante é como o modelo utiliza efetivamente o conteúdo do contexto. Atualmente, a exploração de tecnologias de texto longo ainda está longe de atingir seu limite, 400 mil tokens podem ser apenas um começo.
A quebra da tecnologia de longos textos ajuda a resolver alguns problemas existentes nos grandes modelos, como o esquecimento de informações importantes por personagens virtuais e a análise insuficiente em áreas especializadas. É também uma das tecnologias-chave que impulsionam a aplicação na indústria, marcando a transição dos grandes modelos de LLM para Long LLM.
Através da tecnologia de texto longo, os robôs de conversa estão a evoluir numa direção de especialização, personalização e profundidade. Isto pode tornar-se uma alavanca importante para a aplicação industrial e a concretização de super APPs. No entanto, os cenários de conversa com texto longo ainda têm muito espaço para otimização, como atualização de dados, controle de conversa, precisão, entre outros aspectos que precisam de mais melhorias.
Na busca pela capacidade de lidar com textos longos, os fabricantes de grandes modelos enfrentam o dilema do "triângulo impossível" entre comprimento do texto, atenção e poder de computação. Quanto mais longo o texto, mais difícil é focar nas informações-chave; a atenção tem limitações, e textos curtos são difíceis de interpretar completamente as informações complexas; lidar com textos longos requer uma grande quantidade de poder de computação, o que aumenta os custos.
A raiz deste dilema reside no fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção faz com que a carga computacional cresça de forma quadrática com o comprimento do contexto. Atualmente, existem três soluções principais: utilizar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e empregar métodos de otimização de modelos.
Embora o "triângulo impossível" de textos longos não tenha uma solução temporária, isso também clarifica a direção de exploração dos fabricantes de grandes modelos: buscar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e a capacidade computacional, a fim de processar informações suficientes enquanto se considera as limitações de custo da atenção e da capacidade computacional.