Крупные производители моделей соревнуются в технологии длинных текстов, 400000 токенов могут стать новой отправной точкой.

Крупные производители моделей соревнуются в преодолении возможностей работы с длинными текстами, 400000 токенов — это только начало

Большие модели постоянно увеличивают свои возможности обработки текста с удивительной скоростью. От первоначальных 4000 токенов до сегодняшних 400000 токенов, способность обрабатывать длинные тексты, похоже, стала новым стандартом, по которому производители больших моделей демонстрируют свои возможности.

На данный момент такие крупные компании, как OpenAI, Anthropic, Meta и Moonlight, уже сделали расширение длины контекста своим приоритетным направлением улучшений. Эти компании, без исключения, являются любимцами капитального рынка. OpenAI привлекло почти 12 миллиардов долларов инвестиций, стоимость Anthropic может достигать 30 миллиардов долларов, а Moonlight завершила несколько раундов финансирования всего через полгода после своего создания.

Почему компании с большими моделями так серьезно относятся к технологиям длинного текста? На поверхности это означает, что модели могут обрабатывать более длинные входные тексты и обладают лучшими навыками чтения. С 2000 слов в GPT-3.5 до 200000 слов в Kimi Chat, объем чтения модели расширился от короткой статьи до длинного романа.

С более глубокой точки зрения, технологии длинных текстов способствуют применению больших моделей в таких специализированных областях, как финансы, юстиция и научные исследования. Эти области требуют обобщения, понимания и ответов на вопросы по длинным документам, что является сценарием, нуждающимся в интеллектуальном обновлении.

Однако длина текста не всегда лучше. Исследования показывают, что увеличение длины входного контекста не всегда приводит к улучшению результатов. Ключевым моментом является то, как модель эффективно использует контекстное содержание. В настоящее время исследования по технологиям длинных текстов еще далеки от предела, 400 тысяч токенов могут быть лишь началом.

Прорыв в технологии длинного текста помогает решить некоторые проблемы, существовавшие на ранних этапах больших моделей, такие как забывание важной информации виртуальными персонажами и недостаточный анализ в специализированных областях. Это также одна из ключевых технологий, способствующих реализации промышленных приложений, что знаменует собой переход больших моделей от LLM к Long LLM.

С помощью технологий длинного текста, диалоговые роботы движутся в сторону профессионализации, персонализации и углубления. Это может стать важным инструментом для внедрения в промышленное применение и реализации супераппов. Однако в текущих сценариях диалога с длинным текстом все еще есть большие возможности для оптимизации, такие как обновление данных, управление диалогом, точность и другие аспекты, которые требуют дальнейшего совершенствования.

В процессе стремления к способности обработки длинных текстов производители больших моделей сталкиваются с "невозможным треугольником" длины текста, внимания и вычислительной мощности. Чем длиннее текст, тем труднее сосредоточиться на ключевой информации; внимание имеет ограничения, а короткие тексты сложно полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных ресурсов, что повышает затраты.

Корень этой проблемы заключается в том, что большинство моделей основаны на структуре Transformer. Механизм самовнимания в них приводит к квadratному росту вычислительной нагрузки с увеличением длины контекста. В настоящее время существует три основных решения: использование внешних инструментов для помощи в обработке, оптимизация вычислений механизма самовнимания и использование методов оптимизации модели.

Хотя "неразрешимый треугольник" для длинных текстов в настоящее время не имеет решения, это также четко определяет направление исследований для производителей крупных моделей: искать оптимальный баланс между длиной текста, вниманием и вычислительными затратами, чтобы обрабатывать достаточное количество информации, одновременно учитывая ограничения по вычислительным затратам и вниманию.

TOKEN-2.35%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • Поделиться
комментарий
0/400
ResearchChadButBrokevip
· 07-19 04:16
Сколько гвеи можно получить за 40 токенов?
Посмотреть ОригиналОтветить0
FomoAnxietyvip
· 07-19 04:14
Ни одно количество токенов не заменит мою печень.
Посмотреть ОригиналОтветить0
FalseProfitProphetvip
· 07-19 03:54
Снова спектакль, где капитал сжигает деньги.
Посмотреть ОригиналОтветить0
  • Закрепить