Các nhà sản xuất mô hình lớn cạnh tranh công nghệ văn bản dài 400.000 token có thể là điểm khởi đầu mới

Các nhà sản xuất mô hình lớn cạnh tranh để vượt qua khả năng xử lý văn bản dài, 400.000 token chỉ là khởi đầu

Mô hình lớn đang mở rộng khả năng xử lý văn bản của mình với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay là 400.000 token, khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới để các nhà sản xuất mô hình lớn thể hiện sức mạnh.

Hiện tại, có nhiều công ty công nghệ mô hình lớn hàng đầu trong và ngoài nước như OpenAI, Anthropic, Meta, Mặt trăng tối đang lấy việc mở rộng độ dài ngữ cảnh làm hướng nâng cấp chính. Tất cả những công ty này đều là cưng chiều của thị trường vốn. OpenAI đã nhận được gần 12 tỷ đô la đầu tư, giá trị của Anthropic có thể đạt 30 tỷ đô la, Mặt trăng tối chỉ sau nửa năm thành lập đã hoàn thành nhiều vòng gọi vốn.

Các công ty mô hình lớn rất coi trọng công nghệ văn bản dài, điều này có ý nghĩa gì? Nhìn bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào dài hơn, khả năng đọc tốt hơn. Từ 2000 từ của GPT-3.5 đến 200.000 từ của Kimi Chat, lượng đọc của mô hình đã mở rộng từ một bài viết ngắn đến một tác phẩm dài.

Xem sâu hơn, công nghệ văn bản dài đang thúc đẩy việc áp dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp và nghiên cứu khoa học. Những lĩnh vực này cần tóm tắt, hiểu và trả lời các câu hỏi về tài liệu dài, là những tình huống cần được nâng cấp thông minh.

Tuy nhiên, độ dài văn bản không phải càng dài càng tốt. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn và việc cải thiện hiệu quả không thể đồng nghĩa với nhau. Chìa khóa nằm ở cách mà mô hình hiệu quả sử dụng nội dung ngữ cảnh. Hiện tại, việc khám phá công nghệ văn bản dài vẫn chưa đạt đến giới hạn, 400.000 token có thể chỉ là một khởi đầu.

Sự đột phá trong công nghệ văn bản dài giúp giải quyết một số vấn đề tồn tại trong các mô hình lớn giai đoạn đầu, chẳng hạn như nhân vật ảo quên thông tin quan trọng, phân tích chuyên ngành chưa đủ, v.v. Đây cũng là một trong những công nghệ then chốt thúc đẩy ứng dụng công nghiệp, đánh dấu giai đoạn mới của mô hình lớn từ LLM sang Long LLM.

Thông qua công nghệ văn bản dài, robot đối thoại đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc hóa. Điều này có thể trở thành yếu tố quan trọng để khai thác ứng dụng ngành và việc triển khai siêu APP. Tuy nhiên, hiện tại, các tình huống đối thoại với văn bản dài vẫn còn nhiều không gian tối ưu, chẳng hạn như cập nhật dữ liệu, kiểm soát đối thoại, độ chính xác và các khía cạnh khác cần được cải thiện thêm.

Trong quá trình theo đuổi khả năng xử lý văn bản dài, các nhà sản xuất mô hình lớn phải đối mặt với tình thế "tam giác không thể" về độ dài văn bản, sự chú ý và sức mạnh tính toán. Văn bản càng dài thì càng khó để tập trung vào thông tin quan trọng; sự chú ý có giới hạn, văn bản ngắn lại khó để hiểu đầy đủ thông tin phức tạp; việc xử lý văn bản dài cần một lượng lớn sức mạnh tính toán, làm tăng chi phí.

Căn nguyên của tình huống này nằm ở việc hầu hết các mô hình đều dựa trên cấu trúc Transformer. Cơ chế tự chú ý trong đó làm cho khối lượng tính toán tăng theo cấp số nhân với độ dài ngữ cảnh. Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, và sử dụng phương pháp tối ưu hóa mô hình.

Mặc dù "tam giác không thể" của văn bản dài hiện tại vẫn chưa có lời giải, nhưng điều này cũng làm rõ hướng khám phá của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, để xử lý đủ thông tin trong khi vẫn cân nhắc đến chi phí tính toán và sự chú ý.

TOKEN-3.22%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • Chia sẻ
Bình luận
0/400
ResearchChadButBrokevip
· 07-19 04:16
40token có thể đổi được bao nhiêu gwei?
Xem bản gốcTrả lời0
FomoAnxietyvip
· 07-19 04:14
Nhiều token cũng không bù đắp được cho gan của tôi.
Xem bản gốcTrả lời0
FalseProfitProphetvip
· 07-19 03:54
Lại một vở kịch đốt tiền của các nhà đầu tư.
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)