Perusahaan model besar bersaing untuk menerobos kemampuan teks panjang, 400.000 token hanyalah permulaan
Model besar terus memperpanjang kemampuannya dalam memproses teks dengan kecepatan yang menakjubkan. Dari awal 4000 token hingga sekarang 400.000 token, kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi produsen model besar untuk menunjukkan kekuatan mereka.
Saat ini, baik di dalam maupun luar negeri, telah ada banyak perusahaan teknologi model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon yang mengutamakan perpanjangan panjang konteks sebagai arah peningkatan utama. Semua perusahaan ini tanpa terkecuali adalah favorit di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic dapat mencapai 30 miliar dolar, dan Dark Side of the Moon telah menyelesaikan beberapa putaran pendanaan hanya dalam enam bulan setelah didirikan.
Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Secara sekilas, ini berarti model dapat memproses teks masukan yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. Dari 2000 kata pada GPT-3.5 hingga 200.000 kata pada Kimi Chat, jumlah bacaan model telah berkembang dari sebuah artikel pendek menjadi sebuah novel panjang.
Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian ilmiah. Bidang-bidang ini memerlukan ringkasan, pemahaman, dan tanya jawab terhadap dokumen panjang, yang merupakan skenario yang sangat membutuhkan peningkatan kecerdasan.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang dan peningkatan kinerja tidak selalu sejalan. Kuncinya terletak pada bagaimana model dapat memanfaatkan konten konteks dengan efektif. Saat ini, eksplorasi teknologi teks panjang masih jauh dari batasnya, 400.000 token mungkin hanya merupakan awal.
Terobosan teknologi teks panjang membantu mengatasi beberapa masalah yang ada pada model besar di awal, seperti karakter virtual yang melupakan informasi penting, analisis bidang khusus yang kurang, dan sebagainya. Ini juga merupakan salah satu teknologi kunci untuk mendorong penerapan industri, menandai bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Dengan teknologi teks panjang, chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman. Ini mungkin menjadi penggerak penting untuk penerapan industri dan peluncuran aplikasi super. Namun, saat ini masih ada banyak ruang untuk mengoptimalkan skenario percakapan teks panjang, seperti pembaruan data, kontrol percakapan, dan akurasi yang perlu ditingkatkan lebih lanjut.
Dalam mengejar kemampuan teks panjang, produsen model besar menghadapi dilema "segitiga tak mungkin" dari panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; perhatian memiliki batas, sedangkan teks pendek sulit untuk menginterpretasikan informasi kompleks secara lengkap; memproses teks panjang memerlukan daya komputasi yang besar, yang meningkatkan biaya.
Akar dari masalah ini terletak pada sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan beban komputasi meningkat secara kuadratik seiring dengan panjang konteks. Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model.
Meskipun "segitiga ketidakmungkinan" untuk teks panjang sementara ini tidak memiliki solusi, hal ini juga dengan jelas menunjukkan arah eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik di antara panjang teks, perhatian, dan daya komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan perhitungan perhatian dan batasan biaya daya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
3
Bagikan
Komentar
0/400
ResearchChadButBroke
· 07-19 04:16
Berapa banyak gwei yang bisa ditukar dengan 40token?
Lihat AsliBalas0
FomoAnxiety
· 07-19 04:14
Sekali pun ada banyak token, itu tidak ada artinya dibandingkan dengan usahaku.
Lihat AsliBalas0
FalseProfitProphet
· 07-19 03:54
Ini adalah lagi sebuah drama pembakaran uang modal.
Perusahaan model besar bersaing dalam teknologi teks panjang, 400.000 token mungkin menjadi titik awal baru
Perusahaan model besar bersaing untuk menerobos kemampuan teks panjang, 400.000 token hanyalah permulaan
Model besar terus memperpanjang kemampuannya dalam memproses teks dengan kecepatan yang menakjubkan. Dari awal 4000 token hingga sekarang 400.000 token, kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi produsen model besar untuk menunjukkan kekuatan mereka.
Saat ini, baik di dalam maupun luar negeri, telah ada banyak perusahaan teknologi model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon yang mengutamakan perpanjangan panjang konteks sebagai arah peningkatan utama. Semua perusahaan ini tanpa terkecuali adalah favorit di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic dapat mencapai 30 miliar dolar, dan Dark Side of the Moon telah menyelesaikan beberapa putaran pendanaan hanya dalam enam bulan setelah didirikan.
Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Secara sekilas, ini berarti model dapat memproses teks masukan yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. Dari 2000 kata pada GPT-3.5 hingga 200.000 kata pada Kimi Chat, jumlah bacaan model telah berkembang dari sebuah artikel pendek menjadi sebuah novel panjang.
Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian ilmiah. Bidang-bidang ini memerlukan ringkasan, pemahaman, dan tanya jawab terhadap dokumen panjang, yang merupakan skenario yang sangat membutuhkan peningkatan kecerdasan.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang dan peningkatan kinerja tidak selalu sejalan. Kuncinya terletak pada bagaimana model dapat memanfaatkan konten konteks dengan efektif. Saat ini, eksplorasi teknologi teks panjang masih jauh dari batasnya, 400.000 token mungkin hanya merupakan awal.
Terobosan teknologi teks panjang membantu mengatasi beberapa masalah yang ada pada model besar di awal, seperti karakter virtual yang melupakan informasi penting, analisis bidang khusus yang kurang, dan sebagainya. Ini juga merupakan salah satu teknologi kunci untuk mendorong penerapan industri, menandai bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Dengan teknologi teks panjang, chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman. Ini mungkin menjadi penggerak penting untuk penerapan industri dan peluncuran aplikasi super. Namun, saat ini masih ada banyak ruang untuk mengoptimalkan skenario percakapan teks panjang, seperti pembaruan data, kontrol percakapan, dan akurasi yang perlu ditingkatkan lebih lanjut.
Dalam mengejar kemampuan teks panjang, produsen model besar menghadapi dilema "segitiga tak mungkin" dari panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; perhatian memiliki batas, sedangkan teks pendek sulit untuk menginterpretasikan informasi kompleks secara lengkap; memproses teks panjang memerlukan daya komputasi yang besar, yang meningkatkan biaya.
Akar dari masalah ini terletak pada sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan beban komputasi meningkat secara kuadratik seiring dengan panjang konteks. Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model.
Meskipun "segitiga ketidakmungkinan" untuk teks panjang sementara ini tidak memiliki solusi, hal ini juga dengan jelas menunjukkan arah eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik di antara panjang teks, perhatian, dan daya komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan perhitungan perhatian dan batasan biaya daya komputasi.