📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
大模型厂商角逐长文本技术 40万token或为新起点
大模型厂商竞相突破长文本能力,40万token只是开始
大模型正以惊人的速度不断延长其处理文本的能力。从最初的4000 token到如今的40万token,长文本处理能力似乎已成为大模型厂商展示实力的新标准。
目前,国内外已有OpenAI、Anthropic、Meta、月之暗面等多家顶级大模型技术公司将拓展上下文长度作为重点升级方向。这些公司无一例外都是资本市场的宠儿。OpenAI获得近120亿美元投资,Anthropic估值可能达到300亿美元,月之暗面成立半年即完成多轮融资。
大模型公司如此重视长文本技术,其意义何在?表面上看,这意味着模型可以处理更长的输入文本,阅读能力更强。从GPT-3.5的2000字到Kimi Chat的20万字,模型的阅读量从一篇短文扩展到一部长篇巨著。
更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用。这些领域需要对长文档进行摘要、理解和问答,是亟待智能化升级的场景。
然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接画等号。关键在于模型如何有效利用上下文内容。目前,长文本技术探索还远未达到极限,40万token可能只是一个开始。
长文本技术的突破有助于解决大模型早期存在的一些问题,如虚拟角色遗忘重要信息、专业领域分析不足等。它也是推动产业应用落地的关键技术之一,标志着大模型进入了从LLM到Long LLM的新阶段。
通过长文本技术,对话机器人正朝着专业化、个性化、深度化方向发展。这可能成为撬动产业应用和超级APP落地的重要抓手。不过,目前的长文本对话场景仍有很大优化空间,如数据更新、对话控制、准确性等方面都需要进一步改进。
在追求长文本能力的过程中,大模型厂商面临着文本长度、注意力和算力的"不可能三角"困境。文本越长,越难聚焦关键信息;注意力有限制,短文本又难以完整解读复杂信息;处理长文本需要大量算力,提高了成本。
这一困境的根源在于大多数模型基于Transformer结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。目前主要有三种解决方案:借助外部工具辅助处理、优化自注意力机制计算、利用模型优化方法。
虽然长文本的"不可能三角"暂时无解,但这也明确了大模型厂商的探索方向:在文本长度、注意力和算力三者间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本限制。