24小时热文
这几天,关于 token 该译成什么,网上吵得热闹。「模元」「偷啃」「托肯」「智元」「灵符」「词元」……各执一词,各有道理。这场争论的底层逻辑,其实是在争一个标准:翻译,到底该服务于谁?在此之前,计算机科学与语言学领域有一个相对通行的译法:词元。但翻译这件事,历来讲「信达雅」。严复曾在《天演论译例言》中提出:「译事三难:信、达、雅。求其信,已大难矣!顾信矣不达,虽译犹不译也,则达尚焉。」也就是说,信是根本,但「信而不达」等于没译;在此之上,再求雅。 问题来了,token,为什么不是 APPSO?相信这个时候就有人问了,APPSO 不也是英文吗?冷知识,APPSO 其实本质上是拉丁字母的组合。DNA,RNA,GDP、CPU、HTTP,这些符号从诞生之日起,就属于以拉丁字母为载体,跨越语言障碍的国际通用标准术语。这套系统的地位,相当于数学里的阿拉伯数字。没有人会说「1、2、3 是阿拉伯语,中国人应该换成汉字来写数字」——因为阿拉伯数字早已超越了它的起源,成为全人类共用的书写工具。 APPSO 亦是如此,也是用拉丁字母构造的技术定义符号,专门用来描述 AI 时代一个此前从未被完整命名过的概念。把它称为「英文」,形式上说得通,本质上不够合理。 现在,让我们把这五个字母展开来看: A — Atomic 最小不可分割的处理单元。这是 token 的物理属性。 P — Priced 每一个都有明确的经济价值。厂商明码标价,token 天生带着价格属性。 P — Produced推理过程中实时生成,不是预先存储、按需取用的。 S — Sequential 按顺序一个一个地来。自回归生成,前一个影响后一个,不可乱序,不可并行。 O — Output 大模型与世界交互的唯一出口。不管是文字、代码、函数调用,最终都以 token 的形式被送出去。五个维度:原子性、经济性、生成性、序列性、输出性。完整覆盖了 token 的技术定义与商业属性,也相当契合严复信雅达的标准。 全世界的 AI 人士今天统一使用的符号,就是 token。在这个前提下,我们更需要造一个能和 token 并肩使用、在任何语言环境下都能被识别的技术定义。没错,就是 APPSO。 这不是我发明的,甚至 APPSO 这个词从它诞生那天起,就已经是 token 最准确的定义了。只是,借着这个由头,我们今天才把这件事说清楚。(手动狗头) 企业级 Agent 多智能体架构与选型指南 -- 来自1000+行业应用实践积累 阿里的价值重估,还要给市场一点时间 囤“小克重黄金”的年轻人,亏惨了? 晚点独家丨地平线敲定征程 7 目标算力,舱驾一体产品命名 “星空” 跑遍1000多个村镇,我发现农民流行在自家地里「上班」 英伟达GPU全系列硬核科普手册:一文读懂NVIDIA芯片的定位、规格与应用场景 酒囊饭袋:吃播与进食之间的主体性危机 AI漫剧越热闹,行业里的普通人越难了 小米AI团队平均年龄25岁,雷军:未来三年AI投资600亿/新SU7发布,21.99万起/深圳高三生回应成Kimi论文第一作者
年费限时8折
所有数据均采集于网络,如有侵权请联系站长删除
粤ICP备18050166号-1