你的位置:开云「中国」kaiyun网页版 登录入口 > 资讯 > 开云(中国)kaiyun网页版登录入口在“词元”这一定名中-开云「中国」kaiyun网页版 登录入口

开云(中国)kaiyun网页版登录入口在“词元”这一定名中-开云「中国」kaiyun网页版 登录入口

时间:2026-04-04 06:37 点击:175 次

开云(中国)kaiyun网页版登录入口在“词元”这一定名中-开云「中国」kaiyun网页版 登录入口

近日,寰宇科学时代名词核定委员会发布《对于发布试用东说念主工智能界限名词token华文名“词元”的公告》,决定在概述考量社会各界意见漠视的基础上,优先推选“词元”四肢东说念主工智能界限名词token的华文名开云(中国)kaiyun网页版登录入口,并面向全社会发布试用。

“词元”这一定名相宜单义性、科学性、简明性、合作性等科技名词核定原则。该定名经寰宇运筹帷幄机科学时代名词核定委员会核定后,由寰宇科学时代名词核定委员会批准向全社会发布试用。

清华大学运筹帷幄机系副教学东昱晓以为,“词元”的定名捕捉了其在东说念主工智能言语模子中四肢“基本龙套秀丽单元”的本体,又不错通过类比当然蔓延至多模态界限。在“词元”这一定名中,“词”点明其在言语场景下的根源,体现出token与抒发对象语义的密切干系;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保捏一致的语义头绪。

“token”一词源于古英语tācen,意为“秀丽”或“秀丽”。在言语模子中,token是文本经由切分或字节级编码后取得的最小龙套单元。它既可能是东说念主类言语酷好酷好上的词串、单个词,也可能是词根、词缀、子词或单个字符。言语模子通过对token序列建模,展现出一定的智能水平。

寰宇运筹帷幄机科学时代名词核定委员会副主任委员兼东说念主工智能分委员会主任委员、中国科学院运筹帷幄时代讨论所讨论员陈熙霖暗意,“词元”一词不错将“四肢言语基本语义单元”这一源流本体明晰抒发出来,更贴合其在东说念主工智能中的运转脚色。

跟着大模子从纯文本走向多模态,“token”所指照旧扩张。图像被切分为“图像块”并映射为镶嵌序列,语音片断不错被量化编码为龙套单元,这些单元在多模态模子中不异被称为token,主要建模妙技仍为序列模子。

此时,“词元”中的“词”特出了东说念主类言语酷好酷好上的“词”,却能暗合术语定名中大皆存在的类比念念维——将非文本模态的龙套基本单元也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)访佛,虽由文本繁衍,但已成为东说念主工智能界限中抒发更普通语义的通用术语。“词元”在跨模态场景中承载了“龙套基本单元”的语义,这种语义大皆存在于统统模态之中。

在华文文件、时代文档及学术接头中,“词元”四肢模样大模子中token的译名,慢慢被学术界许多学者招供。token是模子将数据映射为龙套秀丽序列的基本单元,自己并不佩带智能,仅仅承载信息的载体;与“镶嵌”“注看法”“隐景色”等术语并排时,保捏了作风一致性;相宜华文“二字词”偏好,表述浮松,易于传播。

国度数据局数据裸露,2024岁首,中国日均词元(token)调用量为1000亿;至2025年底,跃升至100万亿;本年3月开云(中国)kaiyun网页版登录入口,已打破140万亿,两年增长超千倍。

服务热线
官方网站:www.91niupos.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:19445358074
邮箱:c97aa3b0@outlook.com
地址:资讯国际企业科技园5325号
关注公众号

Powered by 开云「中国」kaiyun网页版 登录入口 RSS地图 HTML地图


开云「中国」kaiyun网页版 登录入口-开云(中国)kaiyun网页版登录入口在“词元”这一定名中-开云「中国」kaiyun网页版 登录入口