配备10.8GB/s高速接口的UFS 5.0即将问世。铠侠认为,智能手机采用UFS 5.0将进一步推动端侧的发展。这种大容量、高速数据传输的UFS,能够存储大容量的大规模语言模型(LLM)及检索增强生成(RAG)专用数据库。
迅速提升智能手机的端侧功能
搭载AI的智能手机(AI智能手机)正在迅速普及。特别是2023年以后推出的高端AI智能手机搭载了大规模语言模型(LLM),加入了生成式AI应用。端侧AI(指在终端设备内运行生成式AI的功能)无需云端AI那样依赖网络,具有保护隐私的优点,除此之外还能为用户提供实时翻译等便利的服务。
提升端侧AI性能的关键在于,需要专门为智能手机等移动设备设计闪存存储规格UFS(Universal Flash Storage,通用闪存存储)。铠侠强调,最新的UFS规格UFS 5.0有望显著改变端侧的格局。
UFS 5.0的高速接口使LLM“智能化”运行

铠侠存储器事业部 存储器应用技术统括部 渡边匠 先生
UFS目前是智能手机的存储主流。高端机型一般采用UFS 4.0/4.1,铠侠也在为智能手机厂家量产基于UFS 4.0/4.1规格的产品。
制定半导体产品等标准规格的业内组织JEDEC(Joint Electron Device Engineering Council,联合电子设备工程委员会)于2025年10月发布称已基本完成UFS 5.0规格制定工作。
UFS 5.0的最大特点是,高达10.8GB/s(10830MB/s)(注1)的传输速度。其传输速度惊人,是高端智能手机中搭载的UFS 4.1(4640MB/s)的2倍以上。铠侠存储器事业部的渡边匠先生说:“随着AI的普及,对UFS接口高速化的需求突然激增”。“以往是标准制定先行,传输速度约每四年翻倍一次。但近年来,随着端侧技术的演进,智能手机制造商对高速化的要求日益迫切。"
按照以往经验,平均每4年传输速率翻倍。然而,近年来端侧AI技术飞跃,智能手机厂家对传输速度的要求越来越高。”

铠侠的UFS以往版本与数据传输速度 趋势图 提供:铠侠
传输速度的飞跃提升,有望为端侧的高性能化提供强力支持。这将使更大规模的LLM能够搭载于智能手机。
在智能手机上使用生成式AI功能时,存储在UFS中的LLM首先被加载至系统内存DRAM中。然后,由SoC(System on Chip)从DRAM读取LLM的参数,并执行运算处理(推理)。

智能手机本地端运行生成式AI时的设想步骤 提供:铠侠
问题在于,近年来为了使生成式AI“更智能”,LLM的参数数量呈现增长趋势。据统计,端侧AI搭载的LLM参数数量约有30~40亿之多。若将其量化为8位(INT8),则容量约为3GB~4GB(注2)。渡边表示:“以UFS 4.0/4.1的传输速度,可在1秒以内读取,但若LLM容量增大,会延长加载时间,用户收到首个响应的时间(Time to First Token)也会相应增加。“但为了提升生成式AI”智能化程度就需要搭载更大规模的LLM,这必然要求UFS具备高速的传输速度。
凭借高达10.8GB/s的UFS 5.0传输速度,即使参数数量增加,也能实现大型语言模型的高速加载。这将直接提升端侧的用户体验。“UFS 4.0/4.1的可适用LLM容量为3~4GB,而UFS 5.0可将这一容量提升至约10GB。”渡边先生说道。
据渡边先生介绍,铠侠的UFS技术有三大优势。其一是闪存。铠侠的UFS 5.0采用的3D闪存是最新一代的“第8代BiCS FLASH(注3),它应用了铠侠独有的“CMOS directly Bonded to Array(CBA,CMOS直接键合阵列)”技术,该技术将两片晶圆高精度地键合在一起。CBA技术是指,将负责存储单元控制的CMOS电路和存储单元阵列分别构建在不同的晶圆上,然后将这两片晶圆高精度地键合在一起。
由于闪存能够分别采用适合CMOS电路和存储单元的工艺进行制造,因此可显著提高闪存性能、能效和位密度。
其二是公司自主研发的闪存控制器技术。UFS 5.0的物理层采用MIPI Alliance规格“M-PHY version 6.0”,协议层采用“UniPro version 3.0”。铠侠早在标准制定初期便深度参与。并率先开发了UFS 5.0的高速接口。此外,铠侠还优化控制器的电源设计,实现了高性能和低功耗,满足需要电池供电的移动设备的需求。其三是ECC(错误校正码)技术。强大的ECC技术能够最大限度地发挥闪存性能。
智能手机端亦可部署RAG
使用传输速度更快的UFS5.0,不仅可以部署更大规模的LLM,而且还为存储RAG(Retrieval-Augmented Generation,检索增强生成)专用数据库提供了可能。RAG是一种将企业数据库等的外部信息与LLM相结合,提高生成式AI回答精度的技术。
铠侠发布了面向数据中心RAG(文本生成式人工智能)的开源数据搜索软件“KIOXIA AiSAQ(注3)”。使用KIOXIA AiSAQ, RAG专用数据库可直接将存储在SSD中数据进行检索,所以不占用DRAM。另外,铠侠也在讨论将KIOXIA AiSAQ运用于智能手机端,并已完成技术验证。RAG专用数据库不依赖DRAM扩展,而是配置于UFS中,因此可以扩充RAG专用数据库的容量。
在DRAM容量受限于成本的背景下,若能在大容量UFS中存储LLM与RAG专用数据库,端侧的用户体验必将得到进一步提升。

KIOXIA AiSAQ与UFS 5.0相结合时,可同步处理LLM与RAG专用数据库 提供:铠侠
使AI的思考能力与知识“分离”,优化整个AI系统

铠侠先进技术研究所 AI‧系统研发中心 出口淳先生
铠侠先进技术研究所AI‧系统研发中心组长出口淳先生表示,UFS 5.0的推出为端侧的系统配置带来新的优化,或将改变在智能手机中的存储定位。
正如前文所述,提升AI智能程度的方法之一是扩大LLM的规模。为了“存储知识”而增加LLM的参数数量,其相应地运算量也将随之增加。所以,必须提升GPU的运算性能。出口先生将此描述为“通过运算再现知识的一种状态”。
“就现状而言,AI的思考能力(推理性能)与知识(数据)均通过运算来表现。但若继续按此趋势增长,即使从成本和电力的角度考量,终将面临瓶颈”出口先生说道。我们难道不应将AI的思考能力与知识存储“分离”开来吗?铠侠正是基于这一理念,早在生成式AI普及数年前,从闪存和软件两方面致力于研发工作,以实现这一“分离”。KIOXIA AiSAQ正是这一努力的成果之一。
最终,如果我们能够将思考能力与知识存储“分离”开来,就可以只用GPU进行思考(推理),用闪存来存储知识。这是一种能够发挥设备原有功能的最佳方式。
由于运算量减少,降低了GPU的功耗,也为采用低功耗的AI加速器等方案拓宽了选择范围。“通过因地制宜地选用半导体器件,我们或许能以不同于以往的方式,优化整个AI系统。”出口先生说道。
迈向“记忆”成为AI个性的时代
在数据转化为“知识”的AI时代,闪存、UFS的定位也在发生变化。出口先生说“此前,它们仅被视作汇集AI学习数据的存储器”,但铠侠认为,未来的闪存、UFS将在塑造AI个性化方面发挥积极作用。
“人类的个性是由记忆、经验而形成的。今后,即使基于相同的LLM,也能通过添加RAG专用数据库这样的外部‘记忆与经验’,转化为更具个性的形态。而承载这些塑造AI个性的记忆与经验的载体,正是闪存,这也正是我们所钻研的技术。这与铠侠公司的使命‘记忆由芯,世界尤新’一脉相承。”出口先生说道。
通过高速的数据传输,进一步提升了LLM、RAG专用数据库的使用效率。集结铠侠技术的UFS 5.0产品将支持不断发展的AI系统,并在使端侧“更智能”运行和“更具个性”方面发挥重要作用。

※本报道基于刊登时的信息,可能与最新信息存在差异。
(注1)按1GB/s为1,000,000,000字节/秒,1MB/s为1,000,000字节/秒进行计算。该值为根据接口速度计算所得的理论值,不保证使用设备的速度。读取及写入速度根据主系统、读取/写入条件、文件容量等有所变化。
(注2)按1GB为1,073,741,824字节进行计算。
(注3)“BiCS FLASH”及“KIOXIA AiSAQ”是铠侠株式会社的注册商标。
文章来源:KIOXIA铠侠中国社