龙芯笔记本
芯片技术发展中不可忽视的一大难点,其体积虽小却内涵丰富,一颗芯片中蕴含的复杂逻辑相当于在纳米级空间构建一座城市。
作为芯片器件中的明星产物,CPU一直备受关注。国产CPU在政务、通讯、计算等领域已经有了自己的身影,但在通用CPU领域却仍由国外龙头企业占据主导地位。台式电脑市场由英特尔和AMD主导,移动端市场则以ARM和高通等为首,国产CPU想要突出重围绝非易事。
龙芯 3A5000产品综述|图片(1)|参数|报价|点评(1)
为了突破制约,国内CPU企业不断寻求创新出路,其中较为常见的发展路径是获得指令集架构授权,如ARM、MIPS甚至X86等架构都已授权给国内CPU企业。购买指令集授权无疑提高了研发效率,但其本质仍是基于他人搭建的基础上构建产品,因此缺少完全的自主性和产权保障,也存在受到限制的风险。
01 LoongArch简介
2021年4月,龙芯中科大胆迈出了国产自主化的第一步,自主研发推出了全新的LoongArch指令集架构。该架构从顶层设计到指令功能和ABI标准均实现了完全自主,这意味着龙芯未来的CPU将不再使用MIPS指令集架构,从今年发布的3A5000开始,均将使用LoongArch架构。这是一次国产化迈出的重要里程碑。
根据官方资料,我们绘制了龙芯3A5000微架构示意图,从中可以看到3A5000大致分为4个区块,每个区块包含一个核心和一个缓存。
LoongArch指令集继承了RISC的特点,如32位定长指令、32个通用寄存器以及32个浮点/向量寄存器。LoongArch取消了RISC指令延迟槽,取而代之的是直接跳转指令的目标地址相对PC计算,并增加了相对转移偏移量。
LoongArch拥有近2000条指令,并在设计中充分考虑了兼容性。相同源代码编译成LoongArch后,动态执行的指令数比编译成MIPS时减少10%-20%,这意味着运行效率更高,性能也会提升。
LoongArch还深入研究了MIPS、X86、ARM等主流架构,具备对这些架构进行二进制翻译的能力。其中,对MIPS可以实现100%翻译,实现跨平台兼容,龙芯的目标是在2025年消除指令集之间的壁垒。
2021年7月,龙芯中科发布了基于LoongArch指令集架构的两款处理器:3A5000和3C5000L。3A5000处理器面向桌面端市场,而3C5000L则是服务器处理器。3A5000主频为2.3Ghz-2.5GHz,拥有4颗核心,每个处理器核心采用64位LA464自主微结构,支持DDR4-3200MHz内存,以及Hyper Transport 3.0控制器。3C5000L则由4个3A5000封装组成,拥有16个核心。
3A5000处理器内置安全模块,能够有效抵御Meltdown(熔断)和Spectre(幽灵)等经典CPU漏洞。与上一代3A4000一样,3A5000也支持内置加解密算法和安全可信模块,是目前唯一通过国内商密二级型号鉴定测试的CPU内置模块。
02 龙芯3A5000整机介绍
龙芯3A5000通用处理器主要应用在消费级桌面市场,未来将推出包括台式机、笔记本、一体机等多种产品。此次评测对象为搭载3A5000处理器的台式整机。龙芯3A5000整机外观采用经典商用办公主机风格,以黑色为主格调。前面板提供一个常规开关按钮,两个USB 2.0接口,以及两个音频输入/输出接口。
龙芯3A5000整机
主板I/O处提供一个VGA视频口,一个串行COM接口,4个USB 2.0接口,2个USB 3.2 Gen1 5Gbps接口,以及一个有线网口。
主板I/O
其他配置方面,这台主机使用了256GB SATA固态硬盘,双8GB DDR4 3200MHz内存,以及AMD Radeon HD 8750M显卡。显卡I/O提供一个VGA接口,一个HDMI接口。
紫光国芯(UnilC)28GB DDR4 3200MHz内存
AMD Radeon HD 8750M
拆除散热器后,便能看到本次评测的主角龙芯3A5000,其芯片代号为“KMYC70”,得名于纪念抗美援朝70周年,而服务器处理器3C5000L芯片代号则为“CPC100”以庆祝建党100周年。
在本次评测的主机中,龙芯3A5000直接焊接封装在主板上,不支持DIY更换。
<img src="https://gaofengtu.oss-cn-beijing.aliyuncs.com/1/71e194aa037ab9560d7ebbc232e7e5bd.jpg" alt="龙
统信UOS系统是一项由国内多家操作系统核心企业联合研发的高安全性、易操作性和稳定性的国产操作系统产品,也是实现芯片自主化的关键环节。目前系统官网已开放下载,有意向的用户可自行前往下载试用。除统信UOS系统外,国内自主研发的麒麟Kylin龙芯版也可作为备选方案。
实战测试
此次处理器测试涉及龙芯3A5000、英特尔i5 9500六核14nm、国产ARM V8四核7nm和国产ARM V8八核14nm四种处理器,以英特尔i5 9500六核14nm为基准对比。各整机的硬件参数保持一致。
英特尔i5 9500六核14nm架构处理器主频范围为3.0-4.4Ghz,热设计功耗为65W。国产ARM V8四核7nm处理器主频最高可达2.6GHz,单芯片支持64个核心。另一款国产ARM V8八核14nm处理器兼容64位ARMv8指令集,主频为2.3GHz。
提示:参与测试的四款处理器核心数存在差异,因此在多核测试项目中,我们取最大核心数的成绩作为参考。
基准测试
UnixBench性能测试
以下正式开始测试,首先使用大众熟悉UnixBench测试工具。这款软件适用类Unix系统(包括Unix、BSD和Linux)性能测试,广泛用于评估Linux系统主机的性能。该工具涵盖系统调用、读写、进程和图形化测试,是对整机系统进行全面检验。
UnixBench单核、多核性能测试
测试结果显示,龙芯3A5000和国产ARM V8四核7nm处理器的表现相当出色。龙芯3A5000的单核性能达到1685分,相比上一代龙芯3A4000有显著提升,单核性能已与英特尔i5 9500六核14nm处理器相接近。这与龙芯先通过设计优化提升单核性能,再利用先进工艺增加核心数的策略相符。
在多核性能对比中,龙芯3A5000达到4314分,与国产ARM V8四核7nm的4387分基本持平,但与英特尔i5 9500六核14nm处理器仍有一定的差距。4核龙芯3A5000却比国产ARM V8八核14nm处理器的性能高出600多分。
SPEC 2006测试
接下来进行SPEC 2006对比测试。SPEC 2006是一个大型的CPU性能测试项目,重点测试处理器的性能、内存子系统和编译器。该测试可以评估CPU最基础的定点和浮点性能。同样需要说明的是,由于测试处理器核心数不尽相同,因此在多核测试环节我们选择最多核数的成绩。
SPEC CPU2006 BASE性能测试
此次SPEC 2006测试分为单核和多核测试。龙芯3A5000单核定点得分为25.1分,单核浮点得分为26分。与英特尔i5 9500六核14nm处理器相比,确实存在一定的差距,但单核定点与国产ARM V8四核7nm处理器基本相当,单核浮点略优于国产ARM V8四核7nm处理器。与国产ARM V8八核14nm处理器相比,龙芯3A5000单核定点高出近10分,单核浮点高出近一倍。
在多线程测试中,英特尔i5 9500六核14nm处理器依然表现最佳。龙芯3A5000的多核定点和多核浮点均高于国产ARM V8四核7nm处理器,而国产ARM V8八核14nm处理器由于核心数优势,定点和浮点的分数均高于龙芯3A5000和国产ARM V8四核7nm处理器。
Stream
Stream是业界主流的内存带宽测试程序,测试行为相对简单可控。该程序对CPU的计算能力要求较低,对CPU内存带宽压力较大。随着处理器核心数的增加,而内存带宽并未线性增长,因此内存带宽对提升多核处理能力至关重要。
Stream内存测试
在Stream Copy测试子项性能中,龙芯3A5000的表现相当优异,已经超越了英特尔i5 9500六核14nm处理器。其中Copy单线性能获得16864分,多线性能获得21873分。国产ARM V8八核14nm处理器和国产ARM V8四核7nm处理器的分数差距不大,但Copy的整体表现略逊于龙芯3A5000。
应用测试
除了处理器的单核和多核基准性能测试外,用户的软件应用体验可以更直观地反映处理器之间的性能差异。接下来实际测试办公常用WPS、浏览器和视频播放器方面的应用体验。
WPS
我们使用四款处理器的主机安装同版本的统信UOS操作系统,然后使用WPS办公软件分别打开10MB(文本+图片)、50M(文本+图片)以及50M(文本+图片+视频)三种容量的大文件。重点测试打开文档速度以衡量处理器的性能。为了保证测试数据的规律性,每个文档均打开5次取平均值。
WPS办公软件打开文档速度对比(时间越短越好)
实际测试表明,在10MB(文本+图片)文档打开速度方面,国产ARM V8八核14nm处理器速度最快,耗时1.47秒;龙芯3A5000打开速度为1.54秒。在50M(文本+图片)打开速度方面,国产ARM V8四核7nm处理器速度最慢,耗时3.01秒。在50M(文本+图片+视频)打开速度方面,国产ARM V8八核14nm处理器速度最慢,耗时4.24秒;英特尔i5 9500六核14nm处理器的打开速度最快,耗时仅
访问爱奇艺网站这样的需求,对处理器性能提出了一定的要求,因为它需要加载视频、图片、CSS、JavaScript等各种资源。测试结果显示,英特尔i5 9500六核14nm处理器加载速度最快,仅需1.4秒;龙芯3A5000处理器也表现出色,用时1.78秒;而一款国产ARM V8八核14nm处理器加载时间最长,为2.35秒。
影音播放:
我们测试了四款处理器的影音播放性能。测试环境为统信UOS操作系统,使用默认视频播放器,播放相同大小的1080P MP4格式视频,记录加载视频的时间。
影院播放器加载1080P MP4视频时间(时间越短越好)单位:秒
测试结果表明,国产ARM V8四核7nm处理器加载速度最快,仅需1.43秒;龙芯3A5000处理器紧随其后,用时1.64秒;而加载时间最长的依然是那款国产ARM V8八核14nm处理器,用时2.09秒。龙芯3A5000处理器凭借其显著提升的性能,在4K高清视频软解方面也表现出色,即使没有独立显卡也能流畅播放高清视频。
04 不破不立 不断超越
让中国人用上完全自主的CPU处理器,是龙芯中科一直以来的目标。历经二十年的发展,LoongArch指令系统的出现标志着龙芯向这一目标迈进了一大步,这不仅是龙芯的突破,也是中国自主CPU行业的新里程碑。
基于LoongArch指令系统的龙芯3A5000处理器性能表现令人满意,但短期内仍面临着生态建设和应用软件适配方面的挑战。尽管龙芯的二进制翻译系统LAT在一定程度上解决了跨指令平台应用兼容问题,能够运行部分X86/Windows应用软件,但要构建满足各种应用需求的庞大软件生态,还需要国内软件厂商的共同努力。
CPU生态的构建需要硬件、系统和用户的共同支持。硬件方面,龙芯已经推出了基于LoongArch指令系统的龙芯3A5000处理器;系统方面,统信UOS、麒麟Kylin等国产操作系统也提供了支持。目前,LoongArch最需要的是用户,包括消费者和开发者。没有开发者开发的软件生态,就不会有大量的消费者购买使用,没有用户的消费就难以支持持续的研发投入。大力推广LoongArch生态是当前最重要的任务。苹果M1之所以能够威胁到英特尔和Windows,正是因为其庞大的用户基数和全球上千万的iOS开发者。
国内CPU生态建设进展缓慢的原因是多方面的,其中资金投入不足是一个重要因素。与国际巨头相比,国内CPU行业的整体投入远远不够,研发资金捉襟见肘。国外CPU和操作系统在软件生态、产业体系上已经发展了几十年,经验丰富。而自主CPU的研发需要克服重重困难,任何一个微小的失误都可能导致巨大的损失。高昂的成本和风险,使得很多企业望而却步。
在这样的环境下,龙芯能够推出自主化指令集架构LoongArch实属不易,而像龙芯这样坚持自主研发的企业更是难能可贵。
自主之路充满挑战,龙芯的勇气令人钦佩。如今,龙芯已经迈出了最艰难的第一步,接下来需要着力构建生态体系。龙芯中科已经建立了LoongArch社区,并将组建LoongArch联盟,免费开放LoongArch指令集,希望吸引更多开发者参与其中,共同推动国产自主CPU的发展。我们期待着龙芯中科能够构建起全新的自主CPU生态。