
DeepSeek 引发全球热议的神秘力量

尽管春节假期已经过半,但“来自东方的神秘力量的DeepSeek”仍在全球范围内引起热议。各路业内人士继续从不同角度分析DeepSeek的模型和技术文章。
北京时间1月31日,英伟达宣布DeepSeek-R1模型登陆NVIDIA NIM。同一时段内,亚马逊和微软也接入了DeepSeek-R1模型。英伟达称,DeepSeek-R1是最先进的大语言模型。
韩国Mirae Asset Securities Research的一名分析师在X上撰写长文分析称,这一突破是通过实施大量细粒度优化和使用英伟达的汇编式PTX编程实现的,而非通过CUDA中的某些功能。CUDA是由英伟达开发的一种通用编程框架,允许开发者利用其图形处理器进行通用计算。
如果DeepSeek真的绕过了CUDA,这表明其在研发大模型时采用了不同的技术路径。在DeepSeek-V3的技术博文中,DeepSeek表示其使用了英伟达的PTX语言。如果DeepSeek的开发者能够很好地使用PTX语言,相比使用CUDA提供的编程接口,可以更精细地控制GPU之间的数据、权重和梯度传输。然而,使用PTX编写的代码复杂且难以维护,需要专业度较高的开发者。
绕过CUDA的做法具有一定的技术难度,要求开发者既要懂AI模型算法,又要懂计算机系统架构以高效分配硬件资源。如果没有同时掌握这两方面技能的开发者,则需要协调不同人员。从DeepSeek的技术报告来看,其主体实现还是基于CUDA的相关接口,但在描述中提到绕开了CUDA来写通信,这意味着它招聘了具备不同技能的人才,并将这些人才很好地结合起来。
这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。假如未来使用国产GPU,DeepSeek在硬件适配方面会更加得心应手,只需了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达GPU硬件的编程接口编写相关代码,使自家大模型更容易适配国产硬件。
从学术研究角度来看,DeepSeek的技术并没有特别突出,但在工程上却非常有技巧。考虑到AMD已经宣布集成DeepSeek-V3到MI300X GPU,未来可能会有更多GPU厂商与DeepSeek合作。韩国分析师在同一篇X文章中指出,这凸显了DeepSeek非凡的工程水平,并表明美国对华制裁加剧的“GPU短缺危机”激发了他们的紧迫感和创造力。
还没有评论,来说两句吧...