6月25日,富士通在日本宣布了其最新开发的PHOTON架构,该架构在多查询场景下的性能可达到主流Transformer架构的475倍。PHOTON架构通过在语义层面进行分层处理,相较于Transformer的词元级分割,能够降低计算复杂度并提供更好的并行性。这一技术革新使得PHOTON在处理智能体系统等多I/O流程时更为高效,同时降低了GPU成本。
PHOTON架构在多查询的决策环节采用多数决定或选择最佳的方式,仅需一次推理即可完成。测试结果显示,在600M、900M、1.2B等参数规模相对较小的模型中,PHOTON实现了更高的迭代吞吐量和更低的内存占用。特别是在1.2B模型上,PHOTON展现了475倍的性能提升,尽管在质量上略有下降。此外,由于PHOTON架构每次迭代所需的KVCache更少,还能提升最大迭代次数。
