芯原微電子申請大語言模型數據管理專利,減少大語言模型推理所需緩存數據量
金融界2024年9月30日消息,國家知識產權局信息顯示,芯原微電子(上海)股份有限公司申請一項名爲“大語言模型數據管理方法、裝置、電子設備及存儲介質”的專利,公開號 CN 118709781 A,申請日期爲2024年6月。
專利摘要顯示,本申請旨在提供一種大語言模型數據管理方法、裝置、電子設備及存儲介質,涉及神經網絡領域。大語言模型數據管理方法包括:在所述注意力層進行非首輪推理的情況下,將目標矩陣輸出至所述注意力層,以使所述注意力層基於所述目標矩陣計算前一輪推理生成的鍵向量和值向量;其中:所述目標矩陣存儲在所述存儲單元內,所述目標矩陣包括初始向量和N個累加向量;在所述注意力層基於所述鍵向量和所述值向量完成當前輪次的推理後,基於所述累加向量對所述存儲單元內的目標矩陣進行累加。通過上述方式,可以減少大語言模型不斷推理過程中存儲器所需緩存的數據量。
本文源自:金融界
作者:情報員