推荐
快报
广场
科股宝VIP
视频
直播
媒体
企服
创投
咨询
活动
钛空时间
集团时光
公众号
清朗网络行动
写稿
视频投稿
App下载
ENGLISH
钛媒体
链得得
钛空时间
消研所
钛媒体创投家
品牌服务
专家服务
政府服务
创业者服务
融资需求
申请报道
项目数据库
投资者服务
创投家CLUB投资机构库
机构数据库
行研报告
钛媒体
链得得
ITValue
钛空时间
消研所
钛极客
资讯
科股宝
PRO
视频
直播
FM
DeepSeek推出NSA,用于超快速的长上下文训练和推理
2025.02.18 16:36
微信扫码
39
1
16
钛媒体App 2月18日消息,DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
AGI
本文内容仅供参考,不构成投资建议,请谨慎对待。
评论
0
/ 300
根据《网络安全法》实名制要求,请绑定手机号后发表评论
登录
请
登录
后输入评论内容
OCO
这意思是训练的机器成本再降低一点?普通机器也能玩?
回复
2月18日 · via iphone
投资日历
更多
map
根据《网络安全法》实名制要求,请绑定手机号后发表评论
这意思是训练的机器成本再降低一点?普通机器也能玩?