【科股一线拆解】字节跳动发布豆包视觉理解模型,称输入价格比行业价格低85%

通过饱和式进攻策略,字节跳动在各种大模型功能和产品上几乎都有布局。

12月18日,字节跳动旗下火山引擎在2024冬季火山引擎FORCE原动力大会上,发布了豆包视觉理解模型,据火山引擎总裁谭待介绍,豆包视觉理解模型具备更强的内容识别能力、理解和推理、视觉描述等能力。该模型输入价格为0.003元/千tokens,比行业价格低85%。

豆包大模型是字节跳动推出的AI大模型家族,包括豆包PixelDance、豆包Seaweed视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call 和向量化等多个模型。

光大证券指出,字节跳动在生成式AI竞争中采取了饱和式进攻策略,通过梳理豆包大模型矩阵可以看到,字节跳动在各种大模型功能和产品上几乎都有布局,在发力大模型与AI原生应用之外,字节跳动同时在进行AI硬件领域的探索,收购耳机品牌Oladance、发布AI玩具、智能眼镜,构建软硬件全产业链布局。

豆包虽然推出时间相对靠后一些,但是凭借大幅的营销投放,用户数量自4月起实现了飞速增长。截至11月底,豆包APP累计用户规模已成功超越1.6亿,每日平均新增用户下载量稳定维持在80万,成为全球排名第二,国内排名第一的AI APP。另据11月AI产品榜APP应用榜单,豆包当月在全球榜排名第二,仅次于ChatGPT,月活5998万,增长16.92%。

自今年2月OpenAI首次预告Sora以来,多家国内厂商也纷纷推出了视频大模型产品,视觉交互能力模型是豆包大模型矩阵中相对滞后推出的功能,2024年9月24日,火山引擎宣布推出豆包视频生成模型,2024年11月7日,豆包正式推出视频生成内测。
2024年以来国内推出的文生视频模型,图表来源:兴业证券

2024年以来国内推出的文生视频模型,图表来源:兴业证券

西部证券指出,视觉输入占据人类交互信息的绝大多数,视觉能力是大模型能力的核心。在12月上半月连续的12场发布会中,OpenAI正式发布了Sora Turbo并投入商用,该系统可以根据文本提示生成最长达20秒、最高分辨率1080p的视频,并且具备混合、重新编辑、分镜板、循环、风格预设等多种更加实用的功能。海通证券指出,Sora Turbo的发布代表AI视频模型的技术水平和商业化进入到了新时期,未来发展速度有望持续提升。
机构看好的视频大模型可能受益方向整理

机构看好的视频大模型可能受益方向整理

风险提示:技术研发不及预期;市场竞争加剧;应用端需求不及预期。

科股宝VIP由钛媒体App与北京商报联合推出,相关数据及信息已获得北京商报授权。 风险提示:本产品内容仅供参考,不构成投资建议。投资有风险,入市需谨慎。
科股一线拆解

快报

更多

11:25

伊朗媒体称哈尔克岛石油设施未被损坏

11:12

整治珠宝玉石等领域假证书假产品突出问题,两部门重拳出击

11:03

中东局势迫使船舶改道好望角,南非称已准备好提供支持

10:38

6省区国省干线39个路段因降雪封闭管控

10:25

国家统计局:3月上旬流通领域重要生产资料市场37种产品价格上涨

10:07

“十五五规划”首提培育一流投资银行和投资机构

10:00

阿联酋民航总局:航空运力恢复至战事前近半水平

09:43

2026年F1中国大奖赛上海开赛,赛车经济点燃消费新引擎

09:35

美退役军官:美军袭击伊朗哈尔克岛可能导致油价“失控”

09:31

美国陆军据悉与防务技术初创公司Anduril签署了一份价值高达200亿美元的合同

09:31

海关总署决定在全国海关推广跨境电商零售出口商品跨关区退货模式

09:29

云南成立调查组严查冻干草莓产业链违法违规

09:29

xAI聘请AI初创公司Thinking Machines创始成员,参与Grok AI模型训练工作

09:28

卡塔尔疏散首都多哈市中心部分区域,该区包括谷歌公司办公室

09:28

美国能源部:启动战略石油储备紧急调拨机制,以稳定全球石油供应

09:27

美国土安全部“停摆”,机场排队时间长

09:27

Claude Opus 4.6与Sonnet 4.6上线百万上下文窗口

09:26

特朗普宣布对伊朗石油出口枢纽哈尔克岛发动空袭

09:26

美军何时护航油轮通过霍尔木兹海峡?特朗普最新表态:很快

09:25

韩国总理:正在考虑将核能等项目作为在美首个投资项目

扫描下载App

Baidu
map