上微博能预测股市走势,你信吗?

“人类行为93% 是可预测的,预测的基础是人类生活数字化的大数据时代基础。”在社会化媒体上,数以亿计的普通用户创造的海量信息内容,如果可以合理利用可以干很多事情,如预测股票市场……

2008诺贝尔经济学奖获得者Paul R. Krugman(2009)曾在《纽约时报》发文抱怨经济学领域误入歧途是经济学家之过,他们错把那些美妙的,令人印象深刻的数学当作真理。重要原因是原始的数据不真实不有效,统计数据失真,存在很长时间的滞后。

“无标度网络”创立者Albert-Laszlo Barabasi在《爆发:大数据时代预见未来的新思维》提出:人类行为93% 是可预测的,预测的基础是人类生活数字化的大数据时代基础。在社会化媒体上,数以亿计的普通用户创造的海量信息内容(User Generated Content,简称UGC),如截至2013年12月,中国微博用户规模达到2.81亿。仅新浪微博在2013年12月,共有超过28条亿的微博被发布。

Bollen Johan等(2010)对2008年3月-12月间的985万条Twitter信息进行数据挖掘,从行为经济学的角度出发,研究发现公众的情绪状态可以对道琼斯工业平均指数收盘值的进行预测,其中冷静情绪可以预测的正确率达到87.6%。

在Johan等人的研究基础上,在2011年5月,世界首家基于社交媒体的对冲基金Derwent Capital Markets上线,一期的规模为4000万美元,该基金将利用Twitter帮助公司投资。基金创始人保罗.郝汀(Paul Hawtin)表示:

长期以来,投资者已经广泛地认可金融市场由恐惧和贪婪驱使,但我们从未拥有一种技术或数据来量化人们的情感。Derwent就是要通过即时关注Twitter中的公众情绪指导投资。

如今,Twitter已经不再是一个简单的SNS社交工具,而是可以判别你心情的晴雨表。如果Twitter被证明是一个可靠的市场指标,公司可能会从更多的社交媒体获取数据,如Facebook、Google trends及其他来源。

Eric Gilbert(2010)等人从心理学角度分析群体担心惊恐情绪与股市的关系,以Live Journal共2000万个帖子为数据基础,研究表明悲观情绪会导致股价短期内下跌,与股票指数成反相关,焦虑的标准差增加1%,收益率会下降0.4%。

 Zhang X. et al.(2011)认为当民众对未来的态度是悲观或不确定时,投资和交易更谨慎,并使用如“hope”、“fear”、“worry”等的情感词。于是,当带有上述三种的情感词的微博数量快速增长时,往往预示着道琼斯指数将要下降。通过对数据的整理和分析,研究发现这三种情感指数与道琼斯、纳斯达克和标普500指数存在负相关关系。

表1:社会化媒体与股票指数相关性研究

学者数据来源主要结论
Wysocki股票网站上对3000多支股票,共946000条股评

股评数量对次日的股票交易量的变化和异常收益率的变化有预测作用

Johan Bollen, Huina Mao, Xiao-Jun Zeng8个月的共9853498条twitter对收盘价预测准确率为87.6%,冷静情绪的预测效果最好
程琬芸, 林杰5个证券媒体的新浪微博和评论,分别66317条、1207693条

涨跌情绪与证券市场指数收益和成交量有正相关关系,短期影响显著

Zhang X, Fuehres H, Gloor P6个月内全部twitter的随机1%情绪指数与大盘指数负相关,与波动率正相关
Eric Gilbert, Karrie karahalios2000万个Live Journal的帖子悲观情绪会导致股价短期内下跌,焦虑的标准差增加1%,收益率会下降0.4%

社会化媒体的内容以非结构化数据和半结构化数据为主,传统的数据挖掘方法以结构化数据为主。通过网络爬虫或社会化媒体的公开API收集用户的内容和相关信息,对用户的信息进行统计、分析和挖掘,包括以下方法支持向量机(SVMs)、脉冲响应函数、遗传算法(GA)和文本聚类技术等,将研究范围从某一事项的预测等微观层面扩展到行业分析与自然灾害等宏观领域,拓宽文本挖掘研究的范围。

在现有样本选择方法中,内容相关的方法大幅度降低了工作量,但存在遗漏大量相关用户UGC的风险。时间跨度选择的合理性需要给出合理的解释,为什么是选择12个月的数据而不是更久?时间跨度是否在一个经济周期或事件周期内。目前,时间与内容相结合的方法使用的最多,降低了工作量,减少了噪音,但也需要给上面两种方法的问题给出合理的解释。作为学术研究,在核心的环节,全凭主观判断范围和内容显然降低了研究结论的客观性、科学性和说服力。

一、从数据处理看,社会化媒体与诸多经济现象之间存在相关性,但这种相关性尚无扎实的理论基础作为支撑,这一研究领域的发展与应用必然受到制约。有学者认为社会化媒体最多只能反映网络舆论,不等于社会大众全体。尽管社会化媒体的样本量很大,由于“数码沟”的存在, 中国仍有55.9%的民众为非网民,他们的意见不能在网络上得到充分地体现。Tumasjan A.等(2010)经常发布政治推文的用户仅占所有发布政治推文用户数的3.9%,而所发布的政治推文数量却占到总数的 44.3%。

二、网络意见表达与真实行为的差异。社会化媒体内容分析和预测隐含的一个前提是网络用户表达的内容是大多数现实生活中的人们的真实情感。在虚拟网络中,自我选择偏差(self-selection bias)的存在,在网络上表达意见的只是“自我选择”的少数,有沉默的大多数的存在,因此网络上的“主流意见”甚至都无法代表全体网民。同时,由于表达环境的不同,网民在社会化媒体上表达的内容,与其线下的实际行动不同,在网络上容易受到意见领袖的影响,而在现实生活中容易受周围人的影响。 (本文作者弘毅与Vito,首发于钛媒体

本文系作者 消费升级分析师 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 自己给自己评论一下:在当前情况下分析社会化媒体中的信息与股票指数形成某种线性和非线性的关系的研究是没有意义的,在很多论文中没有考虑到企业的知名度、市值影响和企业是否为龙头,股价影响要素之多,超乎想象。

    作者赞过
    回复 2015.07.16 · via ipad

快报

更多

2026-03-07 23:07

科威特石油公司“预防性削减”原油生产和提炼

2026-03-07 22:37

新任招商局集团董事李永明已任集团党委副书记

2026-03-07 21:26

国内成品油即将迎来调整窗口期,加满一箱油预计多花19.5元

2026-03-07 20:32

3月7日新闻联播速览19条

2026-03-07 19:52

特朗普宣称考虑扩大打击范围,伊朗或遭受“非常沉重打击”

2026-03-07 19:46

商务部回应安世荷兰批量禁用安世中国员工办公软件:严重破坏企业正常生产经营

2026-03-07 18:54

习近平在出席解放军和武警部队代表团全体会议时强调 充分发挥政治建军特有优势 凝心聚力推动国防和军队现代化行稳致远

2026-03-07 18:48

周鸿祎称AI不该只用来做小视频

2026-03-07 18:46

非银机构流动性支持机制会不会推出?潘功胜回应

2026-03-07 18:21

潘功胜:央行将实施好适度宽松的货币政策,保持社会融资条件相对宽松

2026-03-07 17:14

伊朗宣布关闭股市

2026-03-07 17:13

地中海航运公司MSC:对所有从地中海和黑海运往印度次大陆、红海及东非地区的货物征收紧急燃油附加费

2026-03-07 17:04

国家发展改革委社会司:规范有序推进辅助生殖技术应用,全面落实生育休假制度

2026-03-07 17:04

国家发展改革委社会司:加强公共设施适老化改造,拓展适合老年人的多样化就业岗位

2026-03-07 17:00

林俊旸发文告别阿里千问

2026-03-07 16:49

哈尔滨市长:2025至2026年冰雪季接待游客1.5亿人次

2026-03-07 16:44

国家发展改革委社会司:“十五五”将探索延长义务教育年限

2026-03-07 16:42

国家发展改革委袁达:“十五五”我国将建成100个左右国家级零碳园区

2026-03-07 16:41

国家发改委发展战略和规划司司长陈雷:“十五五”时期基本建成世界级港口群和机场群

2026-03-07 16:38

国家发改委秘书长袁达:将培育壮大海洋生物医药等新兴产业,提高现代航运、海洋旅游等服务业发展水平

1

扫描下载App

Baidu
map