【风险揭示及声明】 :本文仅供特定合格投资者参考。本文的数据均来自外部 ,或经渡苇基金整理。渡苇基金对相关数据的准确性不 做任何陈述或保证 ,而且无法保证本文中的任何预测或观点将得以实现。本文信息仅供参考,不构成任何投资建议。
在大数据时代、在人工智能技术赋能各行业创新发展的时代 ,金融投资领域的研究也越来越重视文本数据。作为专业投 资机构 ,我们预期可以从上市公司年报、公司公告、新闻报道和社交媒体发帖等文本信息中寻找到有用的股票定价“ 因 子” ,有助于通过“模型化”对金融市场进行预测。
很多投资者日常都会浏览互联网财经资讯、上市公司年报等等 ,一些投资者可能也曾萌生过将所有股票的这些文本信息 分别量化出一个叫“投资者情绪”的指标辅助进行日常股票投资决策。但想要实现上述想法需要掌握金融文本数据挖掘 的方法 ,想想也确实让人澎湃 ,感觉就要掌握了“财富密码”。
来源上市公司年报正式用语文本案例
|
来源互联网投资论坛非正式用语文本案例
|
|
|
风险提示:以上所提个股标的仅用于案例解释使用 ,不构成任何投资建议。
本文通过梳理学术界的一篇经典研究文献 ,展示如何利用金融文本信息刻画投资者情绪的全流程 ,结合渡苇基金代表产 品 5 年多以来的优秀业绩表现 ,证明了科学的投资者情绪指标具有指导投资的实践意义 ,期待大家能够更好地了解渡 苇基金选股策略的长期有效性!
一、 已有研究的不足
情绪词典是构建语调和情绪指标的关键 ,现有的词典还存在一些不足。
1. 人工判别方法构建基于小样本的情绪词典 ,会导致样本筛选和判断标准不统一 ,导致研究结果无法复制;
2. 基于人工筛选提出的适应英文年报语调分析的情绪词典 ,由于英文年报和中文年报在用词、表达方式方面的差异, 不能简单地将英文年报情绪词典翻译后直接套用在中文年报的分析上;
3. 基于中文文学作品、媒体报道等构建的针对中文文本分析的通用型词典(大连理工大学情感词汇本体库、中国知网 词库( HowNet)和清华大学褒贬意词典)在金融领域的研究适应性和准确性方面存疑;举例,“庄”字在其他领域是
中性语调 ,但在股吧论坛中则含有强烈的负面情感。
因此 ,构建基于大样本、标准化的针对金融领域的中文文本情绪词典是亟需解决的问题。
二、正式用语情绪词典和年报语调指标构建
在年报文本方面 ,利用词典重组方法 ,在现有广泛使用的词典基础上提炼和构建了适用于金融领域正式文本研究的情绪 词典。
正式用语情绪词典构建思路如下:
首先 ,利用 2003 年~2015 年间所有中国上市公司年报文本(共 19970 份) ,选取年报发布【 0, +3】 日累计超额收益 率作为判断单个年报的正负面情绪依据 ,该方法可以避免人工判断文本信息所带来的偏差。
然后 ,采用词典重组法 ,综合 3 份现有通用型中文情绪词典和 LM 情绪词典的中文翻译版 ,并加入年报语料的分词结 果去重后得到初始词典 ,使用带惩罚机制词频法提取情绪词生成正式用语情绪词典。
正式用语初始情绪词典中待选负面词调整后的词频数值计算:
式中
Wn ,N 为待选负面词 n 在收益为负的年报集合 N 中的出现次数; Wn ,P 为待选负面词 n 在收益为正的年报集合 P 中出现的次数;
待选负面情绪词的频度随着其在负面年报集合出现的比重
增加 ,同时也随着其在正面年报集合出现的比重
下降 。通过惩罚机制
的引入 ,带惩罚机制词频法从总体层面上衡量了
待选词的负面程度。
根据带惩罚机制词频法计算得到的数值排序并生成正式用语情绪词典的负面词表。基于同样的逻辑 ,可以得到正式用语 情绪词典的正面词表。
正式用语词典语调( Index)
基于正式用语情绪词典 ,使用词袋模型 ( bag-of-words) 构建年报的负面语调指标:
式中
Wn ,i 为负面词 n 在年报 i 中出现的次数; Wp ,i 为正面词 p 在年报 i 中出现的次数; total word i 为 年报 i 的总词数。
三、非正式用语情绪词典和社交媒体情绪指标构建
在社交媒体方面 ,因为以非正式用语为主 ,正式用语的情绪词典可能不再适用 ,因此有必要构建适用于金融领域的非正 式文本研究的情绪词典。
首先 ,利用 2011 年~2016 年间雪球论坛用户发帖以及 2010 年~2017 年间东方财富网股吧发帖(共计 8130 多万条), 选出带有明显情绪特征的帖子作为样本 ,并删除内容含有广告等噪音的帖子 ,最终筛选出 8789 个股票论坛发帖作为深 度学习算法的训练样本。
其次 ,本文使用训练好的长短期记忆 LSTM 模型对两个论坛上每一个发帖的正负面情绪进行了分类。将相同情绪的帖 子归为一类并分词 ,计算每个词的带惩罚机制词频法的数值 ,根据此数值进行排序 ,最后生成非正式用语情绪词典。
社交媒体情绪指标
在非正式用语情绪词典的基础上 ,构建了看涨情绪指标和情绪一致性指标 ,分别命名为非正式用语词典情绪 ( Bullishness) 和非正式用语词典情绪一致性( Agreement)。
式中
Positive i ,t 为公司 i 在 t 日的全部帖子中正面词占总词数的比例; Negative i ,t 为公司 i 在 t 日的全部帖子中负面词占总词数的比例; Bullishness i ,t 反映了股票 i 在 t 日的看涨情绪;
Agreement i ,t 的最大值是 1 ,即一致看涨或者一致看跌 ,最小值为 0 ,即情绪分歧度最大。
四、研究结论和逻辑解释
1. 基于正式用语情绪词典构建的年报负面语调与交易量、波动率及下季度未预期盈余显著正相关;(未预期盈余:年 报发布后下一份季报的每股盈余减去上一年该季度季报的每股盈余)
逻辑解释:当年报越悲观时 ,将影响投资者对该公司的未来预期 ,产生过度卖出股票的行为。且投资者对此信息的反应 过度 ,经常以较低的市场价格卖出股票。此外本期悲观语调也会导致公司在未来产生更高的未预期盈余 ,因此悲观语调 也与下季度的未预期盈余显著相关。
2. 基于非正式用语情绪词典构建的社交媒体看涨情绪指标与超额收益、成交量、波动率正相关 ,构建的情绪一致性指 标与超额收益、交易量及收益波动率显著负相关;
逻辑解释:社交媒体发帖是投资者情绪的有效表达 ,由此生成的看涨情绪指标与收益率显著正相关 ,且投资者情绪一致 性指标与交易量及波动率显著负相关 ,即投资者情绪越不一致 ,交易量及波动率越大。
3. 现有广泛使用的情绪词典在金融领域正式用语文本和非正式用语文本上的语调和情绪提取并不能达到理想的效果,
因此在金融领域研究中构建专业情绪词典是有必要的;
4. 作为对年报语调与社交媒体情绪指标的应用 ,研究发现基于本文词典构建的年报负面语调与社交媒体看跌情绪指标 可以显著预测上市公司的股价崩盘风险 ,证明语调和情绪指标是上市公司管理层以及个体投资者的情感和心理活动的准 确反映。
逻辑解释:大量研究表明 ,管理者披露坏消息和好消息分布并不对称 ,管理层存在捂盘坏消息的行为倾向。由于公司对 坏消息的容纳存在上限 ,一旦累积的负面消息超过了这个上限 ,坏消息将集中释放出来 ,进而对公司股价造成极大的负 面冲击并最终崩盘。即负面语调越弱(正面语调越强) ,公司未来股价崩盘风险越大。
逻辑解释:由于中国市场的卖空机制并不完善 ,卖空交易的总量很小 ,主要参与者为机构投资者 ,个体投资者很少参与 到这一过程中。投资者即便提前知晓了公司的负面消息 ,其悲观预期更多地是通过论坛和社交媒体而非市场交易来表达。 负面情绪越强( 正面情绪越弱) ,公司未来股价崩盘风险越大。
五、投资启示
技术进步带来投资决策工具革新 ,如何从复杂的充满“噪声”的信息中捕捉到有效信息事关决策质量和投资成败。利用 新技术、使用新工具做出新成果是每一个致力于在资本市场“活下去”的参与者应当追求的。
但不能否认的是 ,新技术新工具并不能被所有参与证券市场的投资者掌握 ,普通投资者面临的投资挑战越来越大 ,该如 何应对?要么坚持寻找“好公司”组合长线持有以不变应万变是一种可以在资本市场生存下去的哲学 ,要么与真正“靠 谱”的专业机构为伍借助其产品为自己财富保值增值也是一种方式。
最后 ,渡苇基金作为国内行为金融策略的先行者 ,策略研发超 20 年 ,资管实践超 5 年 ,专注于量化投资领域 ,深耕行 为金融量化选股策略。公司投研核心凭借专业的学术背景、丰富的理论知识及强大的数据挖掘、统计分析能力 ,打造优 秀的金融工程团队 ,开发行之有效的量化投资策略。
在 A 股市场于 9 月 24 日起重新活跃之后 ,欢迎有兴趣的合格投资者(需履行合格投资者认证程序)联系我们进一步沟 通探讨。选择渡苇基金 ,让我们以行为金融学视角重新理解金融市场的波动 ,开启财富增长的新篇章。
参考文献:
[1] 姚加权 ,冯绪 ,王赞钧 ,纪荣嵘 ,张维. 语调、情绪及市场影响: 基于金融情绪词典[J]. 管理科学学报 ,2021, 24(5):26-46.
附录
部分正式用语情绪词典及非正式用语情绪词典
2024 年 11 月 12 日
风险揭示
本文所涉的基金管理人及基金经理的个人观点,不代表本平台的任何立场,不构成任何投资建议。
投资有风险,本资料涉及基金的过往业绩不预示其未来表现,基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证,我司未以明示、暗示或其他任何方式承诺或预测产品未来收益。投资者应谨慎注意各项风险,认真阅读基金合同、基金产品资料概要等销售文件,充分认识产品的风险收益特征,并根据自身情况做出投资决策,对投资决策自负盈亏。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得我司许可并注明作品来源为私募排排网,同时载明内容域名出处。
本页面所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页内容不构成任何投资建议,相关数据及信息来自基金管理人、托管估值机构、外部数据库,并可能援引内外部榜单、其他专业人士/或机构撰写制作的相关研究成果或观点,我司对所载资料的真实性、准确性、时效性及完整性不作任何实质性判断,对所涉产品/机构/人员不作任何明示或暗示的预测、保证,亦不承担任何形式的责任。
版权声明:未经许可,任何个人或机构不得进行任何形式的修改或将其用于商业用途。转载、引用、翻译、二次创作(包括但不限于以影音等其他形式展现作品内容)或以任何商业目的进行使用的,必须取得作者许可并注明作品来源为私募排排网,同时载明内容域名出处