本发明属于数据分析,具体涉及一种面向投资的群消息舆情打标分析方法及系统。
背景技术:
1、在基金经理的日常工作中,需要对所研究行业、公司做大量的分析、研究,提取其中的有效信息形成调查分析报告,结合个人的交易策略做出投资交易决策。
2、基金经理的研究素材其中有很大一部分存在于基金经理与证券分析师之间的多个通讯软件的群聊中,这些信息包括公司点评、公司深度报告、行业点评、宏观报告、策略报告、金工报告、会议纪要、调研纪要等,以文字、图片、链接、文件等各种形式通过即时通讯软件互相传递。
3、基金经理往往需要花费大量的时间对收到的消息进行整理、分类、统计学分析及数据再加工等。对于证券交易而言,有效的交易时间窗口往往在事件产生后最开始的几个小时内。而依靠人工处理,很容易错过事件产生后的黄金交易时间(比如事件发生在凌晨或者人员正在处理其他事情),时效性差,且人工处理工作量大。
技术实现思路
1、本发明提供了一种面向投资的群消息舆情打标分析方法及系统,解决了现有技术中依靠人工处理,时效性差且工作量大的技术问题。
2、本
技术实现要素:
的第一方面公开了一种面向投资的群消息舆情打标分析方法,包括:
3、获取通讯软件消息中的文字内容;
4、将所述文字内容与预设词库中的多个投资关键词进行匹配,对匹配成功的文字内容打标签,所述标签为对应的所述投资关键词;
5、获取每种标签或标签组合的出现频次并输出。
6、优选地,获取通讯软件消息中的文字内容,具体包括:
7、获取通信软件中的群消息;
8、将所述群消息中的语音识别为文字内容;
9、识别所述群消息图像中的文字内容;
10、整合所述群消息中的原始文字内容、语音对应的文字内容及图像中的文字内容,得到通讯软件消息中的文字内容。
11、优选地,所述词库为多层级树形词库,所述词库的父节点包括公司词库、行业词库、概念词库、属性词库和观点词库。
12、优选地,所述公司词库的子节点包括公司信息、公司产出的产品信息;
13、所述公司信息包括公司名称、公司下辖子公司名称和公司股票代码、公司简称;
14、所述公司产出的产品信息包括产品名称、产品型号。
15、优选地,所述行业词库的子节点包括行业名称及对应行业的同义词。
16、优选地,所述概念词库的子节点包括概念标准词及相关同义词。
17、优选地,所述属性词库的子节点包括属性标准词及相关同义词。
18、优选地,所述观点词库的子节点包括多个观点词。
19、优选地,将所述文字内容与预设词库中的多个投资关键词进行匹配,具体包括:
20、利用文本相似度算法或者语义相似度算法,计算所述文字内容与预设词库中的多个投资关键词的匹配度;
21、将所述匹配度与预设阈值进行对比,如所述匹配度大于所述预设阈值,则认为匹配成功。
22、优选地,获取每种标签或标签组合的出现频次并输出,具体包括:
23、获取每种标签或标签组合的出现频次,并输出至第三方系统或者输出至显示界面。
24、本发明内容的第二方面公开了一种面向投资的群消息舆情打标分析系统,包括:
25、内容获取模块,所述内容获取模块用于获取通讯软件消息中的文字内容;
26、打标模块,所述打标模块用于将所述文字内容与预设词库中的多个投资关键词进行匹配,对匹配成功的文字内容打标签,所述标签为对应的所述投资关键词;
27、统计输出模块,所述统计输出模块用于获取每种标签或标签组合的出现频次并输出。
28、本发明相对于现有技术,具有如下有益效果:
29、本发明的面向投资的群消息舆情打标分析方法及系统,给所有消息拓展了更多的维度,比如行业维度、公司维度、个人观点维度等,从而提升消息表征的全面性及准确性。
30、在维度扩展之后,通过维度下的关键字可以快速筛选出对应的消息内容,增加了快速查询消息的途径,大大节约了查询消息的消耗时间。
31、所有的消息带上了标签之后,再结合统计学的分析方法,可以得到基于统计学的输出变量,而现实使用场景下,统计变量会更有实际意义,比如经济分析、量化交易。
32、本发明方法及系统,对于金融行业而言,提供了即时消息作为量化交易系统输入参数的可能性,同时通过拓展或者定义私有的专业词库,可以适配不同领域、不同业务场景下不同用户的使用习惯。
1.一种面向投资的群消息舆情打标分析方法,其特征是,包括:
2.如权利要求1所述的方法,其特征是,获取通讯软件消息中的文字内容,具体包括:
3.如权利要求1所述的方法,其特征是,所述词库为多层级树形词库,所述词库的父节点包括公司词库、行业词库、概念词库、属性词库和观点词库。
4.如权利要求3所述的方法,其特征是,所述公司词库的子节点包括公司信息、公司产出的产品信息;
5.如权利要求3所述的方法,其特征是,所述行业词库的子节点包括行业名称及对应行业的同义词。
6.如权利要求3所述的方法,其特征是,所述概念词库的子节点包括概念标准词及相关同义词。
7.如权利要求3所述的方法,其特征是,所述属性词库的子节点包括属性标准词及相关同义词。
8.如权利要求1所述的方法,其特征是,将所述文字内容与预设词库中的多个投资关键词进行匹配,具体包括:
9.如权利要求1所述的方法,其特征是,获取每种标签或标签组合的出现频次并输出,具体包括:
10.一种面向投资的群消息舆情打标分析系统,其特征是,包括: