




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 年 月天 津 大 学 学 报 ( 社 会 科 学 版) ( )第 卷 第 期 第 卷第 期王春峰等:大数据下媒体关注度与股票收益关系研究 大数据下媒体关注度与股票收益关系研究王春峰, 李嘉毅, 房振明( 天津大学管理与经济学部, 天津 )摘 要: 互联网的发展使得市场信息更容易获得,互联网已经成为投资者获取有价值信息的主要途径,也对投资者 行为逐渐产生影响。 通过自主开发的金融数据挖掘系统,采集了 个网站 多个与股票相关栏目的 余万条 媒体报道信息,并能够实现对信息更精细的统计,使得媒体关注度能够在日内按照不同时间段进行细分。 在此基 础上,研究交易时间和非交易时间媒体关注度与股票收益之间的
2、关系。 结果表明,交易时间的媒体信息对部分股 票收益率产生显著影响,非交易时间媒体信息影响较小,虽然这种情况目前存在于部分股票中,但随着互联网进一 步发展,网络信息将逐步成为需要考虑的风险因素。关键词: 数据挖掘; 媒体关注度; 互联网信息; 百度指数中图分类号: 文献标志码: 文章编号: -()-互联网使人们获取信息的速度比以往更加便捷,而降低 。 张永杰、张维( ) 利用搜索引擎文本挖也使得不同投资者之间拥有信息数量和质量上的差距 在不断缩小,平面媒体的影响力逐渐减弱,个体投资者掘算法研究了每日开源信息与个股收益率的关系,发 现网站信息对部分股票有一定解释力,但解释力随个 从以往关注报纸、
3、电视报道转向关注互联网信息。 然股差异变化较大。 俞庆进和张兵( ) 也利用百而,目前我国市场相比发达国家在成熟度上还有差距, 普遍认为国内个体投资者缺乏对市场的宏观认识,长 度指数观察关键词的检索情况,并通过百度指数数据 定义投资者关注,研究发现投资者关注能够引起超额 期投资较少,市场投机氛围浓厚。 此外, 个体投资收益。 本研究准确获取了网站媒体发布信息的情者通过互联网获取宏观经济形势和个股的重要信息, 并通过在线的讨论与其他投资者之间交换信息,进而 逐步调整自身的投资,媒体对个股的报道也将会对投 资者的投资决策产生影响。在大数据背景下,通过自主建立的数据挖掘和检 索系统,对抓取的 多万条
4、数据进行关键词( 股票 代码 股票名称) 检索,将个股相关信息发布量直接 作为媒体关注度指标。 国外在该领域的研究也处在探 索阶段, 和 ( ) 通过 搜索 引擎构建每周个股的搜索量指标,研究信息需求、信息 供给与市场波动率之间的关系,并发现搜索量的增加 会加剧股票的波动 。况,将信息的时间精确度从日度提高到了分钟,可以将 交易时段和非交易时段的信息进行准确划分,增加了 数据的可信度。 进而研究收益率与媒体关注度的关 系,并考虑了交易量、换手率等因素的影响,以检验我 国市场媒体关注度是否能够作为资产定价因素。一、 金融数据挖掘系统的构建互联网的数据挖掘是基于人工智能、自然语言处 理、模式识别、
5、机器学习、神经网络等,改进传统的数据 挖掘分析技术,从大量非结构化、无结构化数据源抽取 关键短语,表示数据的特征,按照数据的特征进行分 网络媒体发布数据的获取难度较大,国内的研究类、聚类、关联等获得有价值的信息。 在此项研究主要 基 于 平 面 媒 体 和 搜 索 引 擎。 张 雅 慧、 付 雷 鸣() 通过搜集富豪排行榜上榜事件,研究上榜前后 时间窗口内股票收益情况,发现上榜公司股票收益反中搭建的金融数据挖掘系统从系统构架上主要有数据 层、指标层和应用层(见图 ),目前完成了数据层和指 标层的搭建。收稿日期: -基金项目: 国家自然科学基金资助项目( ) 作者简介: 王春峰( ) ,博士,教
6、授 通讯 李嘉毅, 图 1 金融数据挖掘系统构架数据层主要工作机制是:运行爬虫程序,读取网页时相关信息发布较少,一旦有信息发布容易引起投资 文档;再对已经获取的数据进行过滤清洗,去掉不完者注意,进而影响投资者的投资行为。 中证 的整、重复、错误数据,例如只有标题没有内容的数据;然 后对标题、内容、本身数据( 浏览量、发布时间等) 分别 进行存储,使采集结果可以结构化输出。 利用分词技 术对内容进行分析,提取重要特征,建立索引,便于进 行关键词检索。指标层是在数据层的基础上,确定研究的数据内 容,其中设定了媒体关注度、行业关注度、专家关注度 等指标,媒体关注度由媒体发布的个股相关信息数量 构成,
7、也是此次研究中使用的主要指标。应用层则是在建立指标层的基础上运用特定算 法,对数据间的关联和特征进行分析。 数据挖掘是一 个高度专业的领域,和金融工程相结合,通过互联网数 据进行金融领域的研究可以为预测提供新的工具和 途径。二、 数据与模型设计样本选择选取了中证 作为研究的股票样本,中证 可以综合反映沪深股市内小市值公司的情况,选择它 作为研究样本主要是考虑大市值公司的各类有关事 件、消息发布较多,但可能与股票市场无关,无法准确 反映媒体信息对股票收益的影响,而中小市值公司平股票样本中剔除了每月连续 天无交易的股票后,数据样本为 家上市公司,数据包含了股票代码、交易 时间、每日成交量、换手率、
8、日收益率,数据均来自国泰 安数据库。样本时间是从 年 月 日到 年 月 日,主要是因为数据挖掘系统建立时间较短,虽可 进行实时数据采集,但回溯采集历史数据难度较大,加 之网站经常进行改版增大了系统采集难度,目前已经 采集到 年 月 日至今的数据,包括中国证券 报、财经网、 世纪经济报道等 家主要财经金融网 站 多个与股票相关栏目的所有新闻信息,共 余万条数据,信息内容均与股票市场有关。 因为主要 研究个股的媒体关注度与收益关系,因此为确保检索 信息与个股有直接关系,选择了“ 股票名称 股票代 码” 的 关键 词 组 合 对 已经 采 集 的 信息 进 行 检 索统 计 ,并按照每日 、 、 的
9、 个时间段进行分类,将 的信息并入次日数据, 作为第 天媒体关注的个股信息 数量。模型设计模型设计思路主要是将收益率作为解释变量,利 用回归的方法检验媒体关注度与个股收益之间是否存 在相关关系,同时考虑了股票市场上与收益率有关的其他因素,如成交量 、换手率等。 在中国市场上已度,他们在网站获得某支股票的信息后会通过搜索引经有很多实证研究表明交易量与收益率存在显著的相 关性,并从个体投资者者与机构投资者博弈、过度投机 擎主动搜索相关信息,因此媒体发布相关新闻信息的 数量对投资者关注间接产生影响,两者间应该具有一等角度进行了解释。 也有学者验证了换手率与收致性,并通过改变投资者关注改变投资行为。
10、由于考益率之间有着显著的相关性,并随着股票流通市值的 不同而呈现差异,小市值股票的相关性更强。虑到抓取的数据中可能存在部分日期某支股票相关信 息为 的情况,因此没有对 M 指标取对数,而直接用ii主要关注收益率( R)、超额收益率( A)、媒体关注度( M)、交易量( V) 和日换手率( D) 个市场指标,并信息数量作为媒体关注度测度指标。 At 、Vt 是第 t 天第 i 支股票的日异常收益率和日成交量。iii构造了 个模型。 首先根据张永杰( ) 对资产定At Rt et()价与开源信息关系的研究,检验收益率与媒体关注度Rt 为个股日收益率, et为当期指数收益率,利用之间是否存在显著相关
11、性,并考虑了成交量因素,同时 检验了媒体关注度对成交量的解释能力是否有影响。 其次,还在考虑成交量、换手率等因素时,将媒体关注 度分为交易时间和非交易时间两个类别,观察不同交 易时段的媒体关注度与收益率之间的关系。模型为沪深 指数收益进行计算得到。ii模型中 Nt 为当期非交易时间媒体关注度,Mti为交易时间媒体关注度,Dt 为日换手率。三、 实证结果iiiiAt Mt Vt t()模型为数据的描述性统计此次研究,一共选取了 支股票,时间范围是iiiiiiAt Nt Mt Vt Dt t()i模型中媒体关注度 M 指标是基于数据挖掘系 统抓取的新闻数据,并通过股票名称加股票代码的关 键词检索方
12、式,确定的每日网站产生的个股相关的网 络新闻数量。 Mt 即某时间点与某支股票有关的信息 数量。 设计这一指标时研究思路是:个体投资者只能 关注有限的网络媒体信息,主要的信息来源于几大财 经金融网站,并对权威网站发布的信息有较高的信任 年 月 日到 月 日。 首先统计每支股票在一年中产生的信息数量,得到一个个股信息量序列,并 进行描述。 同时研究每日交易时间和非交易时间信息 数量的差异,得到描述性统计,并比较这两个序列与股 票信息序列的不同。 最后对各支股票日收益率的情况 进行了统计,并定性分析产生信息较多股票其收益率是 否存在规律或特征。 变量描述性指标见表 。表 1 变量描述性统计变量均值
13、标准差偏度峰度最大最小股票信息量畅畅畅畅 日度交易时间信息畅畅畅畅日度非交易时间信息畅畅畅畅 日收益率畅 畅畅畅畅畅从数据的统计情况看,个股年度信息量均值较高, 信息的数量较多,但不同股票间差异较大,日度非交易 时间信息数量的标准差最大,说明每支股票不同日期 在非交易时段产生的信息数量差别很大,但交易时间 信息数量的标准差相对较小,即每日该时段信息数量 波动较小。 个股信息量的峰度 大于正态分布的峰 度 ,偏度也较大,日度信息数据的峰度偏度都较小, 说明个股之间存在较大差异,序列分布具有非对称的 特征。在此基础上还比较了个股日收益率均值与其信息 总量之间的关系,发现日收益率最高的前 支股票,一
14、年产生的网络信息数量均值为 畅,而收益率最 低的 支股票,该均值为 ,低于个股年度信息量的中位数 ,其中 “ 国海证券”尤为显著,年度产生的信息量为 ,同时日均收益率为 畅 ,均 为最大值。 这些结果从定性的角度揭示了信息数量与 收益率之间存在着正向的相关关系,在后面将利用模 型进一步探究互联网媒体信息数量与收益率之间的相 关性。与百度指数的比对媒体关注度指标反映了在一定时间内与个股相关 的网络媒体信息数量,假设这些信息被投资者观察到, 并对其投资行为产生影响,为了验证这点需要将投资者的关注度与媒体关注度进行对比。 如果具有一致的 趋势说明两者存在着一定联系,同时也从另一个方面 证实采集的数据
15、是真实可信的。 由于百度指数的数据 无法被直接获取,通过采取抽样的方式对个股关注度 进行了检验,发现与媒体关注度变化趋势基本一致。 为了说明问题,分别给出年度信息量最大的股票和处 于中 位 数 水 平 的 股 票 进 行 说 明。 股 票 和 的用户关注度见图 图 。图 2 2012 年 1 12 月 000750 百度用户关注度图 3 2012 年 1 12 月 000750 媒体关注度图 4 600748 百度用户关注度从上图中可以看到抽取的两支股票虽然产生的信 息总量存在较大的差别,但就每支股票对应的投资者 关注度来看,基本与媒体关注度的变化趋势一致,这说 明两者间存在联系,而且也说明数
16、据具有可用性,能够 反映出信息的真实情况。图 5 600748 媒体关注度媒体关注度与收益率关系从实证的描述性统计分析上看,收益与媒体关注 度之间存在着正相关关系,日均收益率高的股票,每日 平均媒体关注度也比较高。 但实际情况中媒体关注度 是否真的会影响股票日收益率? 下面将利用模型和 模型分别从不同的角度进行检验。 在研究中没有进 行面板数据处理,而是更多地关注了时间序列下关注 度与收益率的关系。在模型的实证检验中,为了更好地比较媒体关 注度的影响,分两步进行了回归检验:第一步,直接对 收益率和日交易量进行回归, 发现 支股票中有 支表现出显著的相关关系,这点和 的研究 结论是吻合的;第二步
17、,将媒体关注度作为风险因子加 入模型中,通过回归发现媒体关注度指标 M 与个股收 益率显著相关的股票数量为 支,仅占所有股票数量的 % ,由于数量较少,不能证明媒体关注度与收益之 间存在直接的相关性,回归结果见表 。表 2 模型的分步回归结果统计模型 % 显著性水平下 显著股票 显著股票 显著股票模型未考虑媒体 支 支关注度(畅% )考虑媒体 支关注度(畅% )(畅 % )模型 支(畅% )( 畅 % )(畅% ) 在模型的基础上对信息进行细分,分别考虑交 易时间产生的信息和非交易时间产生的信息与收益率 之间的关系,也因此发现了一个值得关注的现象。 传 统的理论认为,隔夜信息会对第 天的交易产
18、生影响, 形成开盘时的价格跳跃 ,但是互联网使得信息的传 播速度更快,搜集信息的成本降低,使人们对信息的反 映时间更短,当有信息出现时就能快速做出反映。 研 究一个创新点就在于可以区分当期交易时间与非交易时间产生的信息,从而更清晰地说明当期较高的媒体 关注度是否会带来收益。模型中发现部分股票的收益率与交易时间的媒 体关注度显著正相关,但与非交易时间的媒体关注度 无相关关系,从表 中可以看出,有 支股票的收益 率与其交易时间的媒体关注度显著相关,说明交易时 间产生的信息更容易对投资者产生影响,引起投资者 关注进而改变其交易行为。 同时从描述性统计的结果表 来看,非交易时段的信息量超过了交易时间的
19、信 息量,结合模型的实证结果,就容易发现非交易时段 的信息多数为噪音,按照交易时间和非交易时间对信 息进行划分,使网络媒体报道对股票收益的影响被揭 示出来。从媒体关注度与收益率显著相关的 支股票中 选取部分股票作为示例来揭示内在的变化( 见表 )。表 3 部分个股媒体关注度模型检验示例股票模型模型 系数R截距 系数 系数R华菱钢铁畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )大恒科技畅畅畅畅畅畅()(畅)(畅 )(畅 )(畅 )首钢股份畅畅畅畅畅畅()(畅)(畅 )(畅 )(畅 )日照港畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )宁夏建材畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )珠
20、江啤酒畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )华峰氨纶畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )四川双马畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )安泰集团畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )塔牌集团畅畅畅畅 畅畅()(畅)(畅 )(畅 )(畅 )从表 中可以看出,模型的 R 好于模型,说 明当对不同时段的信息进行细分时,一部分股票交易 时段产生的信息能够解释当日的异常收益,同时也可 以观察到交易时段媒体关注与收益率正相关,且显著。 而模型中每日媒体关注度与收益率未表现出显著的 相关 性, 这 点 也 与赵 龙 凯 等 人的 研 究 结 果 基 本 一 四、 结语
21、在此项研究过程中自主开发了金融数据挖掘系 统,利用该系统获得了媒体关注度数据,并通过与百度 指数比对,证明了数据的可用性,也证实了研究思路, 致,即每日关注度指标与日异常收益率之间不存在媒体关注度和投资者关注度具有一致性,在此基础显著关系。从以上的研究中发现投资者,尤其是个体投资者 在交易时间对各类有关市场和个股的信息更为关注, 而在非交易时间主动关注信息较少,这些信息对其影 响较小,这也从另一个方面反映了中国市场投资者成 熟度不高,缺乏长远投资理念,而更多希望获得利好消 息进行短线投资,因此对当期信息更加关注。上开展了媒体关注度和收益率之间的关系研究。 通过 研究中证 中小企业股,发现日度媒
22、体关注度与收 益率之间目前尚不存在显著的正相关关系,又对媒体 关注度在日内交易时间进行了细分,分为交易时间媒 体关注度和非交易时间媒体关注度,发现部分股票的 交易时段媒体关注度与收益率之间有显著相关性,媒 体关注度越高,当期异常收益越高,这是一个重要的创 新点,说明部分股票的媒体信息中已经包含了有效信 息,能够对投资者行为产生影响,而非交易时间媒体信息对投资者影响很小,这也与中国投资者的投机行为 有关。研究没有采用百度指数来研究,而是从媒体信息 的角度出发,对日内的关注度进行更细的划分,发现更 多有价值的问题,也希望为信息与资产价格行为之间 的研究提供一个全新的视角。 国内互联网信息在金融 领域的研究也处于探索阶段,此项研究也存在一定的 局限性,第一,由于百度指数的不易获得,只能通过抽 样的方式对媒体关注度与百度指数进行对比,之间的 相关性还有待进一步严格检验。 第二,研究对象主要 是中小企业股,大公司股票需要进一步研究。 第三,主 要从时间序列层面进行了研究,而横截面上不同行业 或不同特点的股票表现出来的特征将是下一步研究的 重点,同时将利用金融数据挖掘系统在投资者关注度 层面做深入研究。参考文献: 张 健,刘 宪我国股票市场的投机特征 价格理论 与实践, (): - , , ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 门面租赁合同修复协议书
- 长租公寓租赁合同协议书
- 防护网工程销售合同范本
- 法人替公司还款合同范本
- 消防项目安全施工协议书
- 瑕疵生态板出售合同范本
- 物流人力合作合同协议书
- 销售咨询服务合同协议书
- 用于工作安置的合同协议
- 电梯门框安装合同协议书
- DB32T 2860-2015 散装液体化学品槽车装卸安全作业规范
- 《有效的时间管理》课件
- 伏龙肝生物活性成分鉴定与评价
- 2024年全国职业院校技能大赛高职组(法律实务赛项)考试题库(含答案)
- 2024年俄罗斯汽车测试、检验和认证行业应用与市场潜力评估
- 汽车底盘DFMEA-制动总泵带储液罐带液位传感器总成
- 落地式脚手架搭设安全技术交底
- 2024年陕西延长石油延安能源化工有限责任公司招聘笔试参考题库含答案解析
- 剑桥少儿英语预备级下Unit12
- 旅游学概论讲义
- 滴灌通白皮书
评论
0/150
提交评论