![大数据环境下的证券市场操纵行为发现_第1页](http://file4.renrendoc.com/view/3100e508816179cd7064439b368b5936/3100e508816179cd7064439b368b59361.gif)
![大数据环境下的证券市场操纵行为发现_第2页](http://file4.renrendoc.com/view/3100e508816179cd7064439b368b5936/3100e508816179cd7064439b368b59362.gif)
![大数据环境下的证券市场操纵行为发现_第3页](http://file4.renrendoc.com/view/3100e508816179cd7064439b368b5936/3100e508816179cd7064439b368b59363.gif)
![大数据环境下的证券市场操纵行为发现_第4页](http://file4.renrendoc.com/view/3100e508816179cd7064439b368b5936/3100e508816179cd7064439b368b59364.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据环境下的证券市场操纵行为发现数据、大数据数据资源的战略性发改委科技部/工信部自然基金委2015年8月19日国务院通过关于促进大数据发展的行动纲要2015年10月29日中央五中全会提出“实施国家大数据战略”2014年、2015年大数据写入政府工作报告国家层面科技部大数据重大工程项目建议上海市推进大数据研究与发展三年行动计划上海市大数据与云计算十三五规划上海市大数据与云计算重大科技创新工程课题: 调查1万户居民家庭收入和支出情况,以衡量中国家庭的生活水平需要培养200名调查员两人一组进行调查,每组需要调查100个家庭调查时间至少需要1年每次调查差旅成本平均3000元,总费用3000万元200
2、名调查员的一年工资成本,2000万元调查的可信度?2010年第6次全国人口普查花费80亿元古老的研究方法Ngrams是文本词频统计算法,可统计GOOGLE电子图书的词频Google Books Ngrams百度一下,你被知道数据能做什么全球气候研究数据能做什么数据技术应用有大数据用大数据做大数据朱扬用,熊赟“大数据是数据、技术,还是应用”大数据创刊号http:/www.j- 是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。大数据集:是指一个决策问题所用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术:是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数
3、据应用: 是指用大数据集和大数据技术来支持决策活动,是新的决策方法什么是大数据什么是大数据用数据解决问题解决数据的问题证券市场操纵行为分析背景和意义背景和意义沪深两市日均成交量及成交金额均有所上升。3月沪市日均成交量为221.07亿股,环比上升了17.38%;日均成交金额2,322.84亿元,环比上升了20.77%。深市日均成交量为230.19亿股,环比上升了15.49%; 日均成交金额为3,486.61亿元,环比上升了17.80%。 日均结算总额变化图每月新增投资者变化图背景和意义背景和意义非法获利1883万元背景和意义大数据技术用于证券市场监控“终结犯罪,在案发之前”-IBM背景和意义难点
4、:账户隐蔽性强(在过程中没有散发传播虚假消息,也没有可供披露的提升上市公司价值的经营活动等),难以甄别、查处成本高,仍是各国证券监管当局面临的执法困境。探索大数据环境下的证券市场操纵行为发现机理,建立适应大数据环境的、高效的面向证券市场操纵行为的大数据模型与方法,建立证券市场操纵行为实时监控系统,提高监控效率,维护投资者权益,保证证券市场健康运行。国内外现状和动态第六章 交易行为监督6.1本所对下列可能影响证券交易价格或者证券交易量的异常交易行为予以重点监控: (一)可能对证券交易价格产生重大影响的信息披露前,大量买入或者卖出相关证券; (二)以同一身份证明文件、营业执照或其他有效证明文件开立
5、的证券账户之间,大量或者频繁进行互为对手方的交易;(三)委托、授权给同一机构或者同一个人代为从事交易的证券账户之间,大量或者频繁进行互为对手方的交易;(四)两个或两个以上固定的或涉嫌关联的证券账户之间,大量或者频繁进行互为对手方的交易;(五)大笔申报、连续申报或者密集申报,以影响证券交易价格;(六)频繁申报或频繁撤销申报,以影响证券交易价格或其他投资者的投资决定;(七)巨额申报,且申报价格明显偏离申报时的证券市场成交价格;(八)一段时期内进行大量且连续的交易;(九)在同一价位或者相近价位大量或者频繁进行回转交易;(十)大量或者频繁进行高买低卖交易;(十一)进行与自身公开发布的投资分析、预测或建
6、议相背离的证券交易;(十二)在大宗交易中进行虚假或其他扰乱市场秩序的申报;(十三)本所认为需要重点监控的其他异常交易。异常交易行为:高买低卖、虚假申报、连续集中交易、长期闲置账户频繁异动、大量委托或查询请求等国内外现状和动态2008年,Vlachos等采用异常点检测算法发现欺诈模式,但是操纵者为规避监控,利用多账户操纵,使得从单个账户看并不具有异常性;2011年,Diaz等通过将交易行为与已知欺诈行为比较以发现操纵行为,该方法需借助已知模式作为参考,对于隐蔽手法难以监测;2012年,Punniyamoorthy等利用历史欺诈行为作为训练集构建分类模型,然而实际中获取足够多带标签的训练数据是困难
7、的;2013年Jiang等通过构建交易网络,利用图结构挖掘自循环(自买自卖)、双节点循环(互相买卖)和双节点多边(一个账户多次从相同地方买入或卖出股票)等异常交易模式;2014年Tamersoy等利用“董监高”公开申报的交易行为数据,对非法内幕交易进行分析,并利用任职所在公司情况建立账户关系网络。证券市场操纵行为分析大数据方法证券市场操纵行为分析核心操纵者挖掘算法设计与实现:复杂网络模型面向大数据的证券市场操纵行为发现模型和方法研究:高性能算法度量定义及其计算方法研究:持仓、交易模式大数据环境下的证券市场操纵行为发现证券市场操纵行为实证分析证券市场操纵行为机理研究:问题的形式化定义证券交易行为
8、数据表示研究:特征分析、形式化表示建模证券市场操纵行为分析字段名称字段含义字段定义Trade_No 成交编号DECIMAL(18)Trade_Date 成交日期DATETrade_Time 成交时间INTEGERTrade_Time_Dec 成交时间毫秒DECIMAL(8,7)Order_Time 订单时间INTEGEROrder_Time_Dec 订单时间毫秒DECIMAL(8,7)Order_No 订单编号DECIMAL(18)Trade_Price 成交价格DECIMAL(18,5)Trade_Amt 成交金额DECIMAL(18,5)Trade_Vol 成交数量DECIMAL(18,3
9、)Sec_Code 金融工具代码CHAR(6)PBU_ID PBU代码CHAR(5)Acct_ID 投资者帐户CHAR(10)Trade_Dir 订单买卖方向:B表示买,S表示卖CHAR(1)Order_PrtFil_Code 是否完全成交标志:P:Partial match,F:Full matchCHAR(1)Tran_Type 交易类型代码,参考代码表CDE_Tran_TypeCHAR(3).一、证券交易行为数据表示研究T1T2TiTnO1B1:200,B2:700B1:500,B2:300S1:100,S2:800B5:600O2B7:300B7:500, B8:500S7:500Oj
10、B1:800,B2:300B1:600S1:400,S2:400B5:780OmB1:400,B2:100B1:700, B2:500S1:200,S2:100B5:660set-value-oriented证券市场操纵行为分析15|20100907|09:25:00|0.1894441|09:24:23|0.3443302|2500002000077493|14.28000|9996.00000|700.000|600331|85192|A097568801|B|F|000|X|O|L|36|20100907|09:25:01|0.9489676|09:15:05|0.1873262|250
11、0020000003677|5.71100|1142.20000|200.000|900948|11941|C244048610|S|P|000|X|O|L|63|20100907|09:25:02|0.1889610|09:24:24|0.2343031|2500020000005043|0.41700|291.90000|700.000|900946|68873|C977250715|B|F|000|X|O|L|多因素的复杂模型,不是一般的时间序列或是高维数据能够表达一、证券交易行为数据表示研究具有高维和有序的特征: 一是,每个时间点的值是集合形式的,一个交易账户可能操作多支股票;二是,每
12、支交易股票包含交易数量和成本价格等多种因素。证券市场操纵行为分析一般而言,证券交易行为是个体对象主动的行为,具有个体性,即多个账户间不应有很多相同(或相似)的交易行为。相对整个市场,操纵证券市场的账户数量是相当少的,但这些账户因具有某种关联而形成群组。具体表现为:一些账户经常在相同(或相近)时间段交易多支相同股票或在某支股票上频繁买进卖出,具有相同(或相似)的交易行为,他们有别于其他大部分账户的个体性,是特异群组。二、证券市场操纵行为机理研究一批账户在多天具有共同的股票交易行为是一种异常现象,这些账户涉嫌操纵股票价格的可能性高A37650988* A37650*897 A401735*04 A
13、20906459* A37650*994 A451380*38 A45138060* A45138*588 A451380*62 A3309*3794 A451380*96 A20906464* A330*71357 A451380*70 A38534171* A451*50422 A45138055* A45138054* A399*43692 A45710517* A45710*554 A4522*4086 A44973913* A44912*186 A45224329* A3993437*9 .T+1证券市场操纵行为分析数据集中明显不同于大部分对象(不具有相似性)的数据对象证券市场操纵行
14、为分析聚类分析聚类分析主要是针对数据集中的大部分数据对象,即一个数据集中大部分对象属于某些数据簇,而数据集中那些小部分明显不同于其他数据的对象常常被忽略或作为噪声消除;异常分析用于发现数据集中明显不同于大部分数据对象(具有相似性)的数据对象(异常对象),这些对象一般不属于任何簇,也不和其他对象相似,很多情况下异常对象也被称为孤立点。证券市场操纵行为分析点异常挖掘(Point Anomalies)集合异常挖掘(Collective Anomalies):一个具有相关性的数据对象(如序列、图数据)的集合。异常挖掘证券市场操纵行为分析Outliers are clustered (micro-clu
15、sters or clustered anomalies)证券市场操纵行为分析Rare Category挖掘:处理的数据集中的大部分数据对象是相似的,其目的是发现明显不同于大部分对象(具有相似性)的数据形成的集合,但类的大小差异大,且小类常常嵌于/紧密邻近大类。另: Imbalanced Classification:大类、小类都要挖掘。证券市场操纵行为分析特异群组:是一类高价值低密度的数据,是一种重要的大数据形态,是指在众多行为对象中,少数对象群体具有一定数量的相同(或相似)行为模式,表现出相异于大多数对象而形成异常的群组。2010201320122015大数据环境下的证券市场操纵行为发现机
16、理、模型与方法持续发展积累国家自然基金未来合作国际认可发表一系列高质量论文2009提出 新型的数据挖掘任务 行业应用Philip S Yu,Jian Pei证券市场操纵行为分析证券市场操纵行为分析在证券市场中,特异群组常常表现为合谋操纵、基金“老鼠仓”等。这些账户以获取不正当利益为目的,集中资金优势、或利用信息优势,操纵交易量、交易价格,扰乱市场秩序。证券市场操纵行为分析合谋操纵(多账户联合操纵),其行为模式主要是集中资金优势、持股优势进行市场操纵,通过使用多个账户进行分工交易、分仓持有来合谋操纵市场价格和成交量以诱导其他投资者;基金“老鼠仓”,其行为模式是通过获悉基金即将或正在交易某投资标的
17、,且该笔交易大幅影响投资标的价格的交易信息,以相近时刻、相同买卖方向用个人私有资产同步交易该投资标的以获取收益。证券市场操纵行为分析三、度量定义及其计算方法研究证券市场操纵行为分析特异群组账户特异性需有相应的度量来衡量。i. 持仓特异性 第一类账户间总是有类似持仓(包括持仓的股票和持仓量); 第二类“老鼠仓”账户和基金的持仓量一般相差大,并且所持的股票也划分为两种,一种是“老鼠仓”账户和基金持有多支相同的股票,一种是“老鼠仓”账户仅持有和基金相同的一支股票(即单支股票上“老鼠仓”与某个基金有多次相似的买进卖出)。ii. 交易模式特异性 第一类账户总是有类似交易成本,交易发生的时间基本一致,获利
18、也基本类似; 第二类账户一般是在基金进入之前买入,在基金卖出前提前卖出,他们通常具有一定的时间差。iii. 混合特异性证券市场操纵行为分析Easy to Use 四、面向大数据的证券市场操纵行为发现模型和方法研究一些传统的聚类算法,如K-Means,指派所有的对象到簇中,对异常敏感。虽然基于密度的聚类算法,例如DBSCAN,能够将大部分数据划分到多个密度区域,但需要过多的参数 使用不同的参数值,得到不同的聚类结果。并且找到合适的参数值是相当困难的。层次聚类,例如单连接算法,可以使用一个阈值提前终止聚类以获得期望的对象数。然而由于涉及对象对的相似度计算而高时间复杂度。TOP k 簇挖掘, k 不
19、能决定最后结果对象的数量,可能得到大量的点形成的k 个簇。证券市场操纵行为分析Bregman Bubble Clustering (BBC) 算法与我们有类似的motivation,但其缺点是还需指定簇的数量,这也是困难的。证券市场操纵行为分析证券市场操纵行为分析our method (Gupta and Ghosh 2008)one stateof-the-art clustering algorithm (Bohm et al. 2010)density-based clustering algorithms 对内服务对外服务云计算平台基础设备应用/服务云资源数据仓库监察系统期权交易ERP
20、BPM量化交易应用服务支撑平台数据服务支撑平台IAAS虚拟化资源池分布式内存数据库分布式Non SQL数据库分布式海量数据仓库领域本体/元数据/知识库分布式计算支撑平台门户集成、用户认证、工作流、证券交易、结算清算、接入服务、运营服务实时流数据分析、大数据挖掘文本挖掘、可视化任务调度、状态监控、故障诊断、动态管理、Hadoop数据平台DAASPAASSAAS数字集群G/C网LTE网WLAN/WiMAX高速网络LAN/PSTN/Cable网关无线网网关分布式关系数据库市场回放行情分析证券市场操纵行为分析云平台数据节点券商中小投资者市场回放云平台应用云平台管理系统证券云网络服务接口大规模并行处理特
21、征优化双向存储数据压缩查看市场回放数据机构投资者EzTable大数据实时分析数据库,采用MPP(大规模并行处理),Dual Storage(行存和列存都支持)等技术,使大数据能够得到快速处理和分析。证券市场操纵行为分析环境:10台PC服务器(4个CPU/128G内存/500G-1.5T硬盘)2个Master节点,8个DataNode节点数据(805亿条记录,9.2T数据量):成交数据表:一条记录45字节,共708.4亿条记录,原始大小6.44T行情数据表:一条记录196字节,共96.7亿条记录,原始大小2.82T测试命令单次(ms)500并发请求(ms)1)取某证券代码的一天交易流水数据182
22、8642) 对证券代码的一天成交流水数据进行TOP N查询1417563)对某证券代码的一天交易数据进行加权平均汇总(在某个颗粒度下)2741923证券市场操纵行为分析五、核心操纵者挖掘算法设计与实现证券市场操纵行为分析证券市场操纵行为分析证券市场操纵行为分析总结和拓展关键科学问题1)大数据驱动的市场操纵行为监管与决策范式转变机理与理论2)证券市场操纵行为发现的大数据金融行为学模型构建与分析创新点首个开展面向证券市场操纵行为监管的大数据特异群组挖掘方法研究的前沿科研课题。特色和创新之处如下:1)从大数据视角研究证券市场操纵行为监管2)证券市场操纵行为发现的大数据技术研究3)面向证券市场操纵行为的大数据特异群组挖掘体系框架首次提出了面向证券市场操纵行为的大数据特异群组挖掘框架,包括新型的证券交易行为数据模型;基于持仓特异性、交易模式特异性、及混合特异性的证券市场特异群组挖掘算法;面向大数据的特异群组挖掘优化技术等等,也是关于特异群组挖掘问题研究的拓展和领域深化,具有理论意义。拓展DataologyData Experiment数据学 数据学DatanatureData Farming数据界 数据界 数据界Big DataMIS、BI、Semantic ModelData Mining所有的科学正变成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大版道德与法治七年级下册9.1《我们身边的法律》听课评课记录
- 湘教版数学九年级下册听评课记录:2.3 垂径定理
- 小学二年级上册数学口算练习题人教版新课标
- 小学二年级人教版口算及竖式计算寒假练习A4排版
- 小学二年级加减乘法口算练习题
- 苏教版小学二年级数学上册口算题卡
- 超市连锁加盟合同范本
- 储藏室租赁合同范本
- 汽车二级经销商合作协议书范本
- 二零二五年度美容学员美容行业技能提升培训协议
- 高标准农田施工组织设计(全)
- 宿舍、办公楼消防应急预案
- 细胞全能性的课件资料
- 职业安全健康工作总结(2篇)
- 14S501-1 球墨铸铁单层井盖及踏步施工
- YB 4022-1991耐火泥浆荷重软化温度试验方法(示差-升温法)
- 水土保持方案中沉沙池的布设技术
- 安全生产技术规范 第25部分:城镇天然气经营企业DB50-T 867.25-2021
- 现代企业管理 (全套完整课件)
- 走进本土项目化设计-读《PBL项目化学习设计》有感
- 高中语文日积月累23
评论
0/150
提交评论