




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据搜索与挖掘:知著-见微-晓意
BigDataSearchandMing:macro-modeling
,micro-viewandsemantics从棱镜手机监控看大数据下的隐私…杨达才启示:大数据时代无隐私大数据:荣光也将不堪回首纲要IIIIIIIV大数据时代背景与特征NLPIR大数据搜索挖掘平台
NLPIR大数据挖掘案例分享大数据搜索挖掘大数据搜索挖掘应对之道什么是大数据Wiki:Bigdata
isthetermforacollectionof
datasets
solargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.
维克托《大数据时代》:大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。什么是大数据我们的见解:大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识,转化为智慧的方法学。是一场新的科技革命,也是思想方法的革命。(全量分析,让数据说话;承认并客观地认识世界的混杂性;相关性挖掘替代因果推断)大数据时代的特征美国国家战略:大数据,大事业!Facebook上线不足8年,已拥有超过9亿的用户,是第三大“人口国”Facebook:9亿Twitter:5亿腾讯微博:3.3亿新浪微博:3亿网络大数据应用的迅猛发展网络大数据应用的迅猛发展纲要IIIIIIIV大数据时代背景与特征NLPIR大数据搜索挖掘平台
NLPIR大数据挖掘案例分享大数据搜索挖掘大数据搜索挖掘应对之道大数据应对之道:知著、见微、晓意见微晓意知著小小小小小小小小小小小小小小小小小小小不“晓意”的尴尬不“晓意”的尴尬WhowasChinesePresidentin2012?Hu.Who?WhoisChinesePresident?Xi.She?HuJintaoXiJinping机器理解自然语言?我们做鸡对了。我们就是做鸡的.我们行使了鸡的权利.右面的鸡才是最好的我们只做鸡的右侧.我们公正的做鸡!我们的材料是正宗的鸡肉.右面的鸡才是最好的我们一定要把鸡打成右派!!!我们只做右撇子鸡(要吃左撇子鸡请去麦当劳)客观世界->思维->自然语言衰减效应:思维最多只能反映80%的客观世界;自然语言只能反映80%的思维:词不达意,答非所问;听众最多只能听懂80%;听懂的部分只有80%能反映到思维中;分析客观世界的最多只能利用80%。什么是数据挖掘从大型数据库中提取有趣的(非平凡的、蕴含的、先前未知的并且潜在有用的)信息或模式数据挖掘的分类结构化数据挖掘;文本数据挖掘(新闻、微博、评论、报告)Web挖掘DNA数据分析数据挖掘的商业应用市场分析和管理风险分析和管理欺骗检测和管理舆情分析和管理数据挖掘基本概念数据挖掘的市场分析应用客户订单数据会员卡用户数据客户服务数据信用卡交易数据市场调研数据顾客细分(分类、聚类)根据用户特征(身份、兴趣、收入水平)和消费行为进行分类或聚类。潜在客户发掘和流失预警(分类)对流失客户和新客户的特征进行监督学习,得到发掘或预警模型。识别顾客需求(分类、推荐)根据用户特征和消费行为预测用户喜好。交叉销售分析(关联规则挖掘)根据大量订单数据发掘产品之间的促进或抑制关系。TargetMarketing客户开发客户挽留个性化产品推荐关联营销策略数据源数据挖掘决策支持大数据更大意义上是非结构化内容理解纲要IIIIIIIV大数据时代背景与特征NLPIR大数据搜索挖掘平台
NLPIR大数据挖掘案例分享大数据搜索挖掘大数据搜索挖掘应对之道搜索基本功能:多字段关联搜索、指定字段排序、精确搜索与模糊搜索搜索特色功能:内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;内嵌了ICTCLAS智能分词系统;数据库实时同步:数据库增删改10秒内即可同步到搜索;搜索维护功能:单点故障容错;支持增量索引;自动备份与恢复机制;自动缓存机制;自动优化机制;搜索屏蔽与恢复;JZSearch大数据精准搜索JZSearch内部语法示例[FIELD]*[NEAR]尚福林##负面JZSearch##12[FIELD]price[RANG]1.09.0[FIELD]name[AND]牛奶儿童[FIELD]name[PREF]张姓名字段name必须以“张”作为前缀开头[FIELD]id[PREC]123字段id必须以“123”精准匹配,如“1234”或者“0123”均不作为匹配结果;[field]content[complex]统计局||中国统计局||CPI骗人||砖家10要求content字段内,同时出现{统计局||中国统计局||CPI}{骗人||砖家},且两者之间的距离必须在10个词内。ICTCLASIndexerSearcherAdapterindex1docindex2indexnManager….
MySQL
SQLServer/OracleHbase/MongoDBusersadminMergeReloadSaaSAPIappsDeleteStat.deleteddeletedEditSimDictLexiconJZSearch
BigDataSearchEngineArchitecture搜索结果自动分组统计我们的工作:JZSearch精准搜索引擎我们的工作:JZSearch精准搜索引擎我们的工作:JZSearch精准搜索引擎NLPIR大数据搜索与挖掘技术开发平台NLPIR网络搜索与挖掘共享开发平台,针对语言信息内容处理的全技术链条的共享开发平台。12年专业研究与工程积累,提供应用软件及各平台下的二次开发包,非商用永久免费。下载。核心功能包括:搜索类:全文精准检索;语言类:新词发现,分词标注,统计分析与术语翻译;关键词提取;文档类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析NLPIR大数据搜索与挖掘技术开发平台NLPIR之关键词提取关键语义标引的交叉熵原理
文本聚类:发现热门事件NLPIR之大数据聚类A片的识别-世博A片区内,人们欢声雷动;台湾国的过滤-台湾国语歌曲NLPIR之大数据过滤分类纲要IIIIIIIV大数据时代背景与特征NLPIR大数据搜索挖掘平台
NLPIR大数据挖掘案例分享大数据搜索挖掘大数据搜索挖掘应对之道数据挖掘主要方法概念描述:特征和区分概化,汇总,和比较数据特征,例如,干燥和潮湿的地区关联
(相关和因果关系)多维和单维关联age(X,“20..29”)^income(X,“20..29K”)
buys(X,“PC”) [support=2%,confidence=60%]contains(T,“computer”)
contains(T,“software”) [support=1%,confidence=75%]分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据消费行为特征对客户分类,或根据单位里程的耗油量对汽车分类表示:决策树(decision-tree),分类规则,神经网络预测:预测某些未知或遗漏的属性值数据挖掘主要方法聚类分析无监督学习方法类标号(Classlabel)未知:对数据分组,形成新的类。例如,新闻自动聚类、客户细分。聚类原则:最大化类内的相似性,最小化类间的相似性孤立点(Outlier)分析孤立点:一个数据对象,它与数据的一般行为不一致孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的趋势和演变分析趋势和偏离:回归分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或统计的分析关联规则挖掘关联分析就是发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。动机:发现数据中蕴含的内在规律那些产品经常被一起购买?买了PC之后接着都会买些什么?不同症状之间的并发关系DNA序列的内部联系应用购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等关联挖掘类型根据规则处理的值的类型,分为布尔的和量化的。根据规则中数据的维,分为单维和多维的。根据规则涉及的抽象层,分为单层和多层的。关联规则挖掘采用LOGIT回归模型对新入网用户在4个月内流失进行预警分类预测案例:客户流失预警模型基本情况语音通话情况数据业务使用情况品牌ARPU余额套餐名称…本地通话次数长途通话次数漫游通话次数…数据业务费用数据业务消费占比数据业务使用种类数…3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月3月4月5月6月7月8月9月10月11月建模时间窗口测试时间窗口入网月份取数月份流失月份流失观察月份建模变量客户流失预警模型所有的数据经过对数变换和标准化变换,消除不同变量和不同月份对模型的影响模型的结果为对数流失风险比的线性拟合表达式,应用模型时输入为用户当前在建模变量上的值,输出为用户的流失概率
下图展示了建模变量的重要性(调整后的实际建模变量)余额通话次数套餐名称本地被叫次数欠费金额本地主叫次数网内通话对端数网外通话对端数彩铃订购标志通话时长大于5分钟标志多次充值标志欠费标志ARPU大于0标志长途通话次数漫游通话次数新业务费通话标志包打套餐标志手机报费用本地主叫通话标志拨打10086次数重入网标志客户流失预警模型用户集:09年07月入网、08月仍然正常的用户;模型筛选用户:通过模型筛选出的用户集中20%的用户,其中,
包含了用户集中52.2%的9月流失用户;模型筛选用户9月、10月和11月的流失率(模型准确率)分别为16%、34%和48%,比用户集中用户的流失率(不使用模型筛选的准确率)提升度分别为2.4、2.5和3.2倍。52.2%*提升度=模型筛选用户流失率/用户集中用户流失率聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类是一种无指导的学习:没有预定义的类编号。聚类(簇):数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异聚类算法的选择取决于数据类型,主要包括:划分方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法聚类分析的应用模式识别、空间数据分析(主题地图、空间聚类)按客户特征、消费行为聚类,实现客户细分。Web日志聚类,发现用户行为模式.Web新闻、博客等文档内容,实现主题挖掘。聚类分析聚类案例:用户细分模型根据用户基础数据和消费行为数据采用TwoStep聚类法对用户进行细分聚类数据集为2009年1-9月新增用户入网后第二个月,且第二月状态正常的用户的基础数据和消费行为数据使用细分矩阵,按照语音消费行为和数据业务消费行为两次聚类的方法分别聚类,多维聚类的方法较传统单维聚类方法,聚类后的用户细分特征更明显本地通话次数长途通话次数计费通话时长漫游通话次数ARPU低端中低端长途突出本地突出漫游突出商务GPRS流量新业务费新业务使用种类数彩信条数短信条数新业务费占比使用少占比高兴趣短信突出上网突出发烧友大数据挖掘:解读十八届三中全会词频统计:制度156;完善113;改革103;机制99;社会95;健全92;体制85;管理70;体系68;市场56;建设54;文化54;经济54;企业45;发展43;国家43;服务41;政府41;发展40;保障39;国有36;改革35;资本34;人民33;党33;资源31;干部30;政策30;领导29;创新28;监督27;形成27;实行26;地方26;机构26;依法25;经营24;行政24;中央24;保护23;监管23;基层23;教育22;关系22;安全22;协商21大数据挖掘:解读十八届三中全会大数据挖掘:解读十八届三中全会关键语义:中国特色社会主义15.77;社会组织11.81;领导干部11.38;事业单位10.19;行政执法9.81;非公有制经济9.34;转移支付9.3;资源配置8.79;混合所有制经济8.74;宏观调控8.58;高校毕业生8.21;自然资源资产8.05;社会主义市场经济体制7.91;税收优惠政策7.91;高校毕业生就业7.91;生态文明制度7.91;一般性转移支付7.91;收入分配7.73;中国特色7.69;保险制度7.59;基础设施7.5;所有制经济7.32;发展7.25;社会7.22;企事业单位7.06;管理6.84;文化6.82;生态文明6.79;社会主义市场经济6.73;优惠政策6.73;承包经营权6.66;特许经营6.66;经济6.62;政府6.61;制度6.6;推进6.58;市场6.57;创新6.49;大数据挖掘:政治报告解读美国2011.01.25奥巴马总统国情咨文演说我们87;我20;美国18;人14;人民12;国家11;努力10;新10;协议8;能够7;阿富汗7;开始7;已经6;必须5;今晚5;世界5;就业5;公司5;政府5;组织5;力量4;成功4;国会4;全球4;未来4;我国4;要求4;大数据挖掘:政治报告解读2008.5.20台湾地区领导人马英九就职演说
我们55;台湾47;民主21;两岸15;国际13;人民12;全球11;社会11;中华民国9;政治9;一定8;关系8;和平8;未来7;历史7;经济7;英九7;共同6;发展6;协商5;宪政5;国家5;价值5;政府5;大陆5;核心4大数据挖掘:台湾政治生态解读2012马英九就职演说我们80;台湾42;两岸21;国际19;经济19;文化18;产业16;未来14;社会13;中华民国12;发展12;民主11;人民11;国家10;自由10;成长10;竞争力9;和平9;政府8;人才8;关系8;人8;创造8;开放8;安全7;我国7;推动7;环境7;机会7;司法7;支柱7;幸福7;合作7;大陆6;宪法6;全球6;政策6;世界6;公民6;改革6;投资6;民众6;价值6;大数据挖掘:甄嬛体?汪峰体?天气公报的自动生成51大数据时代无隐私缔元信为国内主流的门户网站提供网络统计服务,每日新增数据500G,采用我们的大数据挖掘技术,提供商情精准营销增值服务。大数据时代无隐私!华为大数据挖掘作为华为大数据搜索与挖掘的战略合作伙伴,全面提供采集、搜索与挖掘技术组件产品,已经应用于华为手机。不同类型用户的影响力分析数值加V非V男女男V女V平均粉丝512.236965.11337.23600.75440.427887.365833.1平均微博774.921435.41704.89685.26854.061202.991524.11平均关注176.66342.19171.08181.32172.41362.67313
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老酒拍卖合同范本
- 收购土地合同范本
- 法律服务居间合作协议样本
- 保险行业销售居间合同模板
- 版权法在媒体行业的应用与报告制作技巧
- 2025-2030年中国牙胶尖市场运营状况及发展趋势分析报告
- 2025-2030年中国烟草制品行业市场运行动态与发展战略分析报告
- 2025-2030年中国滤网行业发展状况及营销战略研究报告
- 知识付费时代下的高效内容运营策略
- 2025-2030年中国汽车机油泵行业运行趋势及投资战略研究报告
- 2024-2025年第二学期学校教导处工作计划(二)
- 2025年苏州卫生职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 二零二五年度博物馆场地租赁与文物保护合作协议3篇
- 2025年春新人教版历史七年级下册全册课件
- 2024年钟山职业技术学院高职单招语文历年参考题库含答案解析
- 骆驼祥子-(一)-剧本
- 魏晋南北朝时期中外文化的交流
- 渔业行业智能化海洋牧场养殖方案
- 《工程勘察设计收费标准》(2002年修订本)
- 《债权法教学》课件
- 太傻天书(完整版)
评论
0/150
提交评论