版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据科学:从数据中洞见真知Raw
DataInsightsInsight
Questions
与19世纪初相比,当今世界国家之间发展是否更不均衡?……回顾:Hans
Rosling"s
200
Countries,200
Years,4
MinutesRaw
DataYear
Country
Income
Lifespan2000
China
$3,800…
…
…73…数据科学的工作流程循环迭代式的工作流程先提出问题,再收集与分析相关的数据先收集数据,再分析可以回答哪些问题数据科学的工作流程三个基本任务获取原始数据准备待分析数据
针对特定问题进行数据分析主要内容数据采集数据准备数据分析特征标签…………1…………0数据采集待分析数据数据分析数据准备数据科学的工作流程数据科学与烹饪买菜洗菜备菜炒菜数据准备本讲重点:数据采集+数据准备给分析算法更优质的数据数据采集数据分析提纲数据准备与数据分析数据采集数据准备数据分析数据的种类繁多Variety:数据的种类繁多数组、矩阵键值对实体-关系表时序数据、流数据图数据文本数据多媒体数据…数组与矩阵用户数据项同类型,可以利用下标访问–例子:NumPy的多维数组(ndarray)例子:推荐系统中的user-item矩阵商品评分两个用户对三个商品打分:1u
1
(5);
3
(2)u2
2
(3);
3
(5)请用NumPy构造矩阵A.
mat
=np.array(
[[5,0,2],[0,3,5]B.
mat
=np.array(
[[5,np.nan,2],[nnan,3,5]])关系数据(Relational
Data)列columns行rows简单的关系数据:单表数据行:表示一条记录(Record)列:表示一个属性(Attribute)使用pandas表示单表数据关系数据(Relational
Data)关系数据库:将数据表示为做个彼此可关联的表格ER模型组织数据表格、属性、主外键文本数据自然语言是人们交流信息最为自然的表达方式互联网网页、论坛评论等企业文档聊天记录·缺少结构支持,给文本分析处理带来巨大挑战理解词语、实体、句子、关系等自然语言的语义鸿沟图数据顶点一般表示实体或者属性值顶点之间的边表示被连接的两个顶点间的关系实例–社交网络–知识图谱教练创始人请你预言该俱乐部在不就的将来会:分裂为两个俱乐部团结在创始人的周围图数据:直观地理解群体的行为例:美国高中生恋爱关系图(边代表二人在18个月内恋爱过)图片来源:[Bearman
et
al.,American
Journal
of
Sociology,2004]时序数据
随时间不断变化或累计的数据每个数据项有时间戳
关注一段时间内的数据值变化、关注异常值新的数据价值更高多用于监控传感等场景键值对
键值对灵活定义属性,每行可以有多个不同的属性–例子,用户画像通过键直接访问值
简单的如Hashtable,Map等数据结构多媒体数据图像、视频、音频等多种媒体类型的混合更关注语义处理复杂,计算代价高数据量相对更大在自媒体应用中普遍存在大数据-多模态数据并存以关系数据为代表的结构化数据数据量占比低于20%数据价值相对高以文本为代表的非结构化数据数据量占比高于80%数据价值相对低需要融合结构化数据和非结构化数据信息抽取实体链指与数据融合从文本数据中抽取结构化信息从非结构化数据中提取强语义的信息:For
years,
Microsoft
Corporation
CEO
Bill
Gates
was
against
opensource.
But
today
heappears
to
havechanged
his
mind.
"Wecan
be
open
source.
Welove
the
concept
ofshared
source,"
said
Bill
Veghte,
a
Microsoft
VP."That"s
a
super-important
shift
for
us
interms
of
codeaccess.“Richard
Stallman,founder
of
the
Free
Software
Foundation,countered
saying…Bill
GatesBill
VeghteCEO
MicrosoftVP
MicrosoftRichard
Stallman
Founder
Free
Soft..PEOPLEName
Title
OrganizationSelect
NameFrom
PEOPLEWhere
Organization=
‘Microsoft’Bill
GatesBill
Veghte25从文本中抽取信息示例:肺炎患者求助超话XYZX栋Y单元Z楼1397xxx60271341xxx1935转发!!!【所在小区、社区】汉阳区麒麟路麒麟社区\n求助!请使用Python的re库抽取属性名和取值,粘贴到讨论对话框中从文本中抽取信息示例:肺炎患者求助超话XYZX栋Y单元Z楼1397xxx60271341xxx1935数据采集案例考虑一个场景:请你基于数据分析原因你要采集哪些数据来支撑你的分析?数据采集:Where
to
Collect你要采集哪些数据来支撑你的分析?内部数据产品数据库(关系数据)例如:iPhone不同型号,及在不同销售地的定价系统日志(文本数据)例如:用户在苹果官网搜索、购买iPhone及其周边的历史文档数据(Word,Excel,PDF,CSV)例如:销售渠道汇总来的表格数据多媒体数据(视频、音频、图片)数据采集:Where
to
Collect你要采集哪些数据来支撑你的分析?外部数据–网页数据数据采集:Where
to
Collect你要采集哪些数据来支撑你的分析?外部数据网页数据Web
API数据采集:Where
to
Collect你要采集哪些数据来支撑你的分析?外部数据网页数据Web
API开放数据(Open
Data)数据采集:Where
to
Collect你要采集哪些数据来支撑你的分析?外部数据网页数据Web
API开放数据(Open
Data)知识图谱(DBpedia)数据的分类结构化数据数据非结构化数据半结构化数据非结构化数据结构化数据半结构化数据数据采集:How
to
Collect按数据源类型进行分类来自CSV文件来自JSON文件来自网页Web
Pages来自关系数据库(如MySQL)来自HDFS来自Web
API来自Open
Data网站了解掌握从CSV文件读取数据扩展阅读:/pandas-read-csv/
CSV的全称是Comma-separated
values,是一种用逗号分隔的方式来表示与存储表格数据的文件格式技能包使用Python
Pandas读取CSV文件/pandas-docs/stable/reference/api/pandas.read_json.html从JSON文件读取数据阅读:/pandas-docs/stable/reference/api/pandas.readJSON是一种存储嵌套数据的文件格式(类似Python中的List,Dict)技能包使用Python
Pandas读取JSON文件从网页获取数据访问网页urllib2
(/2/library/urllib2.html)request
(http://docs.python-/en/master/)从网页获取数据解析网页(Parsing)正则表达式解析
re
Beautiful
Soup(/software/BeautifulSoup/)lxml
(http://lxml.de/)从网页获取数据解析网页(Parsing)正则表达式解析
re
Beautiful
Soup(/software/BeautifulSoup/)lxml
(http://lxml.de/)阅读https://www.pythoncentral.io/python-beautiful-soup-example-yahoo-financ从网页获取数据网页数据获取套装Scrapy
(/)网页数据获取经验谈劳动力密集型:网页“千站千面”横看成岭侧成峰,远近高低各不同不识庐山真面目,边吐老血边coding阅读/blog/2017/07/web-scraping-in-python-usi从关系数据库获取数据以MySQL数据库为例创建连接写SQL语句执行SQL语句解析结果/doc/connector-
python/en/connector-python-examples.htmlRecap:不同类型的数据与数据模型人们如何理解与表达数据计算机如何存储与处理数据数据模型三要素
数据结构:储存在数据库中对象类型的集合,作用是描述数据库组成对象以及对象之间的联系
数据操作:指对数据库中各种对象实例允许执行的操作的集合,包括操作及其相关的操作规则
数据完整性约束条件:指在给定的数据模型中,数据及其联系所遵守的一组通用的完整性规则,它能保证数据的正确性和一致性提纲数据准备与数据分析数据模型数据准备数据分析数据准备的基本步骤数据准备的定位数据离散化数据清洗数据集成数据转换数据选择为什么要做数据清洗与集成?现实世界中,数据通常是脏的
Garbage
In,
Garbage
Out–数据存在错误和不一致为什么要做数据清洗与集成?Garbage
In,
Garbage
Out现实世界中,数据通常是脏的数据存在错误和不一致数据存在缺失(Missing)[Gill
et
al;
Univ
of
Oxford
20为什么要做数据清洗与集成?现实世界中,数据通常是脏的
Garbage
In,
Garbage
Out数据存在错误和不一致数据存在缺失(Missing)名称/属性的二义性人大MichaelJordan数据清洗与集成的主要任务将文本拆分成不同的属性(Fields) 解决分隔符问题例:教师列表
Ju
Fan:Associate
Prof.,Computer
Science
|
35补充缺失的数据例:如果Ju
Fan的年龄信息缺失,应该如何填充呢?平均值填充、用最近似教师年龄、贝叶斯估计同一实体不同表示的识别例:iPhone
2
vs
iPhone
2nd
generation格式转换问题日期的表示:20190329,03/29/2019,29/03/2019异常值检测例:Salary=-10;Age=222请写Python代码帮助范老师进行文本拆分,输出一个字符串数组数据清洗与集成的主要任务将文本拆分成不同的属性(Fields)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《电容触摸屏TP简介》课件
- 冠状动脉闭塞病变介入治疗
- 中心供氧的应急预案
- 《光伏电池板与系统》课件
- 因式分解活动课
- 《通货膨胀和失业》课件
- 数学学案:课堂导学集合的运算第课时补集
- 《生物公司运营分析》课件
- 混泥土搅拌车咕噜咕噜
- 六年级上册英语重难点复习学案基础练语音练拓展练-Unit8ChineseNewYear译林三起含答案
- 外研版小学英语(三起点)六年级上册期末测试题及答案(共3套)
- 氧气吸入操作评分标准(中心供氧)
- 24秋国家开放大学《计算机系统与维护》实验1-13参考答案
- 2024仁爱版初中英语单词表(七-九年级)中考复习必背
- 2024届高三英语二轮复习:读后续写 告别鹦鹉 讲义素材
- MSA-GRR数据自动生成工具(已经解密)
- 《教师专业发展》课件
- 工程勘察设计收费标准快速计算表(EXCEL)
- 光荣升旗手PPT课件
- 如何做好职工思想政治工作图文.ppt
- 近年国内电梯事故案例介绍
评论
0/150
提交评论