




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内涵和特征计算广告的ConnotationandCharacteristics第一章目录基本内涵BASICCONNOTATION发展脉络DEVELOPMENTCONTENT本质特征ESSENTIALCHARACTERISTICS01基本内涵广告形态数字化广告的数字化就是把连续变化的广告信息(如图画的线条、声音信号等)转化为一串离散的单元,在计算机中用二进制数字数和和表示。用户行为数据化在线化网民在网上的各种行为都以数据的形式被记录下来,这就是所谓的数字足迹。此外,移动互联网时代的到来使用户更倾向于实时在线,广告平台可以通过持续收集用户数据来了解他们。。计算思维社会化计算思维就是通过算法的设计和实施来解决某一领域复杂问题的思维方式和自觉意识。营销数据资产化大数据是指人类通过数据挖掘工具而获取的完整的、动态的、实时的数据流,它具有大容量、多种类、高速处理、结构复杂等特点。计算工具智能化机器学习研究机器如何模拟或实现人类的学习行为,以获取新的知识或技能,并学习如何做出预测和建议,它是人工智能的核心,是使机器获取智能的根本途径。产生背景以技术为基础计算广告的一切数据均由数据技术与智能算法进行处理与优化,广告全链路均涉及广泛的数据处理与算法运用,算法赋予了计算广告“智能”的基因。以数据为核心计算广告强调的是大数据驱动的广告理念。随着大数据技术的普及和发展,“大数据大广告”改变了传统模式,广告步入数据化的计算广告时代。以场景覆盖与交互体验为关键环节计算广告在广告投放过程中选择合适的场景、提供具有吸引力和交互性的广告内容。通过这种方式,广告主可以更好地实现广告的目标,提高用户参与度和营销效果。基本定义01020304计算广告消费者洞察是利用计算机技术和数据挖掘方法,对消费者的兴趣、需求、行为等信息进行深入挖掘和分析,获取消费者的个性化需求和群体性特征,从而为计算广告的精准投放提供用户数据和定向依据。计算广告创意生产是利用计算机科学、统计学、人工智能等技术手段,对广告文本、图像、视频等素材进行分析和处理,自动生成广告创意内容,在保证广告效果和用户体验质量的前提下提高广告创意生产效率。计算广告竞价交易是一种自动化的广告交易方式,广告主向广告系统提交竞价信息,广告系统根据一系列的规则和算法,选择oCPX最高的广告进行展示,同时广告主按照竞价金额支付广告费用。计算广告效果反馈主要包括监测评估和优化应对两个方面,主要通过数据处理技术可以对采集的广告效果原始数据进行清洗、管理、存储以及数据的模型化和结构化,将不完整、不规则、非结构化的原始数据进行去重、补全、纠错,形成统一的数据源,并对其进行分析统计、并行计算和机器学习,完成对广告效果数据的监测、评估和优化。运作流程消费者洞察创意生产交易投放效果反馈02发展脉络数据、算法、算力竞价广告优势竞价广告运用竞价广告监测精确定位目标受众、实时竞争广告展示位置、灵活控制广告投放预算腾讯、谷歌、百度……电话或在线询盘监测、目标转化监测、用户行为监测、竞争对手监测、异常流量监测竞价发展程序化发展程序化发展人工智能广告的技术基础是大数据,具有规模海量、流转快速、类型多样以及价值密度低等特征。技术基础基于智能生成技术实现广告内容创作的人机耦合、基于特征建模技术实现广告内容的精准投放、基于深度学习技术建立双向互动的反馈机制。应用场景人工智能广告的最终目的是促进品牌与消费者之间的价值共创,在准确预判消费者个性化需求的基础上,推送基于消费者个性的定制内容。最终目的智能化发展智能化发展03本质特征传统广告的信息包含在事先制作好的作品中,受众的甄别和选择只能通过媒体的不同、版面或频道的区别等方式来实现。计算广告依托的基础是各类数据和算法模型,因此广告信息和用户的连接是通过“匹配”的方式来实现的。精准匹配传统的广告效果监测是一种事后监测,广告主从广告代理公司或第三方调查公司获取广告效果,缺乏即时的效果反馈与灵活的应对措施,广告效果具有延迟性、间接性、累积性;而基于海量数据的动态效果监测可以预估广告转化价值和计算媒介渠道价值效果可测计算广告与传统广告的最大区别正是其“计算”本质。计算广告的计算体现为全流程的计算、全角色的计算,计算和优化都是实时的。实时计算、实时优化:大数据+大规模计算+复杂模型+高效算法是对计算实时性的高度概括。实时互动与品效合一不同,品效协同更注重效果实现和品牌传播产生的长线协同效应,而非仅注重某一次营销活动立竿见影的影响。品效协同是广告数据互通、广告技术融通和广告价值共赢三要素共同发挥作用的结果,缺少任何要素,都不能实现品效协同的效果。品效协同本质特征本质特征内涵和特征计算广告的ConnotationandCharacteristics数据革命计算广告与DataRevolution第二章目录时代性特征CHARACTERISTICSOFTHETIMES颠覆性变革DISRUPTIVECHANGE社会性困境SOCIALDILEMMA01时代特征大数据相关技术概念得到一定程度的传播,但没有得到实质性发展萌芽期大数据是指人类通过数据挖掘工具而获取的完整的、动态的、实时的数据流,具有大容量、多种类、高速处理、结构复杂等特点伴随着互联网数据爆发式增长,大数据市场迅速成长,大数据技术逐渐被大众熟悉和使用成长期大数据迎来了发展的高潮,包括我国在内的世界各个国家纷纷布局大数据战略爆发期大数据应用渗透到各行各业,价值不断凸显,数据驱动决策水平和社会智能化程度大幅提高,大数据产业迎来快速发展和大规模应用实施大规模应用期大数据大数据数据库与数据仓库数据库是一个有组织的数据集合,用于存储和管理相关数据。数据仓库是一个用于集成、存储和分析各种来源的数据的大型数据存储系统,提供跨库一致的、易于访问的数据视图。数据平台数据采集和收集、数据存储和管理、数据清洗和预处理、数据分析和挖掘、数据查询和检索、数据可视化和报告、数据安全和权限管理。数据湖与湖仓一体数据湖可以把非结构化和结构化数据共同存储并进行处理,湖仓一体是一种新型开放式架构,可以将数据湖和数据仓库的优势充分结合。底层架构商业化数据收集和分析能力、目标受众定位的精确性、实时竞价和个性化广告投放、数据驱动的优化和迭代自动化计算广告从用户行为数据收集,到受众定向,再到线上根据用户标签自动决策,整个过程都是自动进行的。系统化系统化的数据整合和分析提供了深入了解用户行为和偏好的洞察力,用以制定广告创意和定向策略;系统化的效果追踪和数据反馈能够实时监测广告指标,并进行优化和调整。计算广告02颠覆变革全样思维侧重数据收集的整体性,追求全体数据而不是随机的抽样的数据,进而实现对事物的全面、动态、及时的数据呈现。全样思维大数据时代具有“秒级响应”的特征,在大数据应用场景当中,效率是重点,分析结果的精确度只要达到一定程度即可,不必一味苛求更高的准确率。效率思维在大数据时代,数据中包含的信息可以帮助消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助人们得到想要知道的答案。相关思维广告思维更新大数据时代,通过数据的追踪定位与分析、筛选等手段,广告主可以最大程度地了解受众的需求与动机,对受众推送的信息及商品在很大程度上能满足受众需求。最大化的受众价值大数据环境下的市场信息追踪的正是针对消费者的可变性和动态性调整和更换推送信息,从而实现千人千面的个性化精准传播。个性化的精准传播大数据实时监测提升了广告预测与评估的速度、效度与精度,可针对不同消费者的不同需求或者同一消费者在不同时空场景下的不同需求展示最合适的广告信息。实时化的效果反馈广告价值重构数据BP运营机制数据BP机制在组织形式上属于可以统一管理调配的集中式,执行上分布到各个业务解决问题。这种组织方式既能够向上支撑不同类型的业务线,还能向下兼容数据平台底层的各项能力。个性化推荐与内容生产激励通过分析用户的兴趣和行为数据,字节跳动能够精准地为用户推荐符合其兴趣的内容和产品,提高用户粘性和使用体验。用户基础和数据资源字节跳动能够实时收集和分析用户在平台上的行为数据,从而了解用户兴趣、喜好和需求;还通过智能算法,对这些数据进行深入分析和挖掘,发现用户潜在的消费意愿和市场需求,为商业创新提供有力的支撑。广告投放与商业变现通过对用户的行为和兴趣数据进行分析,字节跳动建立起精准的用户画像和个性化推荐系统,成功地将广告投放与用户需求、用户体验紧密结合,实现了商业的可持续增长,为广告主和平台用户带来了双赢。商业奇迹开发利基市场推动个性化营销实现长尾效应大数据正在将大规模市场转换成无数的利基市场,利基广告通过与消费者进行一对一的沟通,个性定制并打造理想的顾客关系。数据革命使得企业能够收集和整合来自多个渠道和来源的大量数据企业也更重视对数据的深度挖掘和分析,发现隐藏在数据背后的模式、趋势和关联关系。通过大规模收集和分析用户行为、偏好和购买数据,企业可以获得大量细分市场的信息,揭示出长尾市场的潜在需求。营销法则优化03社会困境头部平台互联网头部平台掌握了接触、使用和授权他人使用用户数据的权力,占据了数据产业链的顶端位置,因此能获取最大部分的数据收益。三大运营商三大运营商掌握了大量底层真实数据,但它们在通信行业具有垄断地位,自身优势明显,在消费者方面存在保密协议,在管理方面也受到国家政策的严格限定,合作难度大。中小型数据主体相比头部互联网公司数据管理平台的数据资产,小公司的数据量小而垂直。这些数据虽有价值,但是小公司的数据呈碎片化分布,总量巨大却难以整合,导致中小型数据主体数据断层。HSDKTUOPMN数据交易市场的零和游戏导致了数据割据现象的产生,学界和业界将其产生的问题形象地命名为“数据孤岛”。数据孤岛形成的主要原因是:互联网头部平台依靠数据围墙获取垄断收益、三大运营商构筑数据流通的天然壕沟、中小型数据主体数据断层。构成“孤岛”的数据围墙全景监狱数据库的技术权力统治模式消解了私人空间与公共空间的界限,实现了对人全面的无时无刻的监视和规训。过度推测通过数据挖掘技术,人们可以从消费者数据中发现更多的隐含价值信息,同时可以消解个体对个人信息数据的控制能力,通过数据预测技术来窥探个体的“未来的隐私”。黑色交易由于数据所有权人同大数据占有者的分离,个人数据的删除权、存储权、使用权、知情权等本属于个人可以自主的权利,如今在很多情况下却难以保障。数据所有权人不但不占有数据,甚至接触、支配自己的数据财产也非常困难。HSDKTUOPMN大数据时代,数据作为人的第二“肉身”,时刻暴露在监视之下。无论是电子踪迹数据、物联网数据,还是以定位信息和通话记录为核心内容的移动通信数据,都包含大量个体消费者的信息。“透明世界”的数据伦理问题主要体现在大数据时代的全景监狱、过度推测和黑色交易等三个方面。“透明世界”的数据伦理自然缺陷LabeledFacesintheworld大多数是男性和白人;亚马逊招聘系统存在性别歧视;APP忽略老人反馈。算法偏见黑箱效应是对于特定的设备而言的,公众可以观察到信息的输入和输出,却无法观察到设备内部对于信息的处理过程。大数据算法的社会本质是一种权力,隐含着十分微妙且隐秘的社会偏见。人性隐喻数据收集和处理过程是无法窥探内部结构的黑箱,甚至许多算法研究者都无从对数据处理的方法进行全面的评估,也无从通过经验证据和理论框架对其中一些复杂的相互关系进行解释,于是大数据及算法的偏见往往是隐匿而不可知的。HSDKTUOPMN数据集本身往往更趋于展现主流群体,或数据易获取的群体,这就会导致数据集与客观现实具有偏差,从而引发偏见。隐含偏见的“数据黑箱”主要体现在数据本身的自然缺陷、数据分析的算法偏见和数据逻辑的人性隐喻等三个方面。隐含偏见的“数据黑箱”信息的个人日报化用户只关注自己选择的内容,置身于自己感到安慰和愉悦的传播世界,如同置身于蚕茧般作茧自缚。排异的算法推荐大数据时代的“信息茧房”,其本质就是基于大数据技术的算法推送最大限度地做到信息内容分发与用户自身固有偏好和需求相匹配,以最大限度地使用户屏蔽“异己信息”的干扰。社会黏性下降在由个性化推荐形成的一个个群体中,高度同质化的共性认同会削弱个体活跃的独立思考能力,从而减小个体与个体之间的差异性。而不同群体间感知方式、认知水平与群体价值观念的差异,则会使得群体之间的分歧日益严重。HSDKTUOPMN数据不仅成为衡量一切的标准,而且还从根本上决定了人的认知和选择范围,对人们思维和行动形成独裁霸权。“信息茧房”的数据独裁体现在网络信息个人日报催化信息茧房、“排斥异己”的算法推荐驯化用户、不断消逝的社会黏性与群体极化等三个方面。“信息茧房”的数据霸权数据革命计算广告与DataRevolution数据处理计算广告DataProcessing第三章目录数据采集DATACOLLECTION数据清洗DATACLEANING数据洞察与建模DATAINSIGHTANDMODELING01数据采集采集目标在数据采集之前,首先要确定本次广告活动想要达到的营销目标与广告效果,如了解消费者的需求转移路径,或者产品之间的关联性等。采集来源第一方数据是在广告主自有平台上产生和被采集的,所有权属于广告主的数据。第二方数据是在外部平台上产生和被采集的,所有权属于广告主的数据。第三方数据即在外部平台上产生和被采集的,所有权属于第三方的数据。采集系统计算广告数据种类较多,并且不同种类数据产生的方式与来源不同。据此,采集系统主要分为系统日志采集系统、网络数据采集系统和数据库采集系统等三种类型。数据库数据采集常见的三种采集方式是直连同步、数据文件同步和数据库日志解析同步。HSDKTUOPMN数据采集是通过传感器、社交网络、移动互联网等渠道获得各种类型的结构化、半结构化及非结构化的海量数据,以供后续数据开发和使用。广告采集的数据主要有四种类型:系统数据、指标数据、监控数据和性能数据。数据采集02数据清洗用户标识数据私有用户标识仅仅标识了用户的签约状态,不需要告知别人,用户也无须感知;公有用户标识包括UserID、Cookie、IDFA、IDFV、IMEI、AndroidID、MAC、OAID、OpenID、UnionID。人口属性数据人口属性是指人口所固有的性质和特点,包括生物属性和社会属性两个方面。生物属性是社会属性的自然条件;社会属性是人口区别于生物群体的根本标志。地理位置数据地理位置数据是指与地理空间或水平面上存在的物体或元素相关的信息。地理位置信息可以用于用户行为和生活状态分析。用户行为数据主要有转化、预转化、搜索广告点击、展示广告点击、搜索点击、搜索、分享、页面浏览、广告浏览。根据效果广告的有效性来划分,用户行为可以分为决策行为、主动行为、半主动行为和被动行为。社交关系数据在线社交网络是由互联网用户通过自组织方式构建组成的集合,是真实物理世界的社交关系在虚拟网络世界的一种映射,其本质是人与人之间的关系网络。包括双向确认的社交网络数据、单向关注的社交网络数据和基于社区的社交网络数据。数据分类数据标准化——不标准数据形式标准化主要解决数据的形式问题;数据同趋化处理解决不同性质的数据问题;数据无量纲化处理主要解决数据的可比性问题。异常数据过滤——不干净异常数据是指那些在数据集中存在的不合理的值。首先使用工具和数据分析来进行异常数据的排查,之后进行异常数据过滤,常用方法有七种:删除、视为缺失值、平均值修正、盖帽法、分箱法、回归插补、多重插补。数据ID打通——不整合ID打通也称为“同人”,即找到“人和设备”“设备和设备”之间的关联。ID打通常用的几个合规做法包括会员体系ID打通、IP同源ID打通、多场景ID适配。数据整理数据库技术数据模型管理常用的数据模型数据库技术是研究如何组织和存储数据,如何高效地获取和处理数据,是一种计算机辅助管理数据的方法。包括存储、查找、添加、修改、删除数据等功能。数据模型是现实世界在数据库中的抽象,也是数据库系统的核心和基础。数据模型通常包括数据结构、数据操作和数据完整性约束三个要素。数据库理论领域中最常见的数据模型主要有层次模型、网状模型和关系模型三种。数据管理03洞察建模数据洞察计算广告数据洞察针对广告投放后的数据报表及其分析,涵盖推广账号、推广计划、广告组、定向标签等多个层级的数据,并支持按日、按小时进行查询。基于“数据扩充”的数据洞察基于“数据扩充”的数据洞察法是根据广告主采集的的9直接采购外部供应商的现成标签用以数据洞察。数据分析和数据挖掘数据分析是通过SQL、Python、Excel等工具汇总数据,将数据转换为可理解可使用的信息。数据挖掘是通过建模来挖掘数据的内在关联,主要是通过机器学习从训练集中发现一定的规律,从而将数据转换为信息。基于“知识图谱”的数据洞察基于“知识图谱”的数据洞察法即通过“知识图谱”结构化数据,建立自定义标签用以数据洞察。常规的知识图谱有URL图谱、App图谱、Location图谱、互动行为图谱和产品分类图谱。数据洞察数据建模计算广告本质是一个流量售卖的过程,是广告主、媒体方和用户三方的博弈。广告主通过流量的购买最大化自己的投资回报率(ROI),媒体方通过流量的售卖进行充分“变现”,用户可以从广告中获取自己需要的信息。从交易方式来看,计算广告可以分为合约式广告和竞价广告两大类。合约式广告由广告代理公司和媒体签订协议,确保某些广告位在某时间段为指定的广告商所占有,同时广告商按整体合同支付广告费用,合约交易并不需要广告模型。
在竞价广告中,广告主针对曝光展示机会出价竞购,最后由流量方按照竞价规则(一价或者二价)将流量售卖给广告主。数据模型类型数据模型作用数据建模步骤概念数据模型是面向用户、面向现实世界的数据模型,通常是对实际的客观对象的简化描述。逻辑模型是指数据的逻辑结构。物理模型就是把逻辑模型的内容在具体的物理介质上实现出来。计算广告数据模型的作用是通过分析广告投放数据、用户行为数据和其他相关数据,预测广告的点击率、转化率等关键指标。数据建模的具体步骤分为选择数据模型、训练数据模型、评估数据模型和应用数据模型。首先基于业务需要,决定选择哪种模型。之后对模型进行训练,训练完成之后再判断模型的质量和有用性,最后将模型应用于真实的业务场景。数据建模数据处理计算广告DataProcessing数据脱敏计算广告DataDesensitization第四章目录基本内涵BASICCONNOTATION常用技术COMMONLYUSEDTECHNIQUES数据共享DATASHARING01基本内涵数据脱敏数据脱敏是指在不影响数据分析结果准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度、减少个人隐私风险。数据加密数据加密就是利用密码技术对数据进行可逆的数学变化以隐藏信息的行为。加密技术分为对称加密与非对称加密两种类型。由于数据脱敏和匿名化需要防止重识别,所以仅靠加密工具不能实现匿名化。数据假名化假名化是通过生成新的字符(假名)来替代原标识符(通常为直接标识符)的数据处理方式,使得个人信息控制者在不借助额外信息情况下无法识别出个人信息主体。常用的假名生成技术包括带密钥加密、哈希函带密钥的哈希函数等。相关概念数据性质去标识化处理后的信息仍然属于个人信息,其是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。目标对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其他信息识别出原始个人信息主体;控制重标识的风险;确保去标识化后的数据集尽量达到其预期的用途。原则合规原则、个人信息安全保护优先原则、技术和管理相结合原则、充分应用软件工具原则、持续改进原则。数据去标识化对直接标识符进行脱敏处理,比如将直接标识符假名化、加密、抑制或者屏蔽等。脱敏处理匿名化是指个人信息经过处理后无法识别特定自然人且不能复原的过程。对间接标识符进行泛化或者随机化。泛化或者随机化的程度越高,安全性就越高,但是数据的可用性也就越低。泛化或随机化常见的重识别方法包括隔离、关联和推断。重识别攻击行为包括:(1)重识别一条属于一个特定个人信息主体的记录;(2)重识别一条特定记录的个人信息主体;(3)尽可能多地将记录和其对应的个人信息主体关联;(4)判定一个特定的个人信息主体在数据集中是否存在;(5)推断一组和其他属性关联的敏感属性。评估重识别风险随着时间推移,重识别技术和攻击者的重识别能力都在变化,因此需要定期进行重标识风险评估,并与可接受的风险阈值进行比较。跟踪匿名化效果数据匿名化静态数据脱敏是对数据进行“搬移并仿真替换”,是将数据进行脱敏处理后,下发给下游环节取用和读写。是在数据存储时脱敏,存储的是脱敏数据,一般用在非生产环境。静态数据脱敏动态数据脱敏,即在访问敏感数据的同时进行脱敏处理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保返回的数据可用且安全,一般用在生产环境。动态数据脱敏数据脱敏类型静态数据脱敏主要用于将数据抽离生产环境并进行分发和共享的数据使用场景;动态数据脱敏主要用于直接访问生产数据的场景。使用场景区别静态数据脱敏技术一般是通过变形、替换、屏蔽、保留格式加密等算法实现,实际已经改变了源数据的内容;动态数据脱敏通过改写查询SQL或拦截等方式实现,实际上未对源数据的内容作任何改变。技术路线区别静态数据脱敏可将脱敏设备部署于生产环境与测试、开发、共享环境之间;动态数据脱敏采用代理部署方式:物理旁路或逻辑串联。部署方式区别数据脱敏两种类型区别数据替换方法无效化方法随机置乱方法数据替换法是将敏感字段随机替换,如将字母变为随机字母,数字变为随机数字,文字变为随机文字,从而遮蔽敏感数据。在计算广告中,数据替换方法可以应用于虚拟用户生成数据。无效化方法通过对字段数据值进行截断、加密、掩码等方式让敏感数据脱敏。这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式。随机扰动技术是一种常用的无效化方法。随机置乱方法对敏感数据列的值进行重新随机分布,混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性,最大、最小、方差等均与原数据列无异。数据脱敏方法均值统计方法对称加密方法随机置乱方法均值统计方法经常用于统计场景,针对数值型数据,先计算均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变,通常用于产品成本表、工资表等场合。对称加密方法是一种采用单钥密码系统的加密方法,发送方和接收方使用相同的密钥,这个密钥既可用于加密原始数据,也可用于解密加密后的数据。这种方法通过随机移位改变原始数据。偏移取整在保证数据安全性的同时保证范围的大致真实性,比前面的方法更接近真实数据,在大数据分析场景中意义比较大。数据脱敏方法数据脱敏前后必须保持原有的数据特征。数据特征一致性数据脱敏不仅要抹去数据中的敏感内容,同时也需要保持原有的数据特征、业务规则和数据关联性,保证各类业务不受脱敏的影响,保证脱敏前后数据的一致性和有效性。数据和数据的关系要保持一致。数据关系一致性数据脱敏后数据关联性以及业务语义等保持不变。数据关联性包括:主外键关联性、关联字段的业务语义关联性等。业务规则关联性相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要保证每次脱敏后的数据具有一致性。多次脱敏一致性数据脱敏要求02常用技术统计技术统计技术是指收集、整理、分析和解释统计数据,并对其所反映的问题给出结论的技术方法。数据抽样需根据数据集的特点和预期的使用场景来选择;经常用于数据脱敏的预处理;可以简化对数据集的计算量。数据聚合可能会降低数据的有用性;对抗重标识攻击非常有效;某些保留格式加密具有确定性加密技术的特点;适用于多种格式的数据;在给定有限符号集的情况下密可以保证加密后的数据具有与原始数据相同的格式和长度。保留格式加密技术密文排序与明文排序相同;在有限的范围内保证加密结果在统计处理、隐私防挖掘、数据外包存储与处理等场景中的有用性;完全重标识仅可能适用于拥有密钥的一方。保序加密技术保证数据真实可用;保证数据在统计处理、隐私防挖掘方面的有用性;对确定性加密的重标识攻击主要是不具备密钥使用权时的攻击;关联性攻击可能针对采用同一密钥进行确定性加密的密文。确定性加密技术同态加密技术允许在加密状态下进行计算操作而无需解密数据,用这种技术进行数据脱敏时,对加密数据进行处理的过程不会泄露任何原始内容。同态加密技术同态秘密共享可将一个秘密拆分为“若干份额”,可利用拆分后秘密信息的特定子集来重构原始的秘密。同态秘密共享技术密码技术屏蔽技术屏蔽技术是一种基线数据脱敏技术,包括从数据集中删除所有直接标识符,并尽可能剥离数据集中所有记录的部分或全部剩余标识符。包括部分数据移除、数据隔离和数据限制。局部抑制技术局部抑制技术是从所选记录中删除与其他标识符结合使用可以识别出相关个人信息主体的特定属性值。记录抑制技术“记录抑制”是一种从数据集中删除整个记录或一些记录的数据脱敏技术,需要与其它数据脱敏技术相结合以降低数据的重标识风险。抑制技术假名化技术假名化技术是通过生成新的字符(假名)替换原标识符(通常为直接标识符)的数据脱敏技术。独立于标识符独立于标识符的假名创建技术不依赖被替代的原始属性值,而是独立生成,典型方法为用随机值代替原始属性值。基于密码技术基于密码技术的标识符派生假名创建技术通过对属性原始值采用加密或散列等密码技术生成假名。其中加密技术生成的假名可以用合适的密钥及对应的算法解密,而散列技术则是一种单向的数学运算。泛化技术泛化技术是指一种降低数据集中所选属性粒度的数据脱敏技术,是对数据进行更概括、抽象的描述。取整技术取整技术为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数。向上还是向下取整按概率确定,该概率值取决于观察值与最接近取整基数倍数的接近程度。顶层与底层编码技术泛化技术为某一属性设定一个可能的最大(或最小)阈值。顶层与底层编码技术使用表示顶层(或底层)的阈值替换高于(或低于)该阈值的值,该技术适用于连续或分类有序的属性。噪声添加技术噪声添加技术通过把“随机噪声”添加到所选的连续属性值中,同时尽可能保持该属性在数据集中的原始统计特性。可以应用于广告点击率预测。置换技术置换技术是表达式在不直接修改属性值表达式的情况下对数据集记录中所选属性的值进行重新排序的一种技术,它保持了整个数据集中所选属性的准确统计分布,适用于数字与非数字值。微聚集技术“微聚集”是指用某种算法方式计算出来的平均值代替连续属性所有值的数据脱敏技术。每一种属性的新值是由该属性所在组中的平均值替换得来的。可用来精细化用户定向投放。随机化技术03数据共享脱敏数据共享主体脱敏数据共享主体包括脱敏数据提供方、脱敏数据接收方和脱敏数据计算方。脱敏数据共享服务主体脱敏数据共享服务主体包括平台方、安全方和评估方。脱敏数据共享支持主体脱敏数据共享支持主体包括监督方和技术方。数据脱敏共享参与机构数据预处理包括进行数据标记、匹配数据内容、形成脱敏数据三个方面的内容。共享评估包括形成多维评估因子、形成定性评估结论、形成评估报告三个步骤。脱敏数据共享基本流程源自提供方的风险及其识别与控制风险数据来源不明或未经同意输出个人相关数据。识别与控制要求提供方清晰数据源头;区分数据形成方式;区分数据输出形式;预先进行相应数据共享评估。源自计算方的风险及其识别与控制风险委托处理的数据在传输或存储时可能被泄漏;可能未获得委托方的再许可,而向他方提供数据;由于缺乏与信息主体的接触场景,无法获得真实有效的同意。识别与控制传输存储脱敏数据,辅以安全适当的技术手段、组织措施;计算方必须有委托方的真实合法授权,再提供需独立授权;委托计算的数据应为脱敏数据;计算成果数据的再提供,应遵循提供方要求而进行;预先进行相应数据的共享评估。源自接收方的风险及其识别与控制风险是否获得信息主体的同意。处理个人相关数据是否合法、正当、必要。使用个人信息是否符合个人信息保护相关法律法规的规定。可能未获得提供方的许可,而向他方提供数据。识别与控制检查接收方业务资质;细分接收方数据处理应用目的;细分接收方数据的应用场景;对数据进行分级、分类、分层;细分接收方获得信息主体对其相关数据处理应用的同意的方式方法;预先进行数据共享评估。源自数据重标识的风险及其识别与控制风险脱敏数据经重标识后,重新成为包含个人信息的数据。被无关方获取后重标识。与其他数据(集)汇聚后重新识别出个人信息主体。识别与控制选择适当的数据处理与脱敏技术;利用数据共享域“受控重标识”功能,区分并控制重标识的情形;预先开展数据共享评估。源自数据敏感性的风险及其识别与控制个人敏感数据共享可能给信息主体权利、人身财产安全带来风险;法律法规禁止、限制共享的其他敏感数据进入共享可能给国家安全、公共安全带来风险。因此,要区分场景,与应用无关的个人敏感数据不得共享,法律法规规定的其他敏感数据禁止共享。源自身份识别性的风险及其识别与控制数据如若包含身份信息(标识)或直接与身份信息(标识)关联的信息,其泄露、非法提供和滥用可能导致侵犯个人隐私权,或被犯罪分子利用引发人身或财产安全风险。因此,要选择适当的数据处理与脱敏技术;禁止直接共享包含身份信息(标识)或直接与身份信息(标识)关联的数据;通过数据共享域进行共享。源自数据泄露的风险及其识别与控制数据流动可能产生泄露风险。因此,尽量以脱敏数据进行并享,并辅以适当的加密技术措施;选择适当的数据处理与脱敏技术;在可控和安全的数据共享域下进行共享。脱敏数据共享风险识别与控制数据脱敏计算广告DataDesensitization用户画像计算广告UserProfile第五章目录基本内涵BASICCONNOTATION构建过程BUILDPROCESS标签体系LABELINGSYSTEM具体应用SPECIFICAPPLICATIONS01基本内涵定义用户画像有两种不同的角度:一种定义从产品设计和开发的角度出发,用户画像被认为是勾画目标用户、联系用户诉求与设计方向的有效工具,又称用户角色。这个定义主要基于实际应用,体现了用户画像的实际用途,有着具象化的特点;另一种定义从大数据的角度出发,认为用户画像用于抽象用户的信息全貌,是用户信息的标签化。这个定义从抽象角度出发,更好地解释了用户画像的本质,也符合大数据时代的特征,具有广义性与抽象性。定义用户画像的两种视角用户属性包括自然属性、商业属性、垂直属性、行为属性。用户属性用户特征是对用户基本属性、信息需求、信息行为、心理状态、环境影响的抽象描述,是通过一定方法从用户属性中抽取出来的共性特征。用户特征用户标签是根据用户特征提炼出来的标签化文本,可以精练准确地表达用户特征,其实质是标签化的用户全貌。用户标签用户画像计算广告语境下的用户画像是基于数据挖掘的用户特征提取和深层需求分析,是用户社交属性、生活习惯、消费行为等信息全貌的标签集合。由用户属性、用户特征和用户标签三个要素构成。用户画像在产品生命周期中的营销价值市场调研产品研发产品测试“购买受众”的实现基础用户画像收集用户各类属性特征,通过标签、权重的方式捕捉用户动静态信息,运用定向算法、相关性预估等计算手段就可以精准锁定目标受众。因此,计算广告用户画像是“购买受众”的实现基础。个性化推荐的底层逻辑个性化推荐基于用户画像了解用户行为特征,通过推荐技术实现广告与场景和消费者的精准匹配。用户画像的水平影响广告个性化推荐的效果,用户画像是个性化推荐技术的底层逻辑。业务效率的根本保证用户画像的应用使得计算广告业务更加专注聚焦,可以让广告主站在第一视角观察用户的需求,使得整个计算广告流程变得有序有效。用户画像在计算广告中的基础价值02标签体系标签分类按标签变化频率静态标签、动态标签按标签表现形式定性标签、定量标签按标签标注方法统计类标签、规则类标签、机器学习挖掘类标签按业务场景人口学标签、兴趣类标签、设备类标签、行为类标签按数据类型数值型标签、单选型标签、复选型标签、文本型标签按标签生成方式基础标签、业务标签、智能标签标签分类按数据提取维度事实标签、模型标签、预测标签模型标签用户忠诚度模型用户忠诚度模型用户状态模型
标签分类按数据提取维度事实标签、模型标签、预测标签模型标签用户忠诚度模型用户忠诚度模型用户状态模型标签分类按标签提取程度特征标签、行为标签、需求标签标签结构标签是某一种用户特征的符号表示,解决的是描述性问题。在实际应用中,标签通常被作为一个结构体系来设计,以解决数据之间的关联问题。标签横向层级用户实际发生的行为被记录后形成的赋值。行为属性其他属性推导而来的属性。推导属性这些指标的赋值体现的是用户生而有之或者事实存在的,不因外界条件或者自身认知的改变而改变的属性。固有属性用户自我表达的态度和意愿。态度属性来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,对其进行结构化处理后得出的测试结论。测试属性标签属性标签组合标签纵向层级03构建过程用户画像建构过程数据收集计算广告用户画像构建要利用大数据工具收集用户在各种平台的痕迹和数据,自建、购买服务或借用合作公司的数据管理平台进行数据管理。数据来源第一方数据:来自广告主自有平台的数据第二方数据:从外部平台获取但所有权属于广告主的数据第三方数据:所有权归属外部平台的数据数据聚合结构化标签体系半结构化标签体系非结构化标签体系数据清洗数据整合特征提取所谓数据清洗,主要是剔除冗余、无效的信息。数据清洗的作用就是去除无效数据,保留有价值数据,提升生成用户标签的准确性。数据整合即将不同业务系统中的用户数据通过用户户于的唯一标识码关联,形成维度更全的数据。特征提取,即对处理过的用户数据进行特征识别,寻找有价值的字段数据。计算广告用户画像的特征提取主要使用文本挖掘方法,主要方法包括对文本型数据进行属性提取、聚类分析等。信息整合标签分类习惯标签根据用户在各个时间段的各自活动规律和行为习惯划分的标签App类别标签包括二级:一级标签包括社交通讯、系统工具等;二级标签包括聊天、社交、婚恋(社交通讯),优化、安全、输入法(系统工具)等权重标签为不同标签赋予的不同指标权重兴趣标签根据用户的不同兴趣爱好进行设计的标签位置标签通过爬取用户的动态位置获得定义标签根据文本中所使用的数据建立起对应的标签体系行为建模投放验证建模完成之后,还需要对标签进行验证,即大规模并行计算标签的有效权重,衡量基础标签并不断调整优化。精准投放大数据背景下的个性化推荐、程序化购买使得广告媒介投放从购买粗放的媒体资源向购买指定的用户流量转变,从而大大提高了广告效果。效果优化计算广告可以实时收集广告投放对象的反应数据,根据用户标识和用户行为做好广告效果的反馈工作,并不断进行广告优化,循环提升效果指标。04具体应用具体应用广告投放平台受众定位、个性化推荐、渠道分析、广告优化广告主商品分析、用户运营、精准营销、效果评估TGI指标TGI即目标群体指数,是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。TGI=[目标群体中具有某一特征的群体所占比例/
总体人群中具有相同特征的群体所占比例]*标准数100
TGI指标适用范围TGI指标运用TGI指标运用TGI指标运用用户画像计算广告UserProfile精准定向计算广告PreciseTargeting第六章目录相似人群拓展SIMILARGROUPEXPANSION定向维度DIRECTIONALDIMENSION重定向RETARGETING01相似人群拓展相似人群拓展相似人群拓展是基于种子用户,通过一定的算法评估模型,在广告数据管理平台的用户大数据库中,找到更多和种子用户有关联性的相似人群的技术方法。种子用户数据提交相似人群拓展首先要提交种子用户数据,明确表达目标客群会在哪些方面有突出的特征。需提交的数据包含行为结果数据、行为意向数据、行为偏好数据、行为模式数据等四个层次维度。拓群算法处理DMP能否为广告主带来价值,比拼的是用户拓群似然处理算法工程化方面的实力,主要体现在是否可以预先调节算法维度、是否可以灵活选取人群规模、是否能够自主设定过滤条件、是否易于实现工程化指标四个方面。拓展用户输出拓展用户输出是根据广告主所需要的目标用户量级,按模型输出用户群体。根据扩散量级需求,输出量级越小,包含的用户群体相似程度越高。输出扩展用户的过程要坚持结合聚类算法、结合媒体流量和结合效果优化三个原则。相似人群拓展过程广告主基于种子用户标签,在数据库中筛选性别、年龄、品类偏好等画像属性的人群包直接进行投放。这种方式最为简单和高效,但不够精准,业界正在使用协同过滤、序列推荐、图神经网络等技术向智能拓群方向发展。画像标签法分类算法是一种隐性定位方式,是通过机器学习和深度学习的分类算法对种子用户进行建模,然后用模型去识别目标用户。分为把种子用户的共有特征标记为正样本、选择基础用户包、选择负样本、特征处理和模型训练、扩展人群包五个步骤。分类算法社交网络定位法是一种隐性定位方式,即利用社交网络上的好友关系,将种子人群标签传给社区中的好友,从而实现用户拓群。分为数据准备、用户标签特征处理、文本特征处理、图像特征处理、社交关系建立、用户扩展等六个步骤。社交网络定位法相似人群拓展方法程序化广告创意内容组合指的是:基于消费者心理和广告板式要求,提取不同类型的元素进行组合,从而实现广告创意内容和目标用户的适配。针对产品特征,有米在创意上明确突出了美的豆浆机的三大卖点,直接将美的产品的优秀功能信息传递给受众。创意体现有米是通过调研分析,并辅以自身DMP匹配美的第一方数据进行潜在人群挖掘的。人群洞察线上消费者的购买力有巨大的挖掘空间;利用程序化广告推广促销产品的同类广告主越来越多。推广背景寻找一类精准用户、第一轮投放、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江西宜春海宜产业招商有限公司招聘10人笔试参考题库附带答案详解
- 印章、合同、重要证件管理制二零二五年
- 人力资源管理顾问协议二零二五年
- 个人车位租赁协议范例二零二五年
- 二零二五版保安公司劳务派遣协议合同书范例
- 酒店订餐协议书二零二五年
- 二零二五版劳务分包安全管理协议书
- 车库抵押借款协议合同书范例模板二零二五年
- 2025年复方芩兰口服液项目合作计划书
- 2025全新版权合同范本
- 消防安全隐患排查试题及答案
- 2024年食品安全法管理知识试题库(含答案)
- 2025广西文化产业集团招聘174人易考易错模拟试题(共500题)试卷后附参考答案
- 宿舍管理考试试题及答案
- 2025福建德化闽投抽水蓄能有限公司招聘15人笔试参考题库附带答案详解
- 智能财税综合实训 上篇 课件 社会共享初级代理实务
- 军人抚恤优待条例培训2024
- 16J914-1 公用建筑卫生间
- 人教版高中美术 《传承与创新-中国近现代美术》课件
- Opera、绿云、西软、中软酒店管理系统对比分析
- 超市经营业务管理规范标准
评论
0/150
提交评论