数据挖掘实习报告_第1页
数据挖掘实习报告_第2页
数据挖掘实习报告_第3页
数据挖掘实习报告_第4页
数据挖掘实习报告_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘实习报告篇一:数据挖掘实习报告通过半年的实习,我在这里得到了一次较全面的、系统 的锻炼,也学到了许多书本上所学不到的知识和技能。以下 是我这次的实习鉴定。经历了实习,对社会也有了基本的实践,让我学到了书 本以外的知识,实习期间,我努力尽量做到理论与实践相结 合,在实习期间能够遵守工作纪律,不迟到、早退,认真完 成领导交办的工作。在实习鉴定中,我参与了整个数据分析 工作,从数据获取到数据清洗、数据报表的制定到模型的建 立以及模型监控等等,让我充分学习了数据分析岗位的实际 操作。在实习初期,项目经理安排了我参与数据获取的相关工 作,主要是编写 SQL代码在linux上用Perl语言调用获取

2、 数据。起初觉得自己对 SQL语言了解较多,以为这份工作非 常简单。但实际操作起来才知道,在数据量达到几百兆甚至 上GB级别的时候,所学的 SQL根本解决不了问题。经向项 目经理学习,这才知道了如何使用分层次操作等速度较快的 SQL技巧。通过这两个月的实习充分认识到所学知识远远不 够。完成数据获取阶段之后,项目经理开始安排数据清洗以 及数据报表制定的相关工作。接到这份工作之初,对数据清洗并没有太多的认识,以为很多都是按照数据挖掘教材 中步骤进行就可以的。但经过项目经理指导之后才知道数据 清洗之前首先要对项目业务进行一定的了解,只有清晰了业 务数据的来源、数据的实际意义才知道哪些数据可以称为极

3、端值,哪些数据又是不正常的,制定报告或者交给模型分析 师时需要去除的等等。同时,在制定数据报表的同时学习了 很多excel函数的使用,透视表的使用,PPT报告的书写等等。在实习的后三个月,开始接触了模型的分析与监控。在 学习机器学习以及数据挖掘书本时,总会想到各种 各样的分类模型,也总会认为模型准确率高的模型才会是好 模型。在运用统计模型之前,项目经理首先向实习生介绍了 目前挖掘部门常用的分类模型以及具体的一些使用方法。其 中逻辑回归模型、决策树模型是常用的分类模型,回归分析 和时间序列模型是常用的预测模型,这与平日所学基本一致。 正当好奇为什么不使用支持向量机以及神经络模型之时,项 目经理说

4、,由于模型结果都是要给市场部门的同事报告的, 所以模型结果最好能够简单易懂的。在实际工作才知道,一 般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、 ROCft线、RA曲线等等指标值。而模型的操作过程也不是想 象的那么简单,并不是用 R软件上的几个函数,几行代码就 能解决的,选择什么参数、选择什么样的模型,当然最重要的还是选择什么样的基础数据作为模型的训练数据才是最 重要的,这才发现项目经理之前提到的业务知识是多么的重 要。在模型建立之后就是模型监控了,由于是我负责的项目, 所以项目经理也将监控这一任务交给了我。数据挖掘模型通 常情况下都是要上线的,但模型的效果会随着数据的变化而 变化,

5、当模型的指标达到一定程度时就需要修改模型。在这 一阶段,充分锻炼了我的程序编写能力。在整一个实习过程,非常感谢项目经理给予了我数据挖 掘整一个流程学习的机会,让我真正对数据挖掘的实际工作 有了一定的认识,也让我学习到了很多学校学习中学不到的 实际操作能力,在此表示衷心的感谢。篇二:数据挖掘实验报告经贸学院市场营销专业数据挖掘管理实验报告实验名称:数据挖掘一聚类分析实验时间:XX年12月21日班级11252姓名潘宏学号 1125219成绩指导老师 王林一、数据建模过程1、启动SPSS双击窗口底部节点选项板中的“源”中的 statistics文件建立文件,如图 1。图12、右击statistics

6、文件编辑,如图 2。图23、点击省略号其中一个选择文件打开。单击应用并确 定,如图3和图3图44、双击输由选项中的表节点,如图 5所示,表节点由 现在工作区中。图55、如图6所示,右击运行表节点。可以看到图中关 于客户资产购平台价值的数据记录。该数据包含A1, A2等字段。图66、如图7,在字段选项中双击类型节点,则类型节点由现在工作表中。图77、如图8,右击类型节点选择编辑,则由现一张关于 字段的表,将所有字段角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击应用、确定。图8篇三:数据挖掘实训weka实验报告论文(报告、案例分析)院系信息学院专业统计班级10级统计3 班学生姓名李健

7、学 号XX210453任课教师 刘 洪伟XX年01月17日课程论文评分表数据挖掘实训I课程论文选题要求:根据公开发表统计数据,请结合数据挖掘理论与方法,撰写一篇与数据挖掘领域相关的论文。写作要求:(1)数据准确、有时效性,必须是最新的数据。(2)文章必须有相应的统计方法,这些统计方法包括以前专业课 中学到的任何统计方法,如参数估计、假设检验、相关与回 归、多元统计等等。(3)论文的内容必须是原创,有可靠的分析依据和明确的结论。(4)论文按照规定的格式化撰写;(5)字数不少于XX字。数据挖掘(WEKA次件)实验报告统计学 专业学生李健学号XX210453关键词:数据挖掘;游玩;因素; WEKA本

8、次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同时了解 weka的基本用法。一、软件介绍1简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛 很高的东西。诚然,如果做算法实现甚至算法优化,确实需 要很多背景知识。但事实是,绝大多数数据挖掘工程师,不 需要去做算法层面的东西。他们的精力,集中在特征提取, 算法选择和参数调优上。那么,一个可以方便地提供这些功 能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境(Waikato Environment forKnowledge Analysis) ,是由新西兰怀卡托 (

9、Waikato)大学开发的机器学习软件,纯 Java技术实现的开 源软件,遵循于GNUGeneral Public License ,跨平台运行,集合了大量能承担数据挖掘任务的机器学习算法,分类器实 现了常用ZeroR算法、Id3算法、J4.8算法等40多个算法, 聚类器实现了 EM算法、SimpleKMeans算法和Cobweb算法3 种算法,能对数据进行预处理、分类、回归、聚类、关联规 则以及在新的交互式界面上的可视化。2oo5年8月,在第11届ACMSIGKDDg际会议上,怀卡托大学的WEKA、组荣获了数据挖掘和知识探索领域的最高服务奖,WEK系统得到了广泛的认可,被誉为数据挖掘和机器学

10、习历史上的里程碑, 是现今最完备的数据挖掘工具之一。WEKA使用的是一种叫做arff(AttributeRelation File Format)的数据文件结构。这种arff文件是普通的ASCII文本文件,内部结构很简单, 主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过 JDBC从Oracle和Mysql等流行数据 库中获得。整个arf文件可以分为两个部分。第一部分给由 了头信息(Head information) ,包括关系声明 (Relation Declaration)和属性声明(AttributeDeclarations) 。第二 部分给由了数据信息(Da

11、tainformation),即数据集中给由 的数据。关系声明的定义格式为:relation ;属性声明的定义格式为:attribute ;数据信息的定义格式为独占一行的data,后面跟着的就是数据信息。2.安装点开左侧Weka 的官方 地址是 HYPERLINK http:/ml/weka/ http:/ml/weka/ download 栏,可以进入下载页面, 里面有 windows, mac os, linux等平台下的版本,我们以 windows系统作为示例。目 前稳定的版本是。如果本机没有安装java ,可以选择带有jre的版本。下 载后是一个exe的可执行文件,双击进行安装即可。安

12、装完毕,打开启动 weka的快捷方式,如果可以看到 下面的界面,那么恭喜,安装成功了。共有4个应用,分别是 1 ) Explorer用来进行数据实验、挖掘的环境,它提供了分类,聚类, 关联规则,特征选择,数据可视化的功能。 (An environment for exploring data with WEKA ) 2 ) Experimentor用来进行实验,对不同学习方案进行数据测试的环境。(An environment for performing experiments and conducting statistical tests between learning schemes.

13、) 3) KnowledgeFlow功能和Explorer差不多,不过提供的接口不同,用户 可以使用拖拽的方式去建立实验方案。另外,它支持增量学 习。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning. ) 4 ) SimpleCLI篇四:实训报告移动络优化实训报告班级:通信141 学生姓名:班级序号:一、设计背景内容包

14、括:络优化应用背景介绍2G系统图、LTE系统图1、络优化应用背景介绍由于核心、传输的元少且环境稳定,移动通信优化实际 上以无线优化为主,因此移动通信络优化也可称为无线络优 化。无线络是通过改善手机和基站的空中接口信号性能来完 成优化过程,提高通信质量的。由于移动络变是不固定的, 其动态变化频率高,再加上庞大的用户群体、用户的移动性、 话务密度的不均匀性、频率不均匀性等,导致无线络的信号 接口稳定性能差,反映到用户方面即是通信质量的不稳定及 弱势。比如,无法接通、通话无端中断、杂音干扰、单方通 话等故障。 移动通信络的建设耗费大量人力、财力,但是 就目前此阶段现状而言,通信质量的不尽如意使得其投

15、资与 回报不成正比。而不间断的络硬件、数据调整,资源优化配 置等途径可以优化通信络,可保持络处于最佳运行状态,由 此改善通信服务质量,使得用户可以切身感觉到通畅淋漓的 络速度。2、移动络优化的现状由于当前技术的限制,移动通信络优化的实现需要借助 于一定的工具,并且要求相关工作人员要具备较高的技能素 质。一般而言,优化队伍的组成需具有资深的络优化工程师, 若干技术人员,以及大量的自动化、智能化软件工具。现有 的络优化工具主要有以下三种类型:其一,各系统供应商提供的 OMCC统;其二,无线络及交换络测试分析的仪器、第三方软件,如路测软件和信令分析软件;其三,无线频率规划软件。其中,路测软件等是用来

16、提 供数据的,供应商提供的 OM掾统多用来维护系统的。但是 二者之间的联系甚是不紧密,再加上络优化涉及到交换技术、 无线技术、频率配置、切换和信令、话务统计分析等技术, 形成海量的信息急需高技术处理的局面,最终致使优化工作 比较粗放。络优化的具体操作大致分为数据采集、数据分析、实施、评估四个阶段。数据采集需要耗费大量的人力通过人工操作、 整理、归类、汇总各类工具采集的海量数据。此阶段工作量 大,但是难度较低。数据分析阶段工作量虽小但是很有难度。 此阶段中,工程师需通过前阶段的数据来判断、分析、确定 所反映的问题,并得由一个包含不同地点、层次元的优化方 案。然后是实施阶段,实施调整方案中确定的络

17、调整操作。最后是评估阶段,此阶段需再次进行数据采集工作,观察调 整方案是否达到了效果,如果没有达到预期的效果,需再次 重复整个过程;如果达到了效果,就再次设定新的、更高的 优化目标,整个过程将再次在更高的层次重复。3、移动络发展的趋势智能优化是移动通信络优化发展的趋势。具体说来,可 以分为下三个层面:一体化处理和简单分析正如前文多说,络优化涉及到众多技术及工具。但是不 同类别的工具确只对特定的问题才能发挥效能,这就造成了 优化工具虽然多,却各自分散难以整合,不能针对整个待整 治的络组成优化方案。我们认为,系统供应商或者第三方软 件提供商应该与运营商形成长期的战略合作络伙伴关系,通 过持续努力,

18、开发将环境数据和系统数据紧密绑定的软件系 统,使该软件系统逐步具备对海量数据的一体化处理、简单 分析、数据挖掘、辅助智能决策、自动络参数调整等功能, 使运营商的优化和维护人员从工作量大但难度相对较低的 简单、低层次的数据采集、实施阶段的工作中解放由来,从 而可以专注于深层次的系统和环境方面的优化方法的研究, 将研究成果迅速应用于软件系统,并且能够迅速得到证明的 高级优化工作中来。这就是一体化处理和简单分析。数据挖掘、辅助智能决策数据分析是络通信优化难度最大的一个阶段,它需要处理将大量不同技术领域的数据,而其中的寻求各种数据的内 在关系是难中之难。数据挖掘是统计学和机器学的综合提, 通过数据挖掘

19、技术可以从数据库有效地筛过滤、筛选、分析、并提取价值信息,从而挖掘各数据的内在关联。数据挖掘可 以挖掘一系列数据之间的联系,使得工程师建立符合自身团 队特色的数据分析体系,从而为整体优化方案的确立提供辅 助决策的功能。数据挖掘可以使络优化人员在短时间内挖掘 各数据间的关联,可以解决许多以前我们想解决却缺乏解决 办法的问题。自动络参数调整当移动络优化系统的优化工具具备了辅助决策功能后,其数据分析结果是相当精确无误的,这点已被无数次实验结 果所验证。然而,这并不是优化工具进化的终结点,在其前 方仍然有大量可进步的空间。此时,我们可将优化软件的输出直接作用于OM面统的配置功能模块上,通过OM掾统直接

20、“指挥”络调整自己的系统参数。由此省去中间的设备 经过及缓解,可以更好地适应络环境参数的动态变化,从而 为为用户提供更加稳定及完善的通信质量。2G系统图LTE系统图二、新建GSM占点设计(1)按要求补充新建 GSM占点信息(2)在EASYRNP勺相应位置上新建站点,显示相关信息 站点名、小区名、LAG频点等信息GSM占点信息表三、新建LTE站点设计(1)按要求补充新建 LTE站点信息(2)在MapInfo的相应位置上新建站点,显示相关 信息 站点名、小区名、TAG频点、PCI等信息(3)根据站点具体位置规划邻区篇五:实习报告辽宁工程技术大学本科生实习报告书教学单位理学院专业数学与应用数学班级学

21、生姓名学号指导教师四大分支。生物统计学用统计方法研究生物界的客观 现象;数量遗传学用数学方法研究在各种不同情况下全体基 因型的变化,研究数量性遗传规律;数学生态学用数学理论 和和方法描述生态系统的的行为动态定量关系,建立各种生 态模型,模拟动物行为;数学生物分类学使用现代数学方法和工具(特别是电子计算机)对古老的生物分类学进行研究。 数学方法几乎渗透到生物学的每个角落。有人预言:生物学 将会取代物理学成为使用数学工具最多的部门,21世纪可能是生物数学的黄金时代。生物数学具有丰富的数学理论基础,包括集合论、概率 论、统计数学、对策论、微积分、微分方程、线性代数、矩 阵论和拓扑学,还包括一些近代数

22、学分支,如信息论、图论、 控制论、系统论和模糊数学等。由于生命现象复杂,从生物学中提生的数学问题往往十分复杂,需要进行大量计算工作。因此,电脑是生物数学产生和发展的基础,成为研究和解决 生物学问题的重要工具。然而就整个学科的内容而论,生物 数学需要解决和研究的本质方面是生物学问题,数学和电脑 仅仅是解决问题的工具和手段。因此,生物数学与其他生物 边缘学科一样,通常被归属于生物学而不属于数学。在以前的学习中,生物就是生物,数学就是数学,两者 看似没有什么关联。而实际上生物与数学息息相关,现实中 大多数学科都与数学有关并以之为基础,通过本次学习,我 意识到数学的强大,无处不在。三.数据科学家数据科

23、学家,一个极具发展潜力的职业,现在的数据科 学家已成为了高薪职业。招聘站报告称,数据科学家平均年 薪为万美元,而程序员平均年薪为万美元,差距由此可见。“数据科学家”在 XX年由Natahn Yau首次提由,具概念是 采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程 师。数据科学家集技术专家与数量分析师的角色于一身,与 传统数量分析师相比:后者通常利用企业的内部数据进行分 析,以支持领导层的决策;而前者更多的是通过关注面向用 户的数据来创造不同特性的产品和流程,为客户提供有意义 的增值服务。数据科学家”其实是从“大数据”引发的术语 混乱中形成的。数据科学的核心能力被定义为:SQL统计、预测建

24、模和编程、Python等,这些听起来很合理。但是很快就有更多名词添加到其中:Hadoop/MapReduce机器学习、可视化,甚至还有传统的数学、物理、计算机科 学等类似能力。许多人呼吁专业领域、商业智慧、创造力及表达能力也是同样重要的。一个数据科学家不能只擅长数字(这种人被称为统计学家或分析师),也要能够理解业务:什么样的数 据或结果才是有参考性的;能够找到新的数据集并为其创造 新产品;然后能够让 CEO们理解这一切。这是一个艰巨的任 务,这个世界上这类人是很少的。作为顶尖的数据科学家, 不要求他们对环境做生什么积极的改变,但是需要他们尝试 做一些真正先进的东西,帮助大家更好的解决业务上的问

25、题。数据科学家的六种能力:.对数据的提取与综合能力;.统计分析能力;.数据洞察与信息挖掘能力;.开发软件能力;.络编程能力;.数据的可视化表示能力。现在是一个大数据时代,几乎所有的事情都离不开数据 处理。数据科学家,非常有前景的职业,也是我立志的目标。四.数学建模从学习专业课开始,我就了解到,应用数学的学习离不 开数学建模。在不断的学习中,深刻的学习到数学建模的重 要性。当需要从定量的角度分析和研究一个实际问题时,人 们就要在深入调查研究、了解对象信息、作由简化假设、分 析内在规律等工作的基础上,用数学的符号和语言作表述, 也就是建立数学模型,然后用通过计算得到的结果来解释实 际问题,并接受实

26、际的检验。这个建立数学模型的全过程就 称为数学建模数学是研究现实世界数量关系和空间形式的科学,在它 产生和发展的历史长河中,一直是和各种各样的应用问题紧 密相关的。数学的特点不仅在于概念的抽象性、逻辑的严密 性、结论的明确性和体系的完整性,自从 20世纪以来,随 着科学技术的迅速发展和计算机的日益普及,人们对各种篇六:暑假实习报告合肥学院计算机科学与技术系系别:专业:班级:姓名:学号:成绩:认知实习报告计算机科学与技术计算机科学与技术10级计本班1004011004年 日月认知实习报告根据合肥学院人才培养方案中的第五学期认知实习教学大纲的要求,我于 XX年6月18号至XX年9月1日在校 实习,

27、进行“冰箱泄漏热负荷及性能预测”项目研究。一、项目简介项目名称:冰箱泄漏热负荷及性能预测研究委托方:合肥美菱股份有限公司技术目标和内容:1、对已有产品漏热测试数据进行分析处理,拟合由冰 箱保温层和门封泄漏热负荷的计算方法;2、根据冰箱泄漏热负荷、制冷系统设计、零部件选型, 研究制定由冰箱性能(耗电量、开机率等)预测方法。二、认知实习经历项目需要大量有关聚类和分类的知识基础,我负责的是K-means 算法、支持向量机(Support Vector Machine , SVM 的研究。1、K-means算法的学习MacQu战在1967年提由的K-means算法,是一种被广泛 应用于科学研究和工业应

28、用中的经典聚类算法。K-means算法的核心思想是把 n个数据对象划分为 k个聚类,使每个聚 类中的数据点到该聚类中心的平方和最小。K-means算法是典型的局域原型的目标函数聚类方法的 代表,它是数据点到原型的莫种距离作为优化的目标函数, 利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应奥一初始聚类 中心向量V最有分类,使得评价指标 J最小。算法采用误差 平方和准则函数作为聚类准则函数。2、K-means算法的研究我们经常接触到的聚类分析,一般都是数值聚类,一种 常见的做法是同时提取N种特征,将它们放在一起组成一个N维向量,从而得到一个从原始

29、数据集合到N维向量空间的映射一一总是需要显式地或者隐式地完成这样一个过程,然后基于莫种规则进行分类,在该规则下,同组分 类具有最大的相似性。假设我们提取到原始数据的集合为(x1, x2, , xn) ,并 且每个xi为d维的向量,K-means聚类的目的就是,在给定分类组数k (k n )值的条件下,将原始数据分成k类S = S1, S2, , Sk,在数值模型上,即对以下表达式求最小值:这里以i表示分类Si的平均值。设我们一共有N个数 据点需要分为 K个cluster 簇,k-means要做的就是最小 化这个函数,其中0 O直接寻找先固定和在数据点n被归类到cluster k 的时候为1 ,

30、否则 为来最小化并不容易,不过我们可以采取迭代的办法:,很容易看由,只要将数据点归类到离他最近的那,再求最优的应该满足:。将对求导并,选择最优的 个中心就能保证最小。下一步则固定令导数等于零,很容易得到最小的时候(3)亦即的值应当是所有 cluster k中的数据点的平均值。由于每一次迭代都是取到的最小值,因此只会不断地减小(或者不变),而不会增加,这保证了 k-means最终会到达一个极小值。虽然 k-means并不能保 证总是能得到全局最优解,但是对于这样的问题,像 k-means这种复杂度的算法,这样的结果已经是很不错的了。K-means算法流程如下,流程如图1所示:(1)从n个数据对象

31、中任意选取k个对象作为初始的聚类中心。(2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中。(3)所有对象分配完成后,重新计算k个聚类的中心。(4)与前一次计算得到的 k个聚类中心比较,如果聚类中 心发生变化,转(2),否则转(5) o(5)输由聚类结果。图1 K-means流程图虽然K-means易于实现,但存在如下的缺点:(1)在K-means算法中K是事先给定的,这个 K值的选定是非常 难以估计的。很多时候,事先并不知道给定的数据集应该分 成多少个类别才最合适。(2).K-means 算法是动态聚类,具 有一定的自适应性,但是结果容易收到类别个数和由师聚类中心的影响,

32、因此聚类结果取决于K值和初始聚类中心的选择。(3).从K-means算法框架可以看由,该算法需要不断 地进行样本分类调整,不断地计算调整后的新的聚类中心, 因此当数据量非常大时,算法的时间开销是非常大的。(4).不能处理噪声数据和孤立点,不适合发现非凸面形状的簇。K-means的提由较早且易于理解和实现,但是由于上诉 的不足,所以在实际应用中往往会在传统K-means上加以改进。比如通过加权、主成成分分析、近邻比较等。具体的应 用包括:模式识别,空间数据分析(通过聚类特征空间创建 GIS中的主题映射,探测空间簇,用空间数据挖掘解释它们) 图像处理(例如遥感图像处理),经济学(特别指市场研究),

33、 络(文档分类,对 web日志数据进行聚类以发现相似访问模式组),商务(帮助市场分 析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征),土地使用(在一个地球观测 数据库中识别相似土地使用的地区),保险业(汽车保险单持有者的分组),城市规划(房子的类型,价值和地理分布 来识别房子组),生物学(用于推导植物和动物的分类,对 基因进行分类)等。但是应用K-means的领域有一个共同的特征,那就是K值可以借助经验或者一些数学工具给由以明 确且上下限相差较小的范围。3、K-means算法的设计(1)数据结构 typedef struct src double dtM; src

34、;int k;分类个数int n=0;/数据行数int *iindex;/随机产生质心序号src *index;/存放质心src *indexback;/ 备份 index 里的数据int *sumi;/每个质心簇存放的个数src *data;/存放原始数据src *group;/存放聚类后的数据,二维(2)算法设计void Initializ();/ 读入数据并进行质心初始化void Randomnum();/ 第一次随机产生质心组void CopyIndex();/ 备份质心组,将本次产生的质心 记录以和下次迭代的质心比较,当两次质心完全一致时,认 为已经聚类完毕。void Creatgr

35、oup();/ 为每一个数据分配组 void Group(int ti,src val);/int ComIndex();比较两次质心,如果完全一致结束迭代void IndexChange();/每次分配数据后改变质心组for(i=0;i 篇七:百度XX数据挖掘、机器学习实习一面百度XX数据挖掘 机器学习实习一面 (非计算机专业应聘百度技术类实习 )5月6号上午百度数据挖掘、机器学习实习笔试,从十 点到十一点半,我提前了半个小时交卷,一行代码也没写, 本来没想着能通过笔试了,没想到6号晚上正在上课时接到百度的面试通知,小小的兴奋了一下,不过第二天面试,连 衣服都没来得及准备,晚上急匆匆的在上查

36、了一些面试的技 巧和注意事项。5月7号中午坐公交车到了国际饭店,没有 见到有人接待,熟悉了一下环境,还有半个小时 1点,于是 坐在休闲沙发上等了一会。我提前5分钟去敲门了,面试官是一个三十岁左右的中年男士,看上去不是很严肃。他面前 摆着一台笔记本,我是和他面对面的位置坐着的。我首先把 简历给他看,他看了看就问了一个问题,然后又继续看我的 简历,还有在笔记本上不知道写什么。我心里想怎么没有让 自我介绍哇,见他这时候没有在继续问,有一点冷场,于是 我赶紧说“我先自我介绍一下吧”,他说好。我就按照事先准备的自我介绍了一下,过程中他没有打断,我基本就按照 从本科到研究生的时间顺序介绍了一下自己都干过什

37、么。然 后他问到最大嫡原理,我不懂。后来又问我对线性回归和 logistic 回归的理解,我只记得线性回归 (由于刚考完计量 经济学,对这个记得很清楚),跟他讲了关于最小二乘法估计参数,还有回归做完后要进行检验等等。至于 logistic 回归,实在是不记得了。他接着问我是偏重于系统还是算法, 我说目前在项目里研究的主要是算法,他看看简历,问我关 于遗传算法和蚁群算法。对遗传算法,我把它的流程讲了一 遍,然后面试官问我遗传算法主要在哪些方面应用,我回答 组合优化、分类等,他就让我举例 GA怎么应用在分类上的, 我停顿了一两秒在冥思苦想,他看我不太知道,就让我说在 其他方面的应用吧。于是我就把我

38、们项目里的那个遗传算法 跟他讲了(感觉跑题了,而且他在听到时候好像没怎么在意)。然后他继续问我 ACQ就大概说了一下它的原理。 然后,面试官生了一个情景题,大概是说从北京生发有很多 旅游路线,怎样从上百万个游客旅游路线中选由最优旅游路 线。跟ACO勺机制很像,我冥思苦想用 ACOW决,结果被他 说由很多问题,然后问我有没有什么解决方法,讨论了半天,貌似是可以用关联规则挖掘。当我说由关联规则这个词时, 他说可以用这个解决,我才恍然大悟,原来思路被蚁群给限 制了。他听到关联规则时,便在笔记本上写了啥,他就问 我对关联规则了解多少,我就跟他说了Apriori算法。然后问我你对分类、聚类了解吗,我就列

39、举了k均值聚类、神经络、k最近邻等。他还问我了一个问题,以后工作倾向于 金融、计算机、互联的哪一方面,具体我也不太懂,我就说 是互联,说研究生学的更偏重于互联。最后他问我能什么时候去实习,还有什么问题。我问了两个问题,一个是百度工作累不累,第二个是百度在深圳的发展。总的感觉就是,一定要把自己的想法说由来,不要被面试官限制思路,一定 要有什么想法就说由来,我之前那个关联规则就一直没说由 来,其实一开始是有这个想法的。然后就是表达要清楚,一 开始那个线性回归的原理我就没解释清楚,说的一塌糊涂。然后,对自己所说的一定要心里有底,你提到的每一个词都 可能被考官抓来深入的问。最后,我后悔最后问的那个问题

40、 了,问他百度工作累不累,问完我就后悔了,不应该问这样 的问题,就好像你怕累似的。篇八:实习报告实习报告学院:姓名:郭喜锋班级:实习单位:一、 实习基本情况(一)、实习目的为了加强对统计学知识的理解,完善自己的知识理论体 系。参观、学习企业的生产、销售流程和理解企业文化精髓, 有利于加深对现代企业营销管理现状的了解,加深对统计学 在企业中的感性和理性认识,并通过实习调研活动,锻炼分 析实际综合问题的能力,培养认真、严谨的工作作风,为就业和将来的学习工作提供一些宝贵的指导意见和实践经验。我们这次实习的主要目的有:1、企业对大学生的素质和知识技能的需求。2、统计在企业中的应用。3、统计的重要性。(

41、二)、实习时间XX年7月12日XX年7月23日(三)、领队老师牛胜强(四)、实习地点兰石集团有限公司(五)、实习部门统计核算部(六)、实习单位简介兰州兰石集团有限公司(简称兰石集团)是按照建立现 代企业制度的要求,在原兰州石油化工机械设备工程集团公 司的基础上,于XX年12月27日改制组建的新型集团公司。 兰石集团主营石油钻采机械、炼油化工设备及通用机械设备 制造。兰石集团的前身兰州石油化工机器总厂始建于1953年,是我国第一个五年计划期间国家156个重点建设项目中的两个项目一兰州石油化工机械厂和兰州炼油化工设备厂 合并而成的,是我国最大的石油钻采机械和炼油化工设备生 产基地,企业占地面积万平

42、方米。兰石集团现有兰州兰石国民油井石油工程有限公司、兰 州兰石重型装备股份公司、兰州兰石机械制造有限公司、兰 州兰石换热设备有限责任公司、兰州兰石精密机械设备有限公司、兰州四方容器设备有限责任公司、 兰州兰石重工新技术有限公司、兰州兰石铸造有限责任公司、 兰州兰石锻造热处理有限责任公司、兰州润安房地产开发有 限公司、兰州兰石球罐工程有限责任公司、兰州兰石化工机 械技术工程有限公司、兰州兰石环保工程有限责任公司、兰 州石油化工机器工程有限责任公司、兰州安一物业管理有限 公司、甘肃机械电子职工大学兰州兰石集团公司分校(模拟 法人运行)等16个控、参股子公司;有兰石商业运营管理 公司、综合经营管理公

43、司、新闻中心、动力公司、测试中心 等企业化单位5家。(七)、实习日志7月12日:在集团人力资源部杨同事的带领下,我们参观了集团内部分属子公司的生产车间、装配车间、检测车间 以及办公环境,学习了集团员工的规章制度、企业建设制度 等。7月13-14日:我被安排在了集团下属的兰石重工新技 术有限公司实习,在人力资源部吴部长的带领下,我参观了 装配车间的生产环节,学习了车间工人应遵守的规章制度,最后被分派到公司统计核算部工作,在部门杨主任的引导下, 了解了该部门的主要职能、工作重心以及对于统计专业知识 方面的应用。7月15-16日:依照工作原则,我学习了产业核算知识 和企业经营统计知识,认识到了统计核

44、算在起义当中的重要 性,并且对与工业经营统计有了初步的了解,懂得了在一个 企业当中应该怎样做统计核算工作。7月19-20日:学习了有关统计的各式报表,如统计台 帐、统计报表、产品统计汇总表等。7月21-22日:和办公室同事一起学习做一些简单的报 表,并仔细他们的讲解和指导意见,然后反复思考,融会贯 通。7月23日:实习期满的最后一天, 联系到了人力资源部 的吴部长,从他那儿得知企业对于人才选拔的评价重点,尤 其是统计专业的学生,必须得注重企业的应用,把学到的理 论与实践很好的结合起来,本着企业的目标去学习专业知识。 作为学生,在学校里一定要把学习搞好,这是一个学生走生 社会接受工作的唯一评价标准。(八)、理论指导及内容为了让我们对于自己所学的专业(统计学)理论及应用 有一个更深层次的理解,我院特组织了此次暑期专业性实习,我们一行五人与XX年7月12日-7月23日在兰石集团有限公司进行了 为期十天的专业实习,主要围绕实习目的,于此,我们被安 排在了公司统计核算部门实习,并且也了解到了有关公司的 统计软文,统计报表、统计台帐、有关此行业的统计资料, 让我们认识到了统计在现代企事业单位的应用及方向,可以 说没有统计就没有行业,无论哪一行都会用到统计,尤其是 经济部门,不管是正常工作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论