摘 要数据开展到今天,已不再是一个新的概念,基于大数据技术的应用也
层出不穷,但作为一项开展前景广阔的技术,其很多作用还有待挖掘,比如为人们的生活带来方便,为企业带来更多利益等.现今,互联网上每日产生的数据已由曾经的TB级开展到了今天的PB级、EB级甚至ZB级.如此爆炸性的数据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发,让每天的数据\"砂砾〞变为\"黄金〞.那么如何才能将大量的数据存储起来,并加以分析利用呢,大数据技术应运而生.大数据是指无法在可承受的时间围用常规软件工具进展捕捉、管理和处理的数据集合.大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进展专业化的处理.本文就大数据技术进展了深入探讨,从大数据的定义、特征以与目前的应用情况引入,简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法,并对大数据分析流程和框架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述.最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法.
关键词 大数据; 数据挖掘 ;深度学习;大数据分析;网络信息安全 一、 大数据概述
目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭.大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与\"海量数据〞和\"非常大的数据〞这些概念之间的不同.一般意义上,大数据是指无法在有限时间用传统IT技术和软硬件工具对其进展感知、获取、管理、处理和服务的数据集合.科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义.通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻涵. 2010年Apache Hadoop组织将大数据定义为,\"普
.
通的计算机软件无法在可承受的时间围捕捉、管理、处理的规模庞大的数据集〞.在此定义的根底上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为\"大数据:下一个创新、竞争和生产力的前沿〞的报
告,在报告中对大数据的定义进展了扩大.大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集.该定义有两方而涵:〔1〕符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;〔2〕不同部门符合大数据标准的数据集大小会存在差异.目前,大数据的一般围是从几个TB到数个PB〔数千TB〕[2].根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以与无法依靠传统的数据库技术进展管理,也是大数据的两个重要特征. 大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以与数据分析.数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的根底,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值.
在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特征5个,即5\" V〞特征:Volume<容量大>、Variety<种类多>、Velocity<速度快>、难辨识 Volume<容量大>是指大数据巨大的数据量与数据完整性.可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多. Variety<种类多>意味着要在海量、种类繁多的数据间发现其在关联.大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型. Velocity<速度快>可以理解为更快地满足实时性需求.大数据的结构和容等都可动态变化,而且变化频率高、速度快、围广,数据形态具有极大的动态性,处理需要极快的实时性. Veracity <难辨识>可以表现在数据的容、结构、处理、以与所含子数据间的关联等多方面.大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数.数间关联模糊不清、并且可能随时随机变化. Value<价值密度低>是指大数据的价值密度低,大数据中,往往有用数据和大量无用数据混在一起,因此大数据处理的一项必要工作就是\"不断地清垃圾、除噪声〞.大数据时代数据的价值就像沙里淘金,数据量越大里面真正有价值的东西就越少. 大数据除了以上介绍的四个主要特征外,还具有纬度高,多源性,不确定性、社会性等特征. 大数据的类型大致可分为三类:〔1〕传统企业数据〔Traditional enterprise data〕:包括 CRM systems的消费者数据,传统的ERP数据,库存数据以与账目数据等.〔2〕机器和传感器数据〔Machine-generated /sensor data〕:包括呼叫记录〔Call Detail Records〕,智能仪表,工 . 业设备传感器,设备日志〔通常是Digital exhaust〕,交易数据等.〔3〕社交数据〔Social data〕:包括用户行为记录,反响数据等.如Twitter,这样的社交媒体平台. 大数据挖掘商业价值的方法主要分为四种:〔1〕客户群体细分,然后为每个群体量定制特别的服务.〔2〕模拟现实环境,开掘新的需求同时提高投资的回报率.〔3〕加强部门联系,提高整条管理链条和产业链条的效率.〔4〕降低服务本钱,发现隐藏线索进展产品和服务的创新. 从三大产业的角度将大数据的核心商业价值分类讨论.大数据应用,是利用大数据分析的结果,为用户提供辅助决策,开掘潜在价值的过程.从理论上来看:所有产业都会从大数据的开展中受益.但由于数据缺乏以与从业人员本身的原因,第一、第二产业的开展速度相对于第三产业来说会缓慢一些. 具体实例 洛杉矶局和加利福尼亚大学合作利用大数据预测犯罪的发生. google流感趋势 梅西百货的实时定价机制.根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进展实时调价. 医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化开展,这使得很多医疗机构有资金来做大数据分析. 二、大数据分析方法 统计方法: 指标比照分析法指标比照分析法 统计分析的八种方法一、指标比照分析法指标比照分析法,又称比拟分析法,是统计分析中最常用的方法.是通过有关的指标比照来反映事物数量上差异和变化的方法,有比拟才能鉴别. 指标分析比照分析方法可分为静态比拟和动态比拟分析.静态比拟是同一时间条件下不同总体指标比拟,如不同部门、不同地区、不同国家的比拟,也叫横向比拟;动态比拟是同一总体条件不同时期指标数值的比拟,也叫纵向比拟. 二、分组分析法指标比照分析法 . 分组分析法指标比照分析法比照,但组成统计总体的各单位具有多种特征,这就使得在同一总体围的各单位之间产生了许多差异,统计分析不仅要对总体数量特征和数量关系进展分析,还要深入总体的部进展分组分析.分组分析法就是根据统计分析的目的要求,把所研究的总体按照一个或者几个标志划分为假设干个局部,加以整理,进展观察、分析,以揭示其在的联系和规律性. 统计分组法的关键问题在于正确选择分组标值和划分各组界限. 三、时间数列与动态分析法 时间数列.是将同一指标在时间上变化和开展的一系列数值,按时间先后顺序排列,就形成时间数列,又称动态数列.它能反映社会经济现象的开展变动情况,通过时间数列的编制和分析,可以找出动态变化规律,为预测未来的开展趋势提供依据.时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列. 时间数列速度指标.根据绝对数时间数列可以计算的速度指标:有开展速度、增长速度、平均开展速度、平均增长速度. 动态分析法.在统计分析中,如果只有孤立的一个时期指标值,是很难作出判断的.如果编制了时间数列,就可以进展动态分析,反映其开展水平和速度的变化规律 指数分析法 指数是指反映社会经济现象变动情况的相对数.有广义和狭义之分.根据指数所研究的围不同可以有个体指数、类指数与总指数之分. 指数的作用:一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度;二是可以分析某种社会经济现象的总变动受各因素变动影响的程度,这是一种因素分析法.操作方法是:通过指数体系中的数量关系,假定其他因素不变,来观察某一因素的变动对总变动的影响. 用指数进展因素分析.因素分析就是将研究对象分解为各个因素,把研究对象的总体看成是各因素变动共同的结果,通过对各个因素的分析,对研究对象总变动中各项因素的影响程度进展测定.因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析,对平均指标变动的因素分析. 五、平衡分析法 平衡分析是研究社会经济现象数量变化对等关系的一种方法.它把对立统一的双方按其构成要素一一排列起来,给人以整体的概念,以便于全局来观察它们之间的平衡关系.平衡关系广泛存在于经济生活中,大至全国宏观经济运行,小至个人经济收支.平衡分析的作用:一是从数量对等关系上反映社会经济现象的平衡状 . 况,分析各种比例关系相适应状况;二是揭示不平衡的因素和开展潜力;三是利用平衡关系可以从各项指标中推算未知的个别指标. 六、综合评价分析 社会经济分析现象往往是错综复杂的,社会经济运行状况是多种因素综合作用的结果,而且各个因素的变动方向和变动程度是不同的.如对宏观经济运行的评价,涉与生活、分配、流通、消费各个方面;对企业经济效益的评价,涉与人、财、物合理利用和市场销售状况.如果只用单一指标,就难以作出恰当的评价. 进展综合评价包括四个步骤: 1.确定评价指标体系,这是综合评价的根底和依据.要注意指标体系的全面性和系统性. 2.搜集数据,并对不同计量单位的指标数值进展同度量处理.可采用相对化处理、函数化处理、标准化处理等方法. 3.确定各指标的权数,以保证评价的科学性.根据各个指标所处的地位和对总体影响程度不同,需要对不同指标赋予不同的权数. 4.对指标进展汇总,计算综合分值,并据此作出综合评价. 七、景气分析 经济波动是客观存在的,是任何国家都难以完全防止的.如何防止大的经济波动,保持经济的稳定开展,一直是各国和经济之专家在宏观和决策中面临的重要课题,景气分析正是适应这一要求而产生和开展的.景气分析是一种综合评价分析,可分为宏观经济景气分析和企业景气调查分析. 宏观经济景气分析.是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经济运行状态起到晴雨表和报警器的作用,便于和有关部门与时采取宏观措施.以经常性的小调整,防止经济的大起大落. 企业景气调查分析.是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的形式,让企业负责人回答有关情况判断和预期.容分为两类:一是对宏观经济总体的判断和预期;一是对企业经营状况的判断和预期,如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等. 八、预测分析 宏观经济决策和微观经济决策,不仅需要了解经济运行中已经发生了的实际情况,而且更需要预见未来将发生的情况.根据的过去和现在推测未来,就是预测分析. . 统计预测属于定量预测,是以数据分析为主,在预测中结合定性分析.统计预测的方法大致可分为两类:一类是主要根据指标时间数列自身变化与时间的依存关系进展预测,属于时间数列分析;另一类是根据指标之间相互影响的因果关系进展预测,属于回归分析. 挖掘方法: 在大数据时代,数据挖掘是最关键的工作.大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能,机器学习,模式学习,统计学等.通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场、减少风险、理性面对市场,并做出正确的决策.目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等.大数据的挖掘常用的方法有分类、回归分析、聚类、关联规如此等.这些方法从不同的角度对数据进展挖掘. <1>分类.分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中.可以应用到涉与到应用分类、趋势预测中,如淘宝商铺将用户在一段时间的购置情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量. <2>回归分析.回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系.它可以应用到对数据序列的预测与相关关系的研究中去.在市场营销中,回归分析可以被应用到各个方面.如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变. <3>聚类.聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别.属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低. <4>关联规如此.关联规如此是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现.关联规如此的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规如此.关联规如此挖掘技术已经被广泛应用于金融行业 . 企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销. 神经网络方法: 神经网络方法.神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以与那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题.典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反响式神经网络模型,以Hopfield 的离散模型和连续模型为代表.第三类是用于聚类的自组织映射方法,以ART 模型为代表.虽然神经网络有多种模型与算法,但在特定领域的数据挖掘中使用何种模型与算法并没有统一的规如此,而且人们很难理解网络的学习与决策过程. 基于深度学习框架的方法: 深度学习是多学科领域的交叉,比如神经网络、人工智能、图建模、最优化理论、模式识别和信号处理.需要注意的是本文所描述的深度学习是在信号和信息处理容中学习出一种深度结构.它不是对信号和信息处理知识的理解,尽管某些意义上说它俩相似,但深度学习重点在于学习出一种深度网络结构,是实实在在存在的一种计算机可存储结构,这种结构表示了信号的某种意义上的涵.从06年开始,深度结构学习方法〔深度学习或者分层学习方法〕作为机器学习领域的新的研究方向出现.由于三种主要领域的技术进步〔比如芯片处理性能的巨大提升,数据爆炸性增长和机器学习与信信号处理研究的进步〕,在过去的短短几年时间,深度学习技术得到快速开展,已经深深的影响了学术领域,其研究涉与的应用领域包括计算机视觉、语音识别、对话语音识别、图像特征编码、语意表达分类、自然语言理解、手写识别、音频处理、信息检索、机器人学. 深度学习的具体模型有 自动编码器〔稀疏自动编码器、降噪自动编码器〕、深度置信网络以与卷积神经网络. 3、简述大数据分析流程和框架、大数据存储模式与服务机制、大数据建模分析方法和深度学习理论 . 大数据的处理流程可以定义为在适宜工具的辅助下,对广泛异构的数据源进展抽取和集成,结果按照一定的标准统一存储.利用适宜的数据分析技术对存储的数据进展分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户. 可分为三个主要环节:数据抽取与集成、数据分析以与数据解释. 数据的处理与集:成主要是完成对于己经采集到的数据进展适当的处理、清洗去噪以与进一步的集成存储.首先将这些结构复杂的数据转换为单一的或是便于处理的结构.还需对这些数据进展\"去噪〞和清洗,以保证数据的质量以与可靠性.现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法. 数据分析:这是整个大数据处理流程的核心.因为在数据分析的过程中,会发现数据的价值所在.经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进展进一步的处理和分析.传统的数据处理分析方法有挖掘建模分析〔数据挖掘方法〕,智能建模分析〔机器学习方法〕,统计分析等. 数据解释:对于广阔的数据信息用户来讲,最关心的并非是数据的分析处理过程,而是对大数据分析结果的解释与展示.数据解释常采用的方法有:可视化方式,人机交互方式,分析图表方式等,其中常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、向像素的技术和分布式技术等. 1.4.1 MapReduce MapReduce系统主要由两个局部组成:Map和Reduce. MapReduce的核心思想在于\"分而治之〞,也就是说,首先将数据源分为假设干局部,每个局部对应一个初始的键植< Key/ Value>对,并分别给不同的Map任务区处理,这时的Map对初始的键一值 分布式文件系统GFS.这个分布式文件系统是个基于分布式集群的大型分布式处理系统,作为上层应用的支撑,为MapReduce计算框架提供低层数据存储和数据可靠性的保障.GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储. 1.4.3分布式并行数据库〔BigTable〕 BigTable中的数据均以子表形式保存于子表服务器上,主服务器创建子表,最终将数据以UFS形式存储于GFS文件系统中;同时客户端直接和子表服务器通信,Chubby服务器用来对子表服务器进展状态监控;主服务器可以查看Chubby服务器以观测子表状态检查是否存在异常,假设有异常如此会终比故障的子服务器并将其任务转移至其余服务器. . 现在Hadoop己经开展为一个包括分布式文件系统 1>大数据的预处理阶段:大数据的预处理过程即一个数据的清洗过程,从字而上理解是将已存储好的数据进展一个去\"脏〞的过程.更确切的说法是将存储数据中可识别的错误去除.在数据仓库中和数据挖掘过程中,数据清洗是使得数据在一致 2>大数据的输入接口:在大数据的预处理阶段完成后,对其满足输入规的数据进展统一管理,并将输入数据进展一定的特征提取和数据的关联分析.在通过使用输入接口的同时,开放算法接口模块卡,接收来自不同的算法,而对数据集进展分析和整理. 3>分析沙箱:分析沙箱就研究而言,相当于一个资源组,在这个资源组里,分析专家们能够根据个人的意愿对数据进展各种探索.在分析的整个流程中,沙箱为使用分析平台的专家们提供更为专业的模块接口和参数选择,方便分析人员提取更为有效的数据参数,来更加准确地展示分析结果. 4>大数据的输出接口:作为大数据分析的出口,为大数据的输出提供了统一的规和标准.作为大数据展示的最后一道工序,大数据的输出接口应具备如下特点: <1>规性、<2> 可复用性与剩余资料保存性、<3>模型化、<4>查询共享性、<5>索引性. 5>大数据的展示:可视化工具开展得如此迅速,同时也被越来越多地应用在各个领域,在大数据的结果展示中,采用数据可视化技术将更加高效形象地展示大数据的价值和鲜明的比照性. 分布式系统包含多个自主的处理单元,通过计算机网络互联来写作完成分配的任务.分布式系统更能适应现在分布广泛的企业的组织结构,更加可靠,响应速度更快. 分布式文件系统:大数据存储需要多种技术的协同工作,其中文件系统为其提供最底层的存储能力的支持.分布式文件系统是一个基于C/S的应用程序,允许来自不同终端用户访问和处理服务器上的文件.GFS主要采取主从结构通过数据分块、追加更新等方式实现海量数据的高速存储. 分布式键值系统:分布式键值系统用于存储关系简单的半结构化数据,可以看作是分布式表格系统的一种特例,它只提供基于主键的CRUD功能,一般用作分布式缓存. . 分布式表格系统:分布式表格系统对外提供表格模型,用于存储较为复杂的半结构化数据.与分布式键值系统相比,它不仅支持简单的CRUD操作,还支持扫描某个主键围的操作.与分布式数据库相比,分布式表格系统主要是单表操作. 分布式数据库:分布式数据库指的是多个物理上分散的数据库单元通过计算机网络互连组成的一个逻辑上统一的数据库.它对用户透明,一般是单机关系型数据库扩展而来. 服务是大数据开展的核心,唯有将重点放在数据的分析挖掘和应用上,才能最大程度实现大数据的真正价值,也唯有分析与应用才是大数据与大数据产业开展的重中之重.因此可以认为,以数据为中心,为满足用户对数据的分析应用需求而提供的大数据服务将是大数据开展的核心.同时,大数据服务不是一种通用型的服务,而是与根底数据和用户需求息息相关的定制化服务、知识型服务. 第一,自动预测趋势和行为.数据挖掘自动在大型数据库中寻找预测性信息,以往需要进展大量手工分析的问题如今可以迅速直接由数据本身得出结论. 第二,关联分析.数据关联是数据库中存在的一类重要的可被发现的知识,假设两个或多个变量的取值之间存在某种规律性,就称为关联.关联分析旨在找出具有强相关关系的几个属性.典型案例是啤酒和尿布的关联分析,关联分析经常用在电子商务的产品推荐中. 第三,聚类.数据库中的一些相类似的记录可以划归到一起,即聚类.聚类常常帮助人们对事物进展再认识.在社交网络分析中经常用到聚类技术. 大数据分析技术经过这几年的开展,已经形成了一些比拟成熟稳定的模型算法.常见的模型算法有关联规如此分析、决策树、神经网络、K-MEANS聚类、支持向量机、多元线性回归、广义线性回归、贝叶斯网络、Cox以与K近邻等.这些算法模型有的适合预测趋势和行为,有的适合关联分析,有的适合聚类分析;每种模型算法都有各自的优劣性,我们可以针对不同的场景选择适宜的算法模型进展大数据分析挖掘. 五、以网络信息安全为例,阐述该领域的大数据分析过程和方法 在网络信息安全领域,应有效利用大数据中的价值,比如棱镜门,就是在监听有价值的信息, 六、大数据分析未来开展展望 展望未来,面对大数据,将有几个核心的问题需要研究分析. 大数据的复杂性度量,数据使人们处理计算问题时获得了前所未有的大规模样本,但同时大数据也呈现出前所未有的复杂特征,不得不面对更加复杂的数据对象,其典型的特性是类型和模式多样、关联关系繁杂、质量良莠不齐、大数据在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战,导致了传统数据计算模式下时空 . 维度上计算复杂度的激增.如何量化定义大数据复杂性的本质特征与其外在度量指标,进而研究网络数据复杂性的在机理是个重要的研究问题. 数据计算需要新模式与新式,大数据的诸多突出特性使得传统的数据分析,数据挖掘,数据处理的方式方法都不再适用.因此,面对大数据,我们需要有数据密集型计算的根本模式和新型的计算式,需要提出数据计算的效率评估方法等根本理论. 新型的IT根底框架,大数据对于系统,不管是存储系统、传输系统还是计算机系统都提出了很多苛刻的要求.因此,需要考虑整个IT框架进展性的重构,而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构. 数据的安全和隐私问题,只要有数据,就必然存在安全与隐私的问题,随着数据的增多,网络大数据面临着重大的风险和威胁,需要遵守更多更合理的规定,而传统的数据保护方法无法满足这一要求.因此,面对大数据的安全与隐私保护,有大量的问题急需得到解决. 6、总结 这是一个信息爆炸的时代,不管是研究领域、商业领域还是工业领域,都要同数据打交道.随着科技的迅猛开展,更加先进的存储技术的出现,使得人们必须而对规模更加巨大、结构更加复杂的数据,并函待从中挖掘出有用的信息.目前对于大数据的研究尚属起步阶段,还有很多问题函待解决.大数据时代己经降临,如何从海量数据中发现知识、获取信息,寻找隐藏在大数据中的模式、趋势和相关性,揭示社会运行和开展规律,以与可能的科研、商业、工业等应用前景,都需要我们更加深入的了解大数据,并具有更加深刻的数据洞察力. .
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- obuygou.com 版权所有 赣ICP备2024042798号-5
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务