574-87125682~574-87285796

软件開(kāi)發(fā)|系统開(kāi)發(fā)|信息黃影化建设|物联网開(kāi)發(fā)

KNOWLEDGE/知识

分享你我软件開(kāi)發(fā)、系统開(kāi)發(fā)方面(miàn就員)的感悟

大数据

發(fā)表時(shí)间:2022-08-19 08:39:05

文章作者:小编

浏览次数:

對(duì)于“大数据”(Big data)研究机构Gart市國ner给出了這(zhè)樣(yàng)的定义。“大数据”是需輛志要新处理模式才能(néng)具有更强的决策力、洞察發(fā)现力和流程优化能(光南néng)力来适应海量、高增長(cháng)率和多樣(yàng)聽少化的信息资产。

麦肯锡全球研究所给出的定义是:一種(zhǒng)规模大到(dào)在获現不取、存储、管理、分析方面(miàn)大大超出了传统数据库软件工具能(關男néng)力范围的数据集合,具有海量的数据规模、快速的数据流转、多樣(yàng林森)的数据类型和价值密度低四大特征。[3] 
大数据技术的战略意义不在于掌握庞大的数据信息,而在于對(duì)短少這(zhè)些含有意义的数据進(jìn)行专业化处理。换而言之,如果把大数睡數据比作一種(zhǒng)产业,那麼(me)這(zhè)種(zhǒn內機g)产业实现盈利的关键,在于提高對(duì)数据的“加工能(néng)力”內了,通過(guò)“加工”实现数据的“增值”。[4] 
从技术上看,大数据与云计算的关系就(jiù)像一枚硬币的正反面(miàn又也)一樣(yàng)密不可分。大数据必然无法用单台的计算机進(jìn)行处理,唱關必须采用分布式架构。它的特色在于對(duì)海量数据進(jì數地n)行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库微化和云存储、虚拟化技术。[1] 
随著(zhe)云時(shí)代的来临,大数据(Big data)也吸朋跳引了越来越多的关注。分析师团队认为,大数据(Big da睡相ta)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,這(z白訊hè)些数据在下载到(dào)关系型数据库用于分析時(shí)會(huì)花费吃答過(guò)多時(shí)间和金钱。大数据分析常和云计算联系到(哥和dào)一起(qǐ),因为实時(shí)的大型数据集分析需要像MapReduce一樣(yàng)的框架来向(xiàng)数十、数百或甚至数千的电脑分頻他配工作。
大数据需要特殊的技术,以有效地处理大量的容忍經(jīng)過(g著們uò)時(shí)间内的数据。适用于大数据的技术,包括大规模并行些明处理(MPP)数据库、数据挖掘、分布式文件系统分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB會又、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB跳銀。
它们按照進(jìn)率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB懂對
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB通章
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的黃長信息;[5] 
種(zhǒng)类(Variety):数据类型的多樣(yàn藍秒g)性;[5] 
速度(Velocity):指获得数据的速度;[5] 
可变性(Variability):妨碍了处理和有效地管理数据的過術玩(guò)程。[5] 
真实性(Veracity):数据的质量。[5] 
复杂性(Complexity):数据量巨大,来源多渠道(dào)。[5] 
价值(value):合理运用大数据,以低成(chéng)本创造高价值。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成(chén們務g)为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都(dōu)要暗是非结构化数据,這(zhè)些数据每年都(dōu)按指数增長(cháng得見)60%。[6] 大数据就(jiù)是互联网發(fā)展到(dào)现今懂器阶段的一種(zhǒng)表象或特征而已,沒(méi)有必要神话它或對(duì做懂)它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,這(zhè空小)些原本看起(qǐ)来很难收集和使用的数据開(kāi)始容易被體玩(bèi)利用起(qǐ)来了,通過(guò)各行各业的不断创新,大数据個河會(huì)逐步为人类创造更多的价值。[7] 
其次,想要系统的认知大数据,必须要全面(miàn)而细致的分解它,著(zhe)司業手从三个层面(miàn)来展開(kāi):
第一层面(miàn)是理论,理论是认知的必經(jīng)途径,也是被(bèi)在理广泛认同和传播的基线。在這(zhè)裡(lǐ)从大数据的特征定义理解行业對(路票duì)大数据的整体描绘和定性;从對(duì)大数据价值的探讨来河身深入解析大数据的珍贵所在;洞悉大数据的發(fā)展趋势;从大数据隐私了遠這(zhè)个特别而重要的视角审视人和数据之间的長(chán友村g)久博弈。
第二层面(miàn)是技术,技术是大数据价值体现的手段和前進(jìn)的基石。腦討在這(zhè)裡(lǐ)分别从云计算、分布式处理技术、存储技术和感知技术的發草可(fā)展来說(shuō)明大数据从采集、处理、存储到(dào)形我火成(chéng)结果的整个過(guò)程。
第三层面(miàn)是实践,实践是大数据的最终价值体现。在這(zhè通劇)裡(lǐ)分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据湖快四个方面(miàn)来描绘大数据已經(jīng)展现的美好(h兵道ǎo)景象及即將(jiāng)实现的蓝图。[7] 
洛杉矶警察局加利福尼亚大學(xué)合作利用大数据预测犯罪的發(fā)生。
Google流感趋势(Google Flu Trends)利用搜索关海開键词预测禽流感的散布。
统计學(xué)家内特·西尔弗(Nate Silver)利用大数音你据预测2012美國(guó)选举结果。
麻省理工學(xué)院利用手机定位数据和交通数据建立城市规划。
梅西百货的实時(shí)定价机制。根据需求和库存的情况,该公司基于和說SAS的系统對(duì)多达7300万種(zhǒng)货品進(年鐘jìn)行实時(shí)调价。[8] 
医疗行业早就(jiù)遇到(dào)了海量数据和非结构化数据的挑战,而近年報北来很多國(guó)家都(dōu)在积极推進(jìn)医疗信息下亮化發(fā)展,這(zhè)使得很多医疗机构有资金来做大数据分析。[9] 
现在的社會(huì)是一个高速發(fā)展的社會(huì),科技發(fā)达能麗,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就樹歌(jiù)是這(zhè)个高科技時(shí)代的产物。[10] 阿裡(lǐ)巴巴创办人马云来台演讲中就(jiù)提到(dào文了),未来的時(shí)代將(jiāng)不是IT時(shí)代,而是DT的時理嗎(shí)代,DT就(jiù)是Data Technology数据科技,草資显示大数据對(duì)于阿裡(lǐ)巴巴集团来說(shuō)举足轻重。[11] 
有人把数据比喻为蕴藏能(néng)量的煤矿。煤炭按照性质有焦煤話呢、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成(chéng)本如務又不一樣(yàng)。与此类似,大数据并不在“大”,而在于“有用”。价值含量他跳、挖掘成(chéng)本比数量更为重要。對(duì)于很多行业而言,如何利高刀用這(zhè)些大规模数据是赢得竞争的关键。[12] 
大数据的价值体现在以下几个方面(miàn):
(1)對(duì)大量消费者提供产品或服务的企业可以利用大数据我南進(jìn)行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面(miàn)临互联网压力之下必须转型的传统企业需要与時(sh商厭í)俱進(jìn)充分利用大数据的价值。
不過(guò),“大数据”在經(jīng)济發(fā)展中的巨大意义并不車農代表其能(néng)取代一切對(duì)于社會(huì)问题的理性思考,科數微學(xué)發(fā)展的逻辑不能(néng)被(bèi)湮沒業還(méi)在海量数据中。著名經(jīng)济學(xué)家路德维希東國·冯·米塞斯曾提醒過(guò):“就(jiù)今日言,有很多人忙碌于资料上我之无益累积,以致對(duì)问题之說(shuō)明与解决,丧失了其對書兵(duì)特殊的經(jīng)济意义的了解。”這(zhè)确实是需要警惕的。資間
在這(zhè)个快速發(fā)展的智能(néng)硬件時(s是相hí)代,困扰应用開(kāi)發(fā)者的一个重要问题就(j湖國iù)是如何在功率、覆盖范围、传输速率和成(chéng)本之间找到(dào)藍學那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成(chéng司水)本、提高效率、開(kāi)發(fā)新产品、做出更明智的业务湖跳决策等等。例如,通過(guò)结合大数据和高性能(néng)的分析,秒草下面(miàn)這(zhè)些對(duì)企业有益的情况都(dōu)計還可能(néng)會(huì)發(fā)生:
(1)及時(shí)解析故障、问题和缺陷的根源,每年可能(néng)为企业节省到業数十亿美元。
(2)为成(chéng)千上万的快递车辆规划实時(shí)交通路线,躲避拥堵舞玩。
(3)分析所有SKU,以利润最大化为目标来定价和清理库存。
(4)根据客户的购买习惯,为其推送他可能(néng)感兴趣的优惠信息。音兒
(5)从大量客户中快速识别出金牌客户。
(6)使用点击流分析和数据挖掘来规避欺诈行为。[13] 
趋势一:数据的资源化
何为资源化,是指大数据成(chéng)为企业和社會(huì)关注的重要藍綠战略资源,并已成(chéng)为大家争相抢夺的新焦点。因而,企业必须農見要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不開(kāi)云处理,云处理为大数据提供了弹性可拓展的基础设备,是产坐是生大数据的平台之一。自2013年開(kāi)始,大数据技术已開(k錯事āi)始和云计算技术紧密结合,预计未来兩(liǎng)者关系將(j他報iāng)更为密切。除此之外,物联网、移动互联网等新兴计算形态,刀街也將(jiāng)一齐助力大数据革命,让大数据营销發(fā)挥出更輛西大的影响力。
趋势三:科學(xué)理论的突破
随著(zhe)大数据的快速發(fā)展,就(jiù)像计算机和互联又會网一樣(yàng),大数据很有可能(néng)是新一轮的技术革短視命。随之兴起(qǐ)的数据挖掘、机器學(xué)习和人工智能(néng)等相关能線技术,可能(néng)會(huì)改变数据世界裡(lǐ)的很多師視算法和基础理论,实现科學(xué)技术上的突破。
趋势四:数据科學(xué)和数据联盟的成(chéng)立
未来,数据科學(xué)將(jiāng)成(chéng)为一门聽謝专门的學(xué)科,被(bèi)越来越多的人所认知。各大高校將(jiān呢鄉g)设立专门的数据科學(xué)类专业,也會(huì)催生一批与之相关的新答微的就(jiù)业岗位。与此同時(shí),基于数据這(zhè)个唱火基础平台,也將(jiāng)建立起(qǐ)跨领域的数据共享平台,之快亮後(hòu),数据共享將(jiāng)扩展到(dào)企业层面(鐘師miàn),并且成(chéng)为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事(shì)件的增長(cháng)率也许會(麗為huì)达到(dào)100%,除非数据在其源头就(jiù)能(néng)够得爸街到(dào)安全保障。可以說(shuō),在未来,每个财富500强弟黃企业都(dōu)會(huì)面(miàn)临数据攻击,无论他们是自草否已經(jīng)做好(hǎo)安全防范。而所有企业,无论规模大西畫小,都(dōu)需要重新审视今天的安全定义。在财富500强企业中,也購超過(guò)50%將(jiāng)會(huì)设置首席信息安全官這(zh路去è)一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建短腦之初便需要获得安全保障,而并非在数据保存的最後(hòu)一个环节要白,仅仅加强後(hòu)者的安全措施已被(bèi)证明于事(shì)答做无补。
趋势六:数据管理成(chéng)为核心竞争力
数据管理成(chéng)为核心竞争力,直接影响财务表现。当“数据资产是呢從企业核心资产”的概念深入人心之後(hòu),企业對(duì)于数据管理便資問有了更清晰的界定,將(jiāng)数据管理作为企业核心竞争力,持续發(fā)展,战略性规划与运用数据资产,成(chéng)为企业数据管理錯線的核心。数据资产管理效率与主营业务收入增長(cháng)率、销售收入增長(cháng)率显著正相关;此外,對(duì)于具有互联网思维的區一企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果將(jiān些長g)直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能(néng))成(chéng)功的关键
采用自助式商业智能(néng)工具進(jìn)行大数据处理的企业飛近將(jiāng)會(huì)脱颖而出。其中要面(miàn)临的一个挑战是,工很很多数据源會(huì)带来大量低质量数据。想要成(chéng)功,企业需要理間暗解原始数据与数据分析之间的差距,从而消除低质量数据并通過(guò)BI获得更佳黃醫决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多他月元参与者元素所构成(chéng)的生态系统,终端设备提供商、基础设到報施提供商、网络服务提供商、网络接入服务提供商、数据服务使能(néng)者、数据畫木服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的風通生态系统。而今,這(zhè)樣(yàng)一套数据生态系统的基本紅都雏形已然形成(chéng),接下来的發(fā)展將(jiāng)趋向紅吃(xiàng)于系统内部角色的细分,也就(jiù)是市场的细分;系统机制的调少水整,也就(jiù)是商业模式的创新;系统结构的调整,也就(jiù)是竞争通刀环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。[14] 

IT分析工具

编辑播报
大数据概念应用到(dào)IT操作工具产生的数据中,大数据可以使IT管但謝理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒劇多都(dōu)在产生数据。大数据非结构化或者结构数据都(dōu)代表了“所有用短學户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝對(du計慢ì)记录。
大数据分析的产生旨在于IT管理,企业可以將(jiāng)实時(shí)数据流分析和历史相关数据相结民影合,然後(hòu)大数据分析并發(fā)现它们所需的模型。反過(guò)来,秒務帮助预测和预防未来运行中断和性能(néng)问题。進(jìn)一步来讲,他體就们可以利用大数据了解使用模型以及地理趋势,進(jìn)而加深議鐘大数据對(duì)重要用户的洞察力。他们也可以追踪和记录网络行有生为,大数据轻松地识别业务影响;随著(zhe)對(duì)服务歌懂利用的深刻理解加快利润增長(cháng);同時(shí)跨多系统收集数黑刀据發(fā)展IT服务目录。
大数据分析的想法,尤其在IT操作方面(miàn),大数据對(duì)于我員子们發(fā)明并沒(méi)有什麼(me)作用,但是我们一直在其中。Ga地光rtner已經(jīng)关注這(zhè)个话题很多年了,基本上他们已會高經(jīng)强调,如果IT正在引進(jìn)新鲜灵感,他们將(j低筆iāng)會(huì)扔掉大数据老式方法開(kāi)發(fā)一个新的IT自對操作分析平台。[15] 

促進(jìn)發(fā)展

编辑播报
經(jīng)李克强总理签批,2015年9月,國(guó)务院印發(f木服ā)《促進(jìn)大数据發(fā)展行动纲要》(以下简称《纲要》),系统部署大数据發(fā)展工作。
《纲要》明确,推动大数据發(fā)展和应用,在未来5至10年打造刀家精准治理、多方协作的社會(huì)治理新模式,建立运行平稳、安全高效的經(見資jīng)济运行新机制,构建以人为本、惠及全民的民生服务新体系,開(道資kāi)启大众创业、万众创新的创新驱动新格局,培育高端智能(néng)、新兴都視繁荣的产业發(fā)展新生态。
《纲要》部署三方面(miàn)主要任务。一要加快政府数据開(kāi)放共享城外,推动资源整合,提升治理能(néng)力。大力推动政府部门数据共享,稳步推厭現动公共数据资源開(kāi)放,统筹规划大数据基础设施建设,支持宏观市些调控科學(xué)化,推动政府治理精准化,推進(jìn)商事(shì門多)服务便捷化,促進(jìn)安全保障高效化,加快民生服务普惠化。二要推动产业创跳媽新發(fā)展,培育新兴业态,助力經(jīng)济转型。發(老現fā)展大数据在工业、新兴产业、农业农村等行业领域应用,推动要兵大数据發(fā)展与科研创新有机结合,推進(jìn)基础研究和核服銀心技术攻关,形成(chéng)大数据产品体系,完善大数据产业链。三要强鄉唱化安全保障,提高管理水平,促進(jìn)健康發(fā)展。健全大数銀分据安全保障体系,强化安全支撑。[16] 
2015年9月18日贵州省启动我國(guó)首个大数据综合试验区的建设工作店可,力争通過(guò)3至5年的努力,將(jiāng)贵州大数据综紅金合试验区建设成(chéng)为全國(guó)数据汇聚应用新高地、综合身頻治理示范区、产业發(fā)展聚集区、创业创新首选地、政策创新錢厭先行区。
围绕這(zhè)一目标,贵州省將(jiāng)重点构建“三大体系”,重点黑店打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、老服防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大制朋数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平要謝台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程外子、政府数据共享開(kāi)放工程、综合治理示范提升工程、大数据便少不民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信你我息基础设施提升工程、人才培养引進(jìn)工程、大数据安全保障工程和窗兒大数据区域试点统筹發(fā)展工程。
此外,贵州省將(jiāng)计划通過(guò)综合试验区建设,探索大数靜關据应用的创新模式,培育大数据交易新的做法,開(kāi)展数据交易的市场西生试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促進(jìn)形件妹成(chéng)新的业态。
國(guó)家發(fā)展改革委有关专家表示,大数据综合试验区建设不睡什是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有機訊的利用好(hǎo),把新建的规划好(hǎo),避免造成(chéng)空间资熱內源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管媽黃数据,開(kāi)展先行先试,更好(hǎo)地服务國(guó)市小家大数据發(fā)展战略。[17] 

2016年3月17日,《中华人民共和國(guó)國(guó)民經(j器她īng)济和社會(huì)發(fā)展第十三个五年规划纲要》發(fā)布,其中北理第二十七章“实施國(guó)家大数据战略”提出:把大数据作为訊器基础性战略资源,全面(miàn)实施促進(jìn)大数据發(fā)展行下購动,加快推动数据资源共享開(kāi)放和開(kāi)發(fā)們去应用,助力产业转型升级和社會(huì)治理创新;具体包括:加媽錯快政府数据開(kāi)放共享、促進(jìn)大数据产业健康發知是(fā)展。 [1


相关案例查看更多