183.17.231.* 2020-05-28 10:48:31 |
隨著互聯(lián)網(wǎng)的不斷發(fā)展,越來(lái)越多的用戶(hù)和企業(yè)都開(kāi)始接觸和學(xué)習(xí)大數(shù)據(jù)技術(shù),下面我們就一起來(lái)了解一下,大數(shù)據(jù)的特性都有哪些,希望通過(guò)對(duì)本文的閱讀,大家在學(xué)習(xí)大數(shù)據(jù)技術(shù)的時(shí)候有更精確的了解。
大數(shù)據(jù)的特性都有哪些
一、體量(Volume)
大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個(gè)TB到幾個(gè)ZB。這些數(shù)據(jù)可能會(huì)分布在許多地方,通常是在一些連入因特網(wǎng)的計(jì)算網(wǎng)絡(luò)中。一般來(lái)說(shuō),凡是滿(mǎn)足大數(shù)據(jù)的幾個(gè)V的條件的數(shù)據(jù)都會(huì)因?yàn)樘蠖鵁o(wú)法被單獨(dú)的計(jì)算機(jī)處理。單單這一個(gè)問(wèn)題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計(jì)算技術(shù)(例如MapReduce)得以迅速崛起。
二、高速(Velocity)
大數(shù)據(jù)是在運(yùn)動(dòng)著的,通常處于很高的傳輸速度之下。它經(jīng)常被認(rèn)為是數(shù)據(jù)流,而數(shù)據(jù)流通常是很難被歸檔的(考慮到有限的網(wǎng)絡(luò)存儲(chǔ)空間,單單是高速就已經(jīng)是一個(gè)巨大的問(wèn)題)。這就是為什么只能收集到數(shù)據(jù)其中的某些部分。如果我們有能力收集數(shù)據(jù)的全部,長(zhǎng)時(shí)間存儲(chǔ)大量數(shù)據(jù)也會(huì)顯得非常昂貴,所以周期性的收集數(shù)據(jù)遺棄一部分?jǐn)?shù)據(jù)以節(jié)省空間,僅保留數(shù)據(jù)摘要(如平均值和方差)。這個(gè)問(wèn)題在未來(lái)會(huì)顯得更為嚴(yán)重,因?yàn)樵絹?lái)越多的數(shù)據(jù)正以越來(lái)越快的速度所產(chǎn)生。
三、多樣(Variety)
在過(guò)去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點(diǎn)也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來(lái)源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類(lèi)型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型。結(jié)構(gòu)化數(shù)據(jù)多被發(fā)現(xiàn)在傳統(tǒng)數(shù)據(jù)庫(kù)中,數(shù)據(jù)的類(lèi)型被預(yù)定義在定長(zhǎng)的列字段中。半結(jié)構(gòu)化數(shù)據(jù)有一些結(jié)構(gòu)特征,但不總是保持一致(舉例來(lái)說(shuō),看一看JSON文件),使得這種類(lèi)型難以處理。更富于挑戰(zhàn)的是非結(jié)構(gòu)化數(shù)據(jù)(例如純文本文件)毫無(wú)結(jié)構(gòu)特征可言。在大數(shù)據(jù)中,更常見(jiàn)的是半結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)源的數(shù)據(jù)格式還各不相同。
在過(guò)去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類(lèi)型。
四、準(zhǔn)確(Veracity)
這是一個(gè)在討論大數(shù)據(jù)時(shí)時(shí)常被忽略的一個(gè)屬性,部分原因是這個(gè)屬性相對(duì)來(lái)說(shuō)比較新,盡管它與其他的屬性同樣重要。這是一個(gè)與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會(huì)被用于決策的數(shù)據(jù)。
五、精確性與信噪比(signal-to-noiseratio)
在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對(duì)商業(yè)是真正**的,這在信息理論中是個(gè)十分重要的概念。由于并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個(gè)過(guò)程中,大數(shù)據(jù)的精確性會(huì)趨于變化。如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)的主要挑戰(zhàn)。注意,即使有些數(shù)據(jù)擁有這4種屬性中的一種或多種,也不能被歸類(lèi)為大數(shù)據(jù)。大數(shù)據(jù)擁有以上全部4種特性。大數(shù)據(jù)是一個(gè)重要課題,因?yàn)樗⒉蝗菀滋幚恚词故菍?duì)于一臺(tái)超級(jí)計(jì)算機(jī),也很難獨(dú)自**地展開(kāi)分析。
大數(shù)據(jù)分析有哪些特點(diǎn).中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示數(shù)據(jù)價(jià)值密度往往是衡量數(shù)據(jù)價(jià)值的重要基礎(chǔ),相對(duì)于傳統(tǒng)的信息系統(tǒng)來(lái)說(shuō),大數(shù)據(jù)當(dāng)中的數(shù)據(jù)價(jià)值密度是比較低的,這就需要有更快速和便捷的方式,來(lái)完成數(shù)據(jù)的價(jià)值化提取過(guò)程,而這也正是當(dāng)前大數(shù)據(jù)平臺(tái)所關(guān)注的核心能力之一。 |