"大(dà)數據"是一個(gè)體量特别大(dà),數據類别特别大(dà)的(de)數據集,并且這(zhè)樣的(de)數據集無法用(yòng)傳統數據庫工具對(duì)其内容進行抓取、管理(lǐ)和(hé)處理(lǐ)。
"大(dà)數據"首先是指數據體量(volumes)?大(dà),指代大(dà)型數據集,一般在10TB?規模左右,但在實際應用(yòng)中,很多(duō)企業用(yòng)戶把多(duō)個(gè)數據集放在一起,已經形成了(le)PB級的(de)數據量;其次是指數據類别(variety)大(dà),數據來(lái)自多(duō)種數據源,數據種類和(hé)格式日漸豐富,已沖破了(le)以前所限定的(de)結構化(huà)數據範疇,囊括了(le)半結構化(huà)和(hé)非結構化(huà)數據。
接著(zhe)是數據處理(lǐ)速度(Velocity)快(kuài),在數據量非常龐大(dà)的(de)情況下(xià),也(yě)能夠做(zuò)到數據的(de)實時(shí)處理(lǐ)。最後一個(gè)特點是指數據真實性(Veracity)高(gāo),随著(zhe)社交數據、企業内容、交易與應用(yòng)數據等新數據源的(de)興趣,傳統數據源的(de)局限被打破,企業愈發需要有效的(de)信息之力以确保其真實性及安全性。