當(dāng)前位置:行情資訊 > 材料科技 大數(shù)據(jù)時代下,數(shù)據(jù)感知在數(shù)據(jù)質(zhì)量管理系統(tǒng)中的應(yīng)用

36大數(shù)據(jù)作者:佚名
2017-08-11 09:28:09

分享到:

摘要:
數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護(hù)高質(zhì)量的數(shù)據(jù),對業(yè)務(wù)及運營至關(guān)重要。而數(shù)據(jù)量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。

關(guān)于數(shù)據(jù)質(zhì)量管理,可能與大部分人沒有太大的關(guān)系。雖然,市面上有很多的公司在進(jìn)行數(shù)據(jù)的挖掘、分析方面業(yè)務(wù)的工作,但是關(guān)于數(shù)據(jù)質(zhì)量管理方面的公司真的是屈指可數(shù)。

由于本人所在的公司主要是為了解決發(fā)改委遇到的一些問題,而開展的1個項目。比如檢驗地市注冊資金是否存在異常這么1個簡單的例子。

而對于數(shù)據(jù)感知技術(shù),大部分沒有了解過。為了說明,大數(shù)據(jù)時代下,數(shù)據(jù)感知在數(shù)據(jù)質(zhì)量管理系統(tǒng)中的應(yīng)用,這里我們需要先解決幾個問題:

一、什么是數(shù)據(jù)質(zhì)量管理系統(tǒng)?

二、什么是數(shù)據(jù)感知技術(shù)?

三、數(shù)據(jù)感知技術(shù)的用途?

四、下面我們分別來進(jìn)行介紹。

?

什么是數(shù)據(jù)質(zhì)量管理系統(tǒng)

我們知道,數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護(hù)高質(zhì)量的數(shù)據(jù),對業(yè)務(wù)及運營至關(guān)重要。而數(shù)據(jù)量越大,有價值的信息獲取的難度就越大。如果獲取不到有用的信息,就不能很好的進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。

但是在這個過程中,有許多因素會導(dǎo)致這些數(shù)據(jù)資產(chǎn)貶值,比如數(shù)據(jù)的冗余和重復(fù)會導(dǎo)致信息的不可識別、不可信及精確度不夠等情況的發(fā)生。

而數(shù)據(jù)質(zhì)量管理系統(tǒng)就是對數(shù)據(jù)進(jìn)行處理后能夠提供高質(zhì)量的數(shù)據(jù),最終的目的是挖掘數(shù)據(jù)價值,推動業(yè)務(wù)發(fā)展,實現(xiàn)盈利。

而數(shù)據(jù)質(zhì)量管理系統(tǒng)主要由如下一些部分組成:

數(shù)據(jù)清洗與去重

數(shù)據(jù)可視化

數(shù)據(jù)評估

數(shù)據(jù)治理

數(shù)據(jù)挖掘

數(shù)據(jù)分析

而當(dāng)前系統(tǒng)主要采用純Python來實現(xiàn)。對于發(fā)改委動不動就千萬級別的數(shù)據(jù)還是可以很好的進(jìn)行駕馭的。

?

什么是數(shù)據(jù)感知技術(shù)?

對于感知的定義是客觀事件通過感覺器官在人腦中的直接反映。而所謂數(shù)據(jù)感知,就是通過對數(shù)據(jù)的一些特征信息來對數(shù)據(jù)進(jìn)行描述。比如,我們看到遠(yuǎn)處有1個人,長頭發(fā)穿著紅色衣服高跟鞋,那么我們就可以推測那個人是女的。當(dāng)然,這個過程也可能會出現(xiàn)不準(zhǔn)確的問題,比如那個人是個男的,就這樣打扮。

而數(shù)據(jù)感知技術(shù)可以實現(xiàn)給我們1組樣本數(shù)據(jù),我們可以知道它是哪種類型。比如,給我們?nèi)缦碌?span>100條記錄1組數(shù)據(jù):

通過我們的感知技術(shù)我們可以識別它為手機號碼和電話號碼,其中手機占據(jù)的比例假設(shè)為60.82%,而電話號碼占據(jù)的比例為32.22%,而剩下還有6.96%的數(shù)據(jù)無法被識別出來,因此我們可以推斷當(dāng)前數(shù)據(jù)為聯(lián)系方式為主。

需要注意的是,這100條記錄需要滿足隨機性,不然感知出來的結(jié)果可能會差強人意。

當(dāng)然,這是比較簡單的1個例子。當(dāng)然我們還可以識別中文姓名、地址信息、企業(yè)名稱、工商注冊范圍、工商注冊資金等類型,這里就涉及到概率論及統(tǒng)計學(xué)的一些內(nèi)容了。

當(dāng)然,還會涉及到一些線性代數(shù)的內(nèi)容,比如貝葉斯網(wǎng)絡(luò)轉(zhuǎn)移矩陣的使用,會用到矩陣的相關(guān)知識。

?

數(shù)據(jù)感知技術(shù)的用途

一般情況下,數(shù)據(jù)質(zhì)量管理系統(tǒng)都是基于規(guī)則庫進(jìn)行開展工作的,而對每組數(shù)據(jù)進(jìn)行規(guī)則的配置是1個繁瑣且耗時的工作,基本上沒有人愿意進(jìn)行這種工作。

而此時,通過數(shù)據(jù)感知技術(shù),我們可以自動的感知規(guī)則,并為每組數(shù)據(jù)推薦最適合的規(guī)則,從而簡化人員的工作量,提高效率。

另外通過數(shù)據(jù)感知技術(shù),還可以找到數(shù)據(jù)庫其他類似的類型的數(shù)據(jù),進(jìn)行數(shù)據(jù)關(guān)聯(lián)性的關(guān)聯(lián),彌補一些認(rèn)知上的缺陷。

?

總結(jié)

實際上,數(shù)據(jù)感知只是數(shù)據(jù)質(zhì)量管理中的1個很小的環(huán)節(jié),通過這種自動化的技術(shù),可以節(jié)省人工的成本及提高效率。