什么是數(shù)據(jù)清洗?
“數(shù)據(jù)清洗確保無(wú)法辨認(rèn)的數(shù)據(jù)不會(huì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。無(wú)法辨認(rèn)的數(shù)據(jù)將影響到數(shù)據(jù)倉(cāng)庫(kù)中通過(guò)聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和關(guān)鍵績(jī)效指標(biāo)(KPI)所產(chǎn)生的報(bào)表。”
在哪里會(huì)用到數(shù)據(jù)清洗的一個(gè)簡(jiǎn)單例子是,數(shù)據(jù)是如何儲(chǔ)存在不同的應(yīng)用系統(tǒng)中的。例如:2007年3月11號(hào)可以?xún)?chǔ)存為“03/11/07”或“11/03/07”及其他格式。一個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目將數(shù)據(jù)輸入數(shù)據(jù)倉(cāng)庫(kù)之前需要將不同格式的日期轉(zhuǎn)變成一個(gè)統(tǒng)一的格式標(biāo)準(zhǔn)。
如何規(guī)劃數(shù)據(jù)清洗?
及早開(kāi)始對(duì)將要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行籌劃是很重要的,這一籌劃可能會(huì)隨著項(xiàng)目的成熟發(fā)展而改變,但當(dāng)你需要獲得數(shù)據(jù)擁有者在沒(méi)有事先通知的情況下不會(huì)改動(dòng)數(shù)據(jù)的格式的承諾時(shí),這些文件的蹤跡就變得極為有價(jià)值。
創(chuàng)建一個(gè)需要提取、轉(zhuǎn)換和加載的數(shù)據(jù)列表。為極有可能需要轉(zhuǎn)換格式的數(shù)據(jù)設(shè)立一個(gè)獨(dú)立的列表。對(duì)是否需要購(gòu)買(mǎi)提取、轉(zhuǎn)換和加載(ETL)工具做出決定,并留出一個(gè)全面的預(yù)算。從該領(lǐng)域的專(zhuān)家那里聽(tīng)取建議并評(píng)估產(chǎn)品是否適用于你企業(yè)的整體技術(shù)層次。
為什么要進(jìn)行提取,轉(zhuǎn)換和加載(ETL)?
提取、轉(zhuǎn)換和加載 (ETL) 指的是一種可以幫助確保數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前被清洗過(guò)(即符合標(biāo)準(zhǔn))的工具。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具更加容易被用來(lái)管理持續(xù)進(jìn)行的數(shù)據(jù)清洗。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具坐鎮(zhèn)在數(shù)據(jù)倉(cāng)庫(kù)之前,監(jiān)測(cè)輸入的數(shù)據(jù)。如果它遇到了程序指定轉(zhuǎn)換的數(shù)據(jù),它就會(huì)在數(shù)據(jù)載入數(shù)據(jù)倉(cāng)庫(kù)之前對(duì)其進(jìn)行轉(zhuǎn)換。
提取、轉(zhuǎn)換和加載 (ETL) 工具也可以用來(lái)從遠(yuǎn)程數(shù)據(jù)庫(kù)或者通過(guò)自動(dòng)設(shè)定的事件或通過(guò)人工干預(yù)提取數(shù)據(jù)。有替代工具可以替換ETL工具,這要取決于你項(xiàng)目的復(fù)雜性和預(yù)算。數(shù)據(jù)庫(kù)管理員們 (DBA) 可以編寫(xiě)腳本來(lái)完成提取、轉(zhuǎn)換和加載 (ETL) 的功能,通常能滿(mǎn)足較小的項(xiàng)目需要。微軟的SQL服務(wù)器都有一個(gè)免費(fèi)的被稱(chēng)為數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 的提取、轉(zhuǎn)換和加載 (ETL) 工具。數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 是一款不錯(cuò)的免費(fèi)工具,但它確實(shí)有其局限性,尤其是在數(shù)據(jù)清洗的持續(xù)管理上。
提取、轉(zhuǎn)換和加載 (ETL) 的供應(yīng)商有Informatica、IBM(Cognos)及Pentaho等。 在對(duì)所有產(chǎn)品進(jìn)行選擇時(shí),在接觸供應(yīng)商之前列出你認(rèn)為對(duì)一個(gè)提取、轉(zhuǎn)換和加載 (ETL) 供應(yīng)商的需求。從咨詢(xún)顧問(wèn)那里獲得服務(wù)還是值得的,它能在產(chǎn)品的選擇上幫助你進(jìn)行需求分析。
數(shù)據(jù)清洗和提取、轉(zhuǎn)換和加載(ETL)對(duì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的成功有多重要?
在數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生的結(jié)果符合利益相關(guān)者的期望值時(shí),提取、轉(zhuǎn)換和加載 (ETL) 通常被忽視和置于腦后的。結(jié)果是,提取、轉(zhuǎn)換和加載 (ETL) 冠以數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的“沉默的殺手”的稱(chēng)號(hào)。大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目由于數(shù)據(jù)清洗方面的意外情況而體驗(yàn)到延遲和預(yù)算超支
的情況。