上回剛分享了一篇《知名網(wǎng)絡(luò)營銷公司介紹數(shù)據(jù)統(tǒng)計(jì)的意義》。今天北京網(wǎng)絡(luò)推廣介紹對于一個完善的數(shù)據(jù)平臺而言,數(shù)據(jù)必須能夠保證完整性、一致性、準(zhǔn)確性和及時性,這4點(diǎn)也是數(shù)據(jù)質(zhì)量的基本體現(xiàn)。這里除了及時性是與數(shù)據(jù)采集處理和任務(wù)調(diào)度的優(yōu)化相關(guān)外,其他幾項(xiàng)都是在數(shù)據(jù)的清洗和整理時需要考慮的內(nèi)容。在進(jìn)行數(shù)據(jù)清洗和整理前可以先用一些統(tǒng)計(jì)方法對數(shù)據(jù)的質(zhì)量進(jìn)行驗(yàn)證,通常叫做數(shù)據(jù)概要或者數(shù)據(jù)審核,在很多的ETL工具里包含了數(shù)據(jù)質(zhì)量檢查的功能。
在北京seo優(yōu)化看來數(shù)據(jù)完整性的問題一般體現(xiàn)在數(shù)據(jù)存在缺失值,比如獲取了一月份的一張報表,顯示以天為單位的數(shù)據(jù),一月份應(yīng)該包含31天,我們可以先驗(yàn)證是否有缺失的日期,可以通過統(tǒng)計(jì)唯①日期的個數(shù),如果唯①日期個數(shù)小于31個就說明某個日期的數(shù)據(jù)缺失;之后再驗(yàn)證是否有某些指標(biāo)的數(shù)值缺失,更簡單的方法就是尋找空的單元格,在Excel里可以使用“查找和選擇”里面的“定位條件”功能,選擇“空值”直接可以定位到表中的空單元格,如果在數(shù)據(jù)庫或日志文件里,某些空的數(shù)據(jù)可能用“NULL”等文本代替填充。
網(wǎng)絡(luò)營銷公司表示對于這些缺失值,為了之后的統(tǒng)計(jì)和分析的需要,我們可以通過某些方法進(jìn)行填充,常用的有均值、中位數(shù)、眾數(shù),或者根據(jù)指標(biāo)的變化趨勢使用回歸分析進(jìn)行擬合后算出預(yù)測值,如果與其他的指標(biāo)存在相關(guān)性,可以結(jié)合其他的指標(biāo)進(jìn)行估算。