數(shù)據(jù)中臺之?dāng)?shù)據(jù)體系建設(shè)
文章分類:APP行業(yè)動態(tài) 發(fā)布時間:2020-05-28 原文作者:Shi Yongfeng 閱讀( )
1、數(shù)據(jù)體系規(guī)劃
中臺數(shù)據(jù)體系具備特征:
-
覆蓋全域數(shù)據(jù)
-
結(jié)構(gòu)層次清晰:縱向數(shù)據(jù)分層,橫向主題域與業(yè)務(wù)劃分
-
數(shù)據(jù)準(zhǔn)確性一致:定義一致性指標(biāo)、統(tǒng)一命名、統(tǒng)一計算口徑
-
性能提升
-
降低成本
-
方便易用
數(shù)據(jù)中臺體系架構(gòu)數(shù)據(jù)分層
-
貼源數(shù)據(jù)層ODS:操作數(shù)據(jù)層,對各個業(yè)務(wù)數(shù)據(jù)進(jìn)行采集、匯聚、整合、增加數(shù)據(jù)標(biāo)識、非結(jié)構(gòu)轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)等,不做深度清洗加工——數(shù)據(jù)匯聚接入,例如:東方國信爬蟲、新大陸數(shù)據(jù)匯聚接入
-
統(tǒng)一數(shù)倉層DW:細(xì)分為DWD(明細(xì)數(shù)據(jù)層)與DWS(匯總數(shù)據(jù)層),對業(yè)務(wù)數(shù)據(jù)進(jìn)行建模存儲。按業(yè)務(wù)角度從新定義組織一致的標(biāo)準(zhǔn)、維度、形成統(tǒng)一的標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)體系——數(shù)據(jù)整合清洗,HiveSQL開發(fā),數(shù)據(jù)清洗
-
標(biāo)簽數(shù)據(jù)層TDM:面向建模對象,通過ID-Mapping打通各個業(yè)務(wù)板塊,形成對象的全域標(biāo)簽體系,方便深度分析、挖掘、應(yīng)用——數(shù)據(jù)打標(biāo)簽,例如:客戶RFM等級分類
-
應(yīng)用數(shù)據(jù)層ADS:應(yīng)用業(yè)務(wù)使用的的數(shù)據(jù)均只來源于標(biāo)簽層與應(yīng)用層——適用于應(yīng)用業(yè)務(wù)的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的結(jié)果,例如:客戶銷售精細(xì)化分析
2、貼源數(shù)據(jù)層建設(shè)(ODS)——全域數(shù)據(jù)統(tǒng)一存儲
2.1相關(guān)概念:這里的ODS層,是指做多源數(shù)據(jù)的匯聚、整合。但傳統(tǒng)的ETL的ODS系統(tǒng)是指數(shù)據(jù)交換、實(shí)時性、報表等功能。
-
整合的三種數(shù)據(jù)分類:結(jié)構(gòu)化數(shù)據(jù)(表)、半結(jié)構(gòu)化數(shù)據(jù)(JSON)、非結(jié)構(gòu)化數(shù)據(jù)(圖片、視頻)
2.2數(shù)據(jù)表設(shè)計:
-
前綴+業(yè)務(wù)系統(tǒng)表名:例如fjyd_ods.ods_customer或ODS_fjyd_ods_customer
-
字段類型保持一致:用double類型
-
采用后綴標(biāo)識:ODS_fjyd_ods_customer_delta
-
日志、JSON等半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)解析到結(jié)構(gòu)化數(shù)據(jù)表中
2.3數(shù)據(jù)表實(shí)現(xiàn):一般使用數(shù)據(jù)同步工具,例如,DataPhin,實(shí)現(xiàn)ODS數(shù)據(jù)同步。步驟分為:發(fā)布采集、加入生產(chǎn)調(diào)度、配置參數(shù)限速、容錯監(jiān)控、告警機(jī)制
3、統(tǒng)一數(shù)倉層建設(shè)(DW或CDM)——標(biāo)準(zhǔn)化的數(shù)據(jù)底座
維度建模具備特點(diǎn):
-
模型簡單易理解
-
性能好
-
可擴(kuò)張性好
-
數(shù)據(jù)冗余
3.1相關(guān)概念:建模工作按照這些維度展開
-
業(yè)務(wù)板塊:個人與集團(tuán)、醫(yī)療、金融、地產(chǎn)、電信等
-
模型設(shè)計
-
數(shù)據(jù)域:例如,采購域、供應(yīng)鏈域、財務(wù)域、HR域等
-
業(yè)務(wù)過程
-
修飾詞
-
指標(biāo)設(shè)計
-
計算方法
-
維度表
-
事實(shí)表
-
粒度
-
一致性指標(biāo)含義
3.2數(shù)據(jù)域的劃分
-
第一階段:數(shù)據(jù)調(diào)研
-
第二階段:業(yè)務(wù)分類
-
第三階段:數(shù)據(jù)域定義
-
第四階段:總線矩陣構(gòu)建:數(shù)據(jù)域與業(yè)務(wù)過程圖
3.3指標(biāo)設(shè)計:
-
原子指標(biāo)+時間修飾+其他修飾詞/類型=派生指標(biāo) ,例如:stay_time_7d_APP,最近7天(1周)停留時間
3.4維度表設(shè)計
3.5事實(shí)表設(shè)計
3.6模型落地步驟:ODS數(shù)據(jù)同步任務(wù)正常運(yùn)行
4、標(biāo)簽數(shù)據(jù)層建設(shè)(TDW)——數(shù)據(jù)價值魅力所在
4.1相關(guān)概念
-
最終產(chǎn)物:標(biāo)簽融合表
-
對象
-
對象標(biāo)識
-
標(biāo)簽
-
標(biāo)簽類目
-
屬性標(biāo)簽
-
統(tǒng)計標(biāo)簽
-
對象標(biāo)識
-
算法標(biāo)簽
4.2確定對象
4.3對象ID打通
-
用戶多個ID-ID之間兩兩映射關(guān)聯(lián)打通,例如:身份證號碼——電話號碼映射關(guān)聯(lián)
4.3標(biāo)簽類目設(shè)計
-
人:個人、集團(tuán)、機(jī)構(gòu)等
-
物:單個物品、物品集合等
-
關(guān)系:單條關(guān)系記錄、關(guān)系集合體等
4.5標(biāo)簽設(shè)計
-
屬性+指標(biāo)+參數(shù)+特征
-
數(shù)據(jù)情況+業(yè)務(wù)需求
-
標(biāo)簽設(shè)計規(guī)則:層級逐級向下劃分
4.6標(biāo)簽融合表設(shè)計
-
縱表:類似K-V,ID-標(biāo)簽名-標(biāo)簽值
-
橫表(采用):ID-標(biāo)簽1-標(biāo)簽2-標(biāo)簽3-標(biāo)簽4……
4.7標(biāo)簽融合表實(shí)現(xiàn)步驟
5、應(yīng)用數(shù)據(jù)層建設(shè)(ADS)——靈活支撐業(yè)務(wù)需求
5.1相關(guān)概念
-
按業(yè)務(wù)需求,具有靈活性,類似于數(shù)據(jù)集市,簡單數(shù)據(jù)組裝層
5.2應(yīng)用數(shù)據(jù)表設(shè)計
-
以業(yè)務(wù)驅(qū)動建模,形成滿足業(yè)務(wù)的規(guī)范
-
即席查詢,大寬表形式組織
-
特定指標(biāo)查詢,K-V表形式組織
-
其他復(fù)雜數(shù)據(jù)結(jié)構(gòu)組織
5.3應(yīng)用數(shù)據(jù)表現(xiàn)(建設(shè)步驟)
-
調(diào)研業(yè)務(wù),明確數(shù)據(jù)內(nèi)容、格式、大小
-
盤點(diǎn)統(tǒng)一數(shù)倉層、標(biāo)簽數(shù)據(jù)層是否滿足業(yè)務(wù)數(shù)據(jù)需求
-
組裝應(yīng)用層數(shù)據(jù)
-
多維自由聚合分析
-
即系查詢,組裝成大寬表
-
特定指標(biāo),組裝成K-V結(jié)構(gòu)數(shù)據(jù)
5.4應(yīng)用數(shù)據(jù)場景支撐
6、中臺手記(四):數(shù)據(jù)資產(chǎn)建設(shè)
第一步:客戶標(biāo)簽體系
第二步:調(diào)研客戶數(shù)據(jù)來源
-
1、交易數(shù)據(jù)
-
2、評價數(shù)據(jù)