183.17.230.* 2020-10-19 13:14:54 |
對于企業(yè)來說,坐擁龐大的數(shù)據(jù)資源,想要實現(xiàn)大數(shù)據(jù)分析,首先要建立自己的大數(shù)據(jù)系統(tǒng)平臺,每個公司都有自己的具體業(yè)務場景,因此對大數(shù)據(jù)平臺的要求也不同。今天我們僅從通用的角度,來聊聊大數(shù)據(jù)分析需要什么技術架構?
不同的業(yè)務場景下,需要根據(jù)實際的業(yè)務需求,選擇適合自己的技術框架,來搭建自己的大數(shù)據(jù)架構體系。但是從技術架構體系的共性來說,是可以從通用的技術模塊去理解,來幫助我們更好地學習和掌握大數(shù)據(jù)技術架構的。
大數(shù)據(jù)分析技術架構通用模塊:
數(shù)據(jù)收集模塊:主要負責收集各種數(shù)據(jù)源的數(shù)據(jù),包括日志文件、網(wǎng)絡請求、數(shù)據(jù)庫、消息隊列等,并將這些數(shù)據(jù)轉換為文件或者消息向后傳遞。
數(shù)據(jù)轉存模塊:主要負責將數(shù)據(jù)定時傳遞到分布式存儲或者實時傳遞給下游的數(shù)據(jù)處理程序。
ETL模塊:主要負責數(shù)據(jù)的清洗、格式和內(nèi)容的處理和轉換、數(shù)據(jù)分級分揀、加載至數(shù)據(jù)倉庫等。
數(shù)據(jù)倉庫模塊:這是整個架構的核心,數(shù)據(jù)倉庫是數(shù)據(jù)有組織的集中存儲的地方,負責數(shù)據(jù)的存取和管理。
元數(shù)據(jù)管理模塊:主要負責記錄和約束數(shù)據(jù)倉庫中數(shù)據(jù)的含義和格式,控制著數(shù)據(jù)的生命周期和數(shù)據(jù)質量。
分析引擎模塊:數(shù)據(jù)分析師交互最多的模塊,主要負責執(zhí)行各種分析語句或代碼,完成各種分析任務。
作業(yè)管理與調(diào)度模塊:負責分析作業(yè)的管理和定時調(diào)度,包括作業(yè)的增刪改查、查看修改歷史、設置調(diào)度定時和執(zhí)行引擎等。
資源分配與調(diào)度模塊:主要負責在多作業(yè)同時運行的場景下,**協(xié)調(diào)和分配集群的資源,使資源利用率**化。
大數(shù)據(jù)分析技術架構的通用模塊.中琛魔方大數(shù)據(jù)平臺(zcmorefun.com)表示大數(shù)據(jù)的技術結構需要與實際業(yè)務、學習階段相結合,先從通用層面去掌握,實際工作當中還需持續(xù)積累經(jīng)驗,才能真正地掌握扎實,融會貫通。 |