三分鐘帶你了解什么是數(shù)據(jù)分析

2022-03-2619:25:15三分鐘帶你了解什么是數(shù)據(jù)分析已關(guān)閉評(píng)論



數(shù)據(jù)分析導(dǎo)論

數(shù)據(jù)分析是對(duì)原始數(shù)據(jù)進(jìn)行分析得出結(jié)論的科學(xué)。數(shù)據(jù)分析指的是分析數(shù)據(jù)以提高生產(chǎn)力和企業(yè)利潤(rùn)的技術(shù)。從不同來(lái)源提取和清理數(shù)據(jù),以分析各種模式。許多數(shù)據(jù)分析技術(shù)和流程被自動(dòng)化為機(jī)械流程和算法,這些流程和算法處理原始數(shù)據(jù)供人類(lèi)使用。

數(shù)據(jù)分析的類(lèi)型

根據(jù)分析數(shù)據(jù)的目的,數(shù)據(jù)分析過(guò)程主觀上分為三類(lèi):

Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和;其他

  • 描述性分析
  • 預(yù)測(cè)分析
  • 規(guī)定性分析

上述分析類(lèi)型的特征如下所示:

1。描述性分析

描述性分析側(cè)重于總結(jié)過(guò)去的數(shù)據(jù)以得出推論。
定量描述歷史數(shù)據(jù)分布最常用的方法包括:

  • 中心趨勢(shì)的衡量標(biāo)準(zhǔn):平均值、中位數(shù)、四分位數(shù)、模式
  • 可變性或擴(kuò)散的衡量標(biāo)準(zhǔn):范圍、四分位間范圍、百分位

近年來(lái),通過(guò)統(tǒng)計(jì)推斷過(guò)程克服了收集、存儲(chǔ)和理解海量數(shù)據(jù)堆的困難和局限性。利用抽樣方法,結(jié)合中心極限理論,推導(dǎo)出關(guān)于人口數(shù)據(jù)集統(tǒng)計(jì)的廣義推論。一家領(lǐng)先的新聞廣播公司在選舉日在投票站出口收集隨機(jī)選擇的選民的投票細(xì)節(jié),以得出有關(guān)全體民眾偏好的統(tǒng)計(jì)推斷。

人口數(shù)據(jù)集的重復(fù)采樣會(huì)產(chǎn)生大量樣本。通常,為了生成分層良好、無(wú)偏的人口數(shù)據(jù)集代表,最好采用聚類(lèi)抽樣。在采樣數(shù)據(jù)塊上計(jì)算感興趣的統(tǒng)計(jì)度量,以獲得稱為采樣分布的樣本統(tǒng)計(jì)值分布。利用中心極限理論,將抽樣分布的特征與總體數(shù)據(jù)集的特征聯(lián)系起來(lái)。

2。預(yù)測(cè)分析

預(yù)測(cè)分析利用歷史或過(guò)去數(shù)據(jù)中的模式來(lái)估計(jì)未來(lái)的結(jié)果、識(shí)別趨勢(shì)、發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和機(jī)會(huì),或預(yù)測(cè)流程行為。由于預(yù)測(cè)用例在本質(zhì)上是合理的,這些方法使用概率模型來(lái)測(cè)量所有可能結(jié)果的可能性。金融公司客戶服務(wù)門(mén)戶中的聊天機(jī)器人根據(jù)客戶過(guò)去在其web域中的活動(dòng)主動(dòng)了解客戶的意圖或需求。根據(jù)預(yù)測(cè)的上下文,聊天機(jī)器人與客戶進(jìn)行交互對(duì)話,以快速提供apt服務(wù),并獲得更好的客戶滿意度。
除了根據(jù)可用的過(guò)去數(shù)據(jù)預(yù)測(cè)未來(lái)會(huì)發(fā)生什么的外推場(chǎng)景外,很少有應(yīng)用程序借助可用的數(shù)據(jù)樣本猜測(cè)遺漏的數(shù)據(jù)條目。給定數(shù)據(jù)樣本范圍內(nèi)缺失值的這種近似在技術(shù)上稱為插值。一個(gè)強(qiáng)大的圖像編輯器應(yīng)用程序支持通過(guò)在缺失塊處插值特征函數(shù)來(lái)重建由于超文本而丟失的紋理部分。特征函數(shù)可以解釋為扭曲圖像紋理中圖案的數(shù)學(xué)表示法。
影響預(yù)測(cè)模型/策略選擇的重要因素包括:

  • 預(yù)測(cè)精度:表示預(yù)測(cè)值和實(shí)際值之間的接近程度。預(yù)測(cè)值與實(shí)際值之差的方差越小,則表明預(yù)測(cè)模型的精度越高</李>
  • 預(yù)測(cè)速度:在實(shí)時(shí)跟蹤應(yīng)用中,它的優(yōu)先級(jí)很高
  • 模型學(xué)習(xí)率:它取決于模型的復(fù)雜性和計(jì)算模型參數(shù)所涉及的計(jì)算</李>

3。規(guī)定性分析

規(guī)定性分析將所發(fā)現(xiàn)的知識(shí)作為描述性和預(yù)測(cè)性分析的一部分,來(lái)推薦一個(gè)上下文感知的行動(dòng)方案。采用先進(jìn)的統(tǒng)計(jì)技術(shù)和計(jì)算密集型優(yōu)化方法來(lái)理解估計(jì)預(yù)測(cè)的分布。
準(zhǔn)確地說(shuō),在預(yù)測(cè)分析過(guò)程中估計(jì)的每個(gè)結(jié)果的影響和益處都會(huì)被評(píng)估,以針對(duì)給定的一組條件做出啟發(fā)式和時(shí)間敏感的決策。一家股票市場(chǎng)咨詢公司對(duì)投資者投資組合中股票的預(yù)測(cè)價(jià)格進(jìn)行SWOT(優(yōu)勢(shì)、劣勢(shì)、機(jī)會(huì)和威脅)分析,并向客戶推薦最佳買(mǎi)入賣(mài)出期權(quán)。

數(shù)據(jù)分析中的流程

數(shù)據(jù)分析過(guò)程包括以下不同的數(shù)據(jù)處理階段:

1。數(shù)據(jù)提取

從不同類(lèi)型的多個(gè)數(shù)據(jù)源(包括網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)、遺留應(yīng)用程序)攝取數(shù)據(jù)會(huì)產(chǎn)生不同格式的輸入數(shù)據(jù)集。
輸入數(shù)據(jù)分析流程的數(shù)據(jù)格式大致可分為:

  • 結(jié)構(gòu)化數(shù)據(jù)對(duì)數(shù)據(jù)類(lèi)型以及相關(guān)字段長(zhǎng)度或字段分隔符有明確的定義。這類(lèi)數(shù)據(jù)可以像存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)(RDBMS)中的內(nèi)容一樣輕松查詢</李>
  • 半結(jié)構(gòu)化數(shù)據(jù)缺乏精確的布局定義,但可以根據(jù)標(biāo)準(zhǔn)模式或其他元數(shù)據(jù)規(guī)則識(shí)別、分離和分組數(shù)據(jù)元素。XML文件使用標(biāo)記來(lái)保存數(shù)據(jù),而Javascript對(duì)象表示法文件(JSON)以名稱-值對(duì)的形式保存數(shù)據(jù)。NoSQL(不僅是SQL)數(shù)據(jù)庫(kù),比如MongoDB和Coach base,也用于存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)</李>
  • 非結(jié)構(gòu)化數(shù)據(jù)包括社交媒體對(duì)話、圖像、音頻片段等。傳統(tǒng)的數(shù)據(jù)解析方法無(wú)法理解這些數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)池中</李>

結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)解析實(shí)現(xiàn)被整合到各種ETL工具中,如從頭算、Informatica、Datastage和Talend等開(kāi)源替代工具。

2。數(shù)據(jù)清理和轉(zhuǎn)換

清理解析后的數(shù)據(jù)是為了確保數(shù)據(jù)的一致性和相關(guān)數(shù)據(jù)在流程的后期階段的可用性。
數(shù)據(jù)分析中的主要清理操作包括:

  • 檢測(cè)和消除數(shù)據(jù)量中的異常值</李>
  • 刪除數(shù)據(jù)集中的重復(fù)項(xiàng)</李>
  • 在理解功能或用例的情況下處理數(shù)據(jù)記錄中缺失的條目</李>
  • 數(shù)據(jù)記錄(如“2月31日”)中允許的字段值的驗(yàn)證在任何日期字段中都不能是有效值</李>

清理后的數(shù)據(jù)被轉(zhuǎn)換成合適的格式來(lái)分析數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換包括:

  • 不需要的數(shù)據(jù)記錄的過(guò)濾器</李>
  • 連接從不同來(lái)源獲取的數(shù)據(jù)</李>
  • 數(shù)據(jù)的聚合或分組</李>
  • 數(shù)據(jù)類(lèi)型轉(zhuǎn)換</李>

3。關(guān)鍵績(jī)效指標(biāo)/洞察力推導(dǎo)

數(shù)據(jù)挖掘、深度學(xué)習(xí)方法用于評(píng)估關(guān)鍵績(jī)效指標(biāo)(KPI),或從清理和轉(zhuǎn)換的數(shù)據(jù)中獲得有價(jià)值的見(jiàn)解。基于分析的目標(biāo),使用各種模式識(shí)別技術(shù)(如k-means聚類(lèi)、SVM分類(lèi)、貝葉斯分類(lèi)器等)和機(jī)器學(xué)習(xí)模型(如馬爾可夫模型、高斯混合模型(GMM))進(jìn)行數(shù)據(jù)分析。
概率模型在訓(xùn)練階段學(xué)習(xí)最優(yōu)模型參數(shù),在驗(yàn)證階段,使用k-折疊交叉驗(yàn)證測(cè)試對(duì)模型進(jìn)行測(cè)試,以避免過(guò)擬合和欠擬合錯(cuò)誤。數(shù)據(jù)分析最常用的編程語(yǔ)言是R和Python。兩者都有一套豐富的庫(kù)(SciPy、NumPy、Pandas),它們都是開(kāi)源的,可以執(zhí)行復(fù)雜的數(shù)據(jù)分析。

4。數(shù)據(jù)可視化

數(shù)據(jù)可視化是清晰有效地展示未發(fā)現(xiàn)模式的過(guò)程,使用圖形、繪圖、儀表盤(pán)和圖形從數(shù)據(jù)中得出結(jié)論。

  • QlikView、Tableau等數(shù)據(jù)報(bào)告工具以不同的粒度級(jí)別顯示KPI和其他衍生指標(biāo)</李>
  • 報(bào)告工具使最終用戶能夠使用用戶友好的拖放界面,使用pivot和drill-down選項(xiàng)創(chuàng)建自定義報(bào)告</李>
  • 交互式數(shù)據(jù)可視化庫(kù),如D3。js(數(shù)據(jù)驅(qū)動(dòng)文檔)、HTML5圖表等。。用于提高探索分析數(shù)據(jù)的能力</李>