Hadoop教程
Hadoop是一個開源框架的集合,用于使用小型計(jì)算機(jī)網(wǎng)絡(luò)計(jì)算大量數(shù)據(jù),通常被稱為“大數(shù)據(jù)”。這是一個由Apache開發(fā)的開源應(yīng)用程序,世界各地的科技公司都使用它來從大量數(shù)據(jù)中獲得有意義的見解。它使用MapReduce編程模型來處理上述大數(shù)據(jù)。
因此,學(xué)習(xí)Hadoop應(yīng)用程序需要了解大數(shù)據(jù)和MapReduce編程工具。使用計(jì)算機(jī)陣列的分布式文件存儲網(wǎng)絡(luò)的主要原因是,假設(shè)硬件故障不可避免,應(yīng)該由系統(tǒng)自己處理,而不是每次發(fā)生故障時手動干預(yù)。Hadoop由兩個主要部分組成,即。存儲部分稱為Hadoop分布式文件系統(tǒng)(HDFS),處理部分稱為MapReduce編程模型。
我們需要學(xué)習(xí)什么Hadoop
我們在全球和各組織中每秒都會生成大量數(shù)據(jù)。數(shù)據(jù)庫管理系統(tǒng)中的RDBMS系統(tǒng)無法存儲和處理如此大量的數(shù)據(jù)或大數(shù)據(jù)。因此,企業(yè)已經(jīng)采用Hadoop體系結(jié)構(gòu)來存儲和處理他們的數(shù)據(jù),對于一些公司來說,這些數(shù)據(jù)每天以PB為單位運(yùn)行!
它既存儲結(jié)構(gòu)化數(shù)據(jù),也存儲非結(jié)構(gòu)化數(shù)據(jù)。如上所述,它可以在不需要人工干預(yù)的情況下處理由于計(jì)算機(jī)處理不完整而導(dǎo)致的硬件故障。此外,它還可以輕松快速地處理復(fù)雜的大型數(shù)據(jù)集。
由于幾乎所有的科技公司和主要的財(cái)富500強(qiáng)公司都使用Apache Hadoop來存儲和處理他們的數(shù)據(jù),因此,對于任何希望在這些公司工作的人來說,學(xué)習(xí)Hadoop都是一項(xiàng)必不可少的技能,事實(shí)上,Hadoop是公司招聘時最受歡迎的技能之一。
Hadoop的應(yīng)用
Hadoop應(yīng)用程序的一些最好的應(yīng)用程序是,
- 企業(yè)和組織使用Hadoop來跟蹤客戶并分析其網(wǎng)頁上的客戶活動,方法是跟蹤數(shù)據(jù),如在特定網(wǎng)頁上花費(fèi)的分鐘數(shù)、特定超鏈接上的特定點(diǎn)擊次數(shù)、特定日期的平均票數(shù)以及大量其他有價(jià)值的信息,這些信息可用于做出有效的業(yè)務(wù)決策</李>
- 社交媒體公司使用Hadoop來跟蹤人們的喜好、分享、評論等數(shù)據(jù),以跟蹤和分析消費(fèi)者對其推薦系統(tǒng)的偏好</李>
- 它還可用于網(wǎng)絡(luò)安全和威脅檢測組織,通過實(shí)時分析其服務(wù)器日志來發(fā)現(xiàn)漏洞,還可以檢測漏洞的原因,并提供各種見解,以使安全系統(tǒng)更加活躍
- 主要通過智能手機(jī)和智能設(shè)備(如地理標(biāo)簽、運(yùn)動傳感器)獲得的新技術(shù)還可以生成大量數(shù)據(jù),然后由Hadoop存儲和處理,提供有意義的信息,如跟蹤位置、心率、血糖等健康信息,由于通過處理如此大的數(shù)據(jù)集而獲得的見解,已經(jīng)并將取得重大突破</李>
范例
主要金融機(jī)構(gòu)已開始使用Hadoop處理銀行和其他金融及公共機(jī)構(gòu)積累的大數(shù)據(jù),以構(gòu)建復(fù)雜的金融模型、評估風(fēng)險(xiǎn)并創(chuàng)建復(fù)雜的交易算法,這也有助于它們以幾分之一秒的速度進(jìn)行交易。
先決條件
由于Hadoop是一個基于Java的應(yīng)用程序,因此必須具備Java的工作知識。此外,有Python和查詢語言編程知識者優(yōu)先。
目標(biāo)受眾
任何愿意學(xué)習(xí)大數(shù)據(jù)的人,尤其是計(jì)算機(jī)科學(xué)畢業(yè)生,以及任何在數(shù)據(jù)管理領(lǐng)域?qū)で筇嵘寄艿娜恕?/p>