4 veidi, kā lietot R un Hadoop kopā

R un Hadoop diezgan labi papildina viens otru lielo datu vizualizācijas un analīzes ziņā. Šajā emuāra ziņā tiek runāts par 4 veidiem, kā tos izmantot kopā.

Hadoop ir graujošs Java bāzes programmēšanas ietvars, kas atbalsta lielu datu kopu apstrādi sadalītā skaitļošanas vidē, savukārt R ir programmēšanas valodas un programmatūras vide statistikas skaitļošanai un grafikai. R valoda tiek plaši izmantota statistiku un datu ieguvēju vidū, lai izstrādātu statistikas programmatūru un veiktu datu analīzi. Interaktīvās datu analīzes, vispārējas nozīmes statistikas un prognozējošās modelēšanas jomās R ir ieguvis lielu popularitāti klasifikācijas, kopu veidošanas un ranžēšanas iespēju dēļ.



KM



Hadoops un R diezgan labi papildina lielo datu vizualizāciju un analīzi.

Izmantojot R un Hadoop

Ir četri dažādi Hadoop un R izmantošanas veidi:



1. RHadoop

RHadoop ir trīs R paku kolekcija: rmr, rhdfs un rhbase. rmr pakete nodrošina Hadoop MapReduce funkcionalitāti R, rhdfs nodrošina HDFS failu pārvaldību R un rhbase nodrošina HBase datu bāzes pārvaldību R iekšienē. Katru no šīm primārajām pakotnēm var izmantot, lai labāk analizētu un pārvaldītu Hadoop ietvara datus.

2. ORCH



ORCH nozīmē Oracle R Connector for Hadoop. Tā ir R pakotņu kolekcija, kas nodrošina atbilstošās saskarnes darbam ar Hive tabulām, Apache Hadoop skaitļošanas infrastruktūru, vietējo R vidi un Oracle datu bāzes tabulām. Turklāt ORCH nodrošina arī prognozējošas analītiskās metodes, kuras var izmantot HDFS failos esošajiem datiem.

3. RIPIS

RHIPE ir R pakete, kas nodrošina API, lai izmantotu Hadoop. RHIPE apzīmē R un Hadoop integrēto programmēšanas vidi un būtībā ir RHadoop ar atšķirīgu API.

Četri. Hadoop straumēšana

Hadoop Streaming ir utilīta, kas ļauj lietotājiem izveidot un vadīt darbavietas ar visiem izpildāmajiem failiem, piemēram, kartētāju un / vai reduktoru. Izmantojot straumēšanas sistēmu, var izstrādāt strādājošus Hadoop darbus ar pietiekamām zināšanām par Java, lai uzrakstītu divus čaulas skriptus, kas darbojas tandēmā.

R un Hadoop kombinācija kļūst par obligātu rīku komplektu cilvēkiem, kuri strādā ar statistiku un lielām datu kopām. Tomēr daži Hadoop entuziasti ir pacēluši sarkanu karogu, strādājot ar ārkārtīgi lieliem Big Data fragmentiem. Viņi apgalvo, ka R priekšrocība nav tā sintakse, bet izsmeļoša primitīvu bibliotēka vizualizācijai un statistikai. Šīs bibliotēkas būtībā netiek izplatītas, padarot datu izguvi par laikietilpīgu lietu. Tas ir raksturīgs R trūkums, un, ja jūs nolemjat to nepamanīt, R un Hadoop tandēmā joprojām var radīt brīnumus.

Apskatīsim demonstrāciju:

Vai mums ir jautājums? Lūdzu, pieminējiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

java programma, lai izveidotu savienojumu ar mysql datu bāzi