Izplatītā kešatmiņa ar apraides mainīgajiem: Apache Spark

Šajā emuāra ziņojumā ir apskatīta izplatītās kešatmiņa ar apraides mainīgajiem lielumiem un sākts efektīvi izplatīt lielas vērtības Spark programmēšanā.



Piedalās Prithviraj Bose

Apraides mainīgie ir noderīgi, ja izpildītājiem ir jānodrošina kešatmiņā lielas datu kopas. Šajā emuārā ir paskaidrots, kā sākt darbu.

Kas ir apraides mainīgie?



Apache Spark apraides mainīgie ir mehānisms mainīgo mainīšanai starp izpildītājiem, kas domāti tikai lasīšanai. Bez apraides mainīgajiem šie mainīgie tiktu nosūtīti katram izpildītājam par katru transformāciju un darbību, un tas var izraisīt tīkla pieskaitāmo vērtību. Tomēr, izmantojot apraides mainīgos, tie tiek nosūtīti vienreiz visiem izpildītājiem un tiek saglabāti kešatmiņā, lai tos varētu izmantot nākotnē.

Apraides mainīgo lielumu izmantošanas gadījums

Iedomājieties, ka, veicot transformāciju, mums ir jāuzmeklē liela pasta indeksu / PIN kodu tabula. Šeit nav iespējams katru reizi nosūtīt lielo uzmeklēšanas tabulu izpildītājiem, kā arī mēs nevaram katru reizi vaicāt datu bāzē. Risinājumam vajadzētu būt šīs uzmeklēšanas tabulas konvertēšanai apraides mainīgajiem, un Spark to kešatmiņā saglabās katrā izpildītājā, lai to varētu izmantot nākotnē.

kā atmest programmu Java

Ņemsim vienkāršu piemēru, lai izprastu iepriekš minētos jēdzienus. Mums ir CSV fails ar valstu un to galvaspilsētu nosaukumiem. CSV failu var atrast šeit .



CSV-file-distributed-caching

Pieņemot, ka mēs apstrādājam valstu demogrāfiskos datus, un mums jāiegūst šīs valsts kapitāls. Šajā gadījumā mēs varam konvertēt datus CSV failā par apraides mainīgo.

Vispirms mēs ielādējam CSV failu kartē, ja fails tiek atrasts, metode atgriežas Dažas (valstis) citādi tas atgriežas Nav .

Pēc veiksmīgas CSV faila ielādes mēs karti pārveidojam par apraides mainīgo un izmantojam to mūsu programmā.

apvienot kārtot avota kodu c ++

Iepriekš esošajā koda fragmentā CSV fails tiek ielādēts kartē valstīs tad mēs pārveidojam šo karti par apraides mainīgo valstisKešatmiņa . Pēc tam mēs izveidojam RDD no valstīs . Iekš searchCountryDetails metodi mēs meklējam visas valstis, sākot ar lietotāja definētu burtu, un metode atgriež valstu RDD kopā ar to lielajiem burtiem. Apraides mainīgais countrieCache tiek izmantots, lai meklētu galvaspilsētas.
Tādā veidā mums nav jāsūta visi CSV dati katru reizi, kad nepieciešams meklēt.

Programmas kods searchCountryDetails ir parādīts zemāk,

Var atrast visu pirmkodu šeit .

saistītā saraksta programma c

Vai mums ir jautājums? Pieminiet tos komentāru sadaļā, un mēs ar jums sazināsimies.

Saistītās ziņas:

Dzirksteņu akumulatori paskaidroti

Apache Spark apvienotByKey paskaidrots