Informatica ETL: iesācēju ceļvedis, lai izprastu ETL, izmantojot Informatica PowerCenter

Izprotot Informatica ETL jēdzienus un dažādus ETL procesa posmus, un praksē izmantojiet gadījumu, kurā iesaistīta darbinieku datu bāze.

Informatica ETL mērķis ir nodrošināt lietotājiem ne tikai procesu, kā iegūt datus no avotu sistēmām un ievest tos datu noliktavā, bet arī nodrošināt lietotājiem kopēju platformu, lai integrētu savus datus no dažādām platformām un lietojumprogrammām.Tas ir izraisījis pieprasījuma pieaugumu .Pirms runājam par Informatica ETL, vispirms sapratīsim, kāpēc mums vajadzīgs ETL.



Kāpēc mums vajag ETL?

Katrs uzņēmumsšajās dienās ir apstrādāt lielas datu kopas no dažādiem avotiem. Šie dati ir jāapstrādā, lai sniegtu ieskatu biznesa lēmumu pieņemšanā. Bet diezgan bieži šādiem datiem ir šādas problēmas:



  • Lieli uzņēmumi ģenerē daudz datu, un tik milzīgs datu daudzums var būt jebkurā formātā. Tie būtu pieejami vairākās datubāzēs un daudzos nestrukturētos failos.
  • Šie dati ir jāapkopo, jāapvieno, jāsalīdzina un jāpadara, lai tie darbotos kā vienots veselums. Bet dažādās datu bāzes nedarbojas labi!
  • Daudzas organizācijas ir ieviesušas saskarnes starp šīm datu bāzēm, taču tās saskārās ar šādām problēmām:
    • Katram datubāzu pārim ir nepieciešama unikāla saskarne.
    • Ja maināt vienu datu bāzi, iespējams, būs jāatjaunina daudzas saskarnes.

Zemāk varat redzēt dažādas organizācijas datu bāzes un to mijiedarbību:

Dažādas organizācijas datu kopa - Informatica - ETL - Edureka

Dažādas datu bāzes, ko izmanto dažādi organizācijas departamenti



Dažādas organizācijas datu bāžu mijiedarbība

Kā redzams iepriekš, organizācijas dažādos departamentos var būt dažādas datubāzes, un mijiedarbību starp tām kļūst grūti īstenot, jo tām ir jāizveido dažādas mijiedarbības saskarnes. Lai pārvarētu šīs problēmas, labākais iespējamais risinājums ir, izmantojot Datu integrācija kas ļautu dažādu datu bāzu un formātu datiem sazināties savā starpā. Zemāk redzamais attēls palīdz mums saprast, kā datu integrācijas rīks kļūst par kopēju saskarni saziņai starp dažādām datu bāzēm.

Dažādas datu bāzes, kas savienotas, izmantojot datu integrāciju



Bet datu integrācijas veikšanai ir pieejami dažādi procesi. Starp šiem procesiem ETL ir optimālākais, efektīvākais un uzticamākais process. Izmantojot ETL, lietotājs var ne tikai ievest datus no dažādiem avotiem, bet arī veikt dažādas darbības ar datiem pirms šo datu glabāšanas līdz mērķa mērķim.

Starp dažādajiem tirgū pieejamajiem ETL rīkiem Informatica PowerCenter ir tirgus vadošā datu integrācijas platforma. Pārbaudījusi gandrīz 500 000 platformu un lietojumprogrammu kombināciju, Informatica PowerCenter inter darbojas ar visplašāko iespējamo atšķirīgo standartu, sistēmu un lietojumu klāstu. Ļaujiet mums tagad saprast Informatica ETL procesa posmus.

Informātika ETL Informatica arhitektūra Informatica PowerCenter apmācība Edureka

Šī apmācība Edureka Informatica palīdz jums detalizēti izprast ETL pamatus, izmantojot Informatica Powercenter.

Informatica ETL procesa soļi:

Pirms mēs pārietam uz dažādiem Informatica ETL saistītajiem soļiem, ļaujiet mums iegūt pārskatu par ETL. ETL ekstrakcija ir vieta, kur dati tiek iegūti no viendabīgiem vai neviendabīgiem datu avotiem, pārveidošana, kur dati tiek pārveidoti, lai tos uzglabātu pareizā formātā vai struktūrā vaicājumu un analīzes nolūkos, un ielāde, kur dati tiek ielādēti gala mērķa datu bāzē, operatīvais datu krājums, datu centrs vai datu noliktava. Zemāk redzamais attēls palīdzēs jums saprast, kā notiek Informatica ETL process.

ETL procesa pārskats

Kā redzams iepriekš, Informatica PowerCenter var ielādēt datus no dažādiem avotiem un saglabāt tos vienā datu noliktavā. Tagad aplūkosim Informatica ETL procesa posmus.

Informatica ETL procesā galvenokārt ir četri soļi, ļaujiet mums tos padziļināti izprast:

  1. Izvilkt vai tvert
  2. Skrubis vai tīrs
  3. Pārveidot
  4. Slodze un indekss

1. Izraksts vai tveršana: Kā redzams zemāk redzamajā attēlā, Capture or Extract ir pirmais Informatica ETL procesa posms.Tas ir izvēlētās datu apakškopa momentuzņēmuma iegūšanas avots, kas jāielādē datu noliktavā. Momentuzņēmums ir tikai lasāms statisks datu bāzes skats. Izvilkšanas process var būt divu veidu:

  • Pilns izraksts: Dati tiek pilnībā iegūti no avota sistēmas, un nav nepieciešams sekot līdzi datu avota izmaiņām kopš pēdējās veiksmīgās iegūšanas.
  • Elementa ekstrakts: Tas fiksēs tikai izmaiņas, kas notikušas kopš pēdējā pilnā izraksta.

1. fāze: izvilkt vai tvert

2. Skrubis vai tīrīšana: Šis ir avota datu tīrīšanas process, izmantojot dažādas modeļu atpazīšanas un AI metodes, lai uzlabotu pārnesto datu kvalitāti. Parasti kļūdas, piemēram, pareizrakstības kļūdas, kļūdaini datumi, nepareiza lauka izmantošana, neatbilstošas ​​adreses, trūkstošie dati, datu dublikāti, neatbilstībasizcelts un pēc tam labots vai noņemtsšajā solī. Šajā solī tiek veiktas arī tādas darbības kā dekodēšana, formatēšana, laika zīmogošana, pārveidošana, atslēgu ģenerēšana, apvienošana, kļūdu noteikšana / reģistrēšana, trūkstošo datu atrašana. Kā redzams zemāk redzamajā attēlā, tas ir Informatica ETL procesa otrais posms.

2. posms: datu tīrīšana vai tīrīšana

3. Pārveidot: Kā redzams zemāk redzamajā attēlā, tas ir trešais un vissvarīgākais Informatica ETL procesa posms. Transformācijas ir datu konvertēšanas darbība no avota sistēmas formāta uz Data Warehouse skeletu. Transformāciju galvenokārt izmanto, lai attēlotu noteikumu kopumu, kas nosaka datu plūsmu un to, kā dati tiek ielādēti mērķos. Lai uzzinātu vairāk par transformāciju, pārbaudiet Pārvērtības Informatikā Emuārs.

3. fāze: pārveidošana

4. Slodze un indekss: Šis ir pēdējais Informatica ETL procesa posms, kā redzams zemāk redzamajā attēlā. Šajā posmā mēs ievietojam pārveidotos datus noliktavā un izveidojam datu indeksus. Pamatojoties uz ielādes procesu, ir pieejami divi galvenie datu ielādes veidi:

  • Pilna vai beztaras slodze :Datu ielādes process, kad mēs to darām pirmo reizi. Darbs no avota tabulas izvelk visu datu apjomu un pēc nepieciešamo pārveidojumu ieviešanas tiek ielādēts mērķa datu noliktavā. Tas būs vienreizējs darbs pēc tam, kad izmaiņas tiks uzņemtas kā daļa no papildu izvilkuma.
  • Papildu slodze vai Atsvaidzināt slodzi : Tikai modificētie dati tiks atjaunināti mērķī, kam sekos pilna slodze. Izmaiņas tiks notvertas, salīdzinot izveidoto vai modificēto datumu ar darba pēdējā izpildes datumu.Tikai modificētie dati tiek iegūti no avota un tiks atjaunināti mērķī, neietekmējot esošos datus.

4. fāze: slodze un indekss

Ja esat sapratis Informatica ETL procesu, mēs tagad esam labāk novērtējuši, kāpēc šādos gadījumos Informatica ir labākais risinājums.

ko dara tablo izstrādātājs

Informatica ETL iezīmes:

Informatica mums ir nodrošinājis visas datu integrācijas un ETL darbības Informatica PowerCenter . Apskatīsim dažas galvenās Informatica ETL iezīmes:

  • Nodrošina iespēju norādīt lielu skaitu pārveidošanas kārtulu ar GUI.
  • Ģenerējiet programmas datu pārveidošanai.
  • Apstrādājiet vairākus datu avotus.
  • Atbalsta datu iegūšanu, tīrīšanu, apkopošanu, reorganizāciju, pārveidošanu un ielādes darbības.
  • Automātiski ģenerē programmas datu iegūšanai.
  • Mērķa datu noliktavu ātrgaitas iekraušana.

Tālāk ir sniegti daži tipiski scenāriji, kādos tiek izmantota Informatica PowerCenter:

  1. Datu migrācija:

Uzņēmums ir iegādājies jaunu norēķinu pieteikumu savam kontu departamentam. PowerCenter var pārvietot esošos konta datus uz jauno lietojumprogrammu. Zemāk redzamais attēls palīdzēs jums saprast, kā jūs varat izmantot Informatica PowerCenter datu migrēšanai. Informatica PowerCenter datu migrācijas procesā var viegli saglabāt datu līniju nodokļu, grāmatvedības un citiem likumīgi pilnvarotiem mērķiem.

Datu migrēšana no vecākas grāmatvedības lietojumprogrammas uz jaunu lietojumprogrammu

  1. Lietojumprogrammu integrācija:

Pieņemsim, ka uzņēmums A iegādājas uzņēmumu B. Tātad, lai gūtu konsolidācijas priekšrocības, Company-B norēķinu sistēma ir jāintegrē Company-A norēķinu sistēmā, ko viegli var izdarīt, izmantojot Informatica PowerCenter. Zemāk redzamais attēls palīdzēs jums saprast, kā jūs varat izmantot Informatica PowerCenter lietojumprogrammu integrēšanai starp uzņēmumiem.

Lietojumprogrammu integrēšana starp uzņēmumiem

  1. Datu noliktava

Datu noliktavās nepieciešamas tipiskas darbības:

  • Analīzei apvienojot informāciju no daudziem avotiem.
  • Datu pārvietošana no daudzām datu bāzēm uz datu noliktavu.

Visus iepriekš minētos tipiskos gadījumus var viegli veikt, izmantojot Informatica PowerCenter. Zemāk redzams, ka Informatica PowerCenter tiek izmantots, lai apvienotu datus no dažāda veida datu bāzēm, piemēram, Oracle, SalesForce utt., Un nogādātu tos kopējā Informatica PowerCenter izveidotā datu noliktavā.

Dati No dažādām datu bāzēm, kas integrētas kopējā datu noliktavā

  1. Starpprogrammatūra

Pieņemsim, ka mazumtirdzniecības organizācija izmanto SAP R3 mazumtirdzniecības lietojumprogrammām un SAP BW kā savu datu noliktavu. Tieša saziņa starp šīm divām lietojumprogrammām nav iespējama sakaru saskarnes trūkuma dēļ. Tomēr Informatica PowerCenter var izmantot kā starpprogrammatūru starp šīm divām lietojumprogrammām. Zemāk redzamajā attēlā varat redzēt arhitektūru, kā Informatica PowerCenter tiek izmantota kā starpprogrammatūra starp SAP R / 3 un SAP BW. SAP R / 3 lietojumprogrammas savus datus pārsūta uz ABAP sistēmu, kas pēc tam tos pārsūta uzSAP tirdzniecības vieta (POS) un SAPPakalpojumu rēķini (BOS). Informatica PowerCenter palīdz pārsūtīt datus no šiem pakalpojumiem uz SAP biznesa noliktavu (BW).

Informatica PowerCenter kā starpprogrammatūra SAP mazumtirdzniecības arhitektūrā

Lai gan jūs esat redzējis dažas galvenās Informatica ETL iezīmes un tipiskos scenārijus, es ceru, ka jūs saprotat, kāpēc Informatica PowerCenter ir labākais ETL procesa rīks. Apskatīsim Informatica ETL lietošanas gadījumu.

Izmantošanas gadījums: divu tabulu savienošana, lai iegūtu vienotu detalizētu tabulu

Pieņemsim, ka vēlaties saviem darbiniekiem nodrošināt saprātīgu transportēšanu, jo nodaļas atrodas dažādās vietās. Lai to izdarītu, vispirms jums jāzina, kurai nodaļai pieder katrs darbinieks, un nodaļas atrašanās vietu. Tomēr informācija par darbiniekiem tiek glabāta dažādās tabulās, un jums ir jāpievieno nodaļas informācija esošai datu bāzei ar visu darbinieku datiem. Lai to izdarītu, mēs vispirms ielādēsim abas tabulas Informatica PowerCenter, veicot avota kvalifikācijas pārveidošanu par datiem un visbeidzot ielādējot informāciju mērķa datu bāzē.Sāksim:

1. solis : Atveriet programmu PowerCenter Designer.

Zemāk ir Informatica PowerCenter Designer mājas lapa.

Tagad izveidosim savienojumu ar repozitoriju. Ja neesat konfigurējis krātuves vai saskaras ar kādām problēmām, varat pārbaudīt mūsu Emuārs.

2. darbība: Ar peles labo pogu noklikšķiniet uz krātuves un atlasiet savienojuma opciju.

Noklikšķinot uz savienojuma opcijas, jums tiks parādīts aicinājums zemāk redzamajā ekrānā lūgt jūsu krātuves lietotājvārdu un paroli.

Kad esat izveidojis savienojumu ar savu krātuvi, jums jāatver sava darba mape, kā redzams zemāk:

Jums tiks piedāvāts jautāt kartēšanas nosaukumu. Norādiet kartēšanas nosaukumu un noklikšķiniet uz Labi (es to nosaucu kā m-DARBINIEKS ).

kā pārveidot dubultu par int

3. solis: Tagad ielādēsim tabulas no datu bāzes, vispirms izveidojiet savienojumu ar datu bāzi. Lai to izdarītu, atlasiet cilni Avoti un opciju Importēt no datu bāzes, kā redzams zemāk:

Noklikšķinot uz Importēt no datu bāzes, jums tiks parādīts ekrāns, kā norādīts zemāk, pieprasot detalizētu informāciju par jūsu datu bāzi un tās lietotājvārdu un paroli (es izmantoju Oracle datu bāzi un HR lietotāju).

Noklikšķiniet uz Izveidot savienojumu, lai izveidotu savienojumu ar savu datu bāzi.

4. solis: Kā es vēlos pievienoties DARBINIEKI un NODAĻA tabulas, es tos izvēlēšos un noklikšķiniet uz Labi.
Avoti būs redzami jūsu kartēšanas dizainera darbvietā, kā redzams zemāk.

5. darbība: Līdzīgi ielādējiet mērķa tabulu kartēšanā.

6. solis: Tagad saistīsim avota kvalifikatoru un mērķa tabulu. Ar peles labo pogu noklikšķiniet uz jebkuras tukšas vietas darbvietā un atlasiet Automātiskā saite, kā redzams zemāk:

Zemāk ir kartēšana, kuru saista Autolink.

7. solis: Tā kā mums abas tabulas ir jāsaista ar avota kvalifikāciju, atlasiet nodaļas tabulas kolonnas un nometiet to avota kvalifikatorā, kā redzams zemāk:

Nometiet kolonnu vērtības avota kvalifikatorā SQ_EMPLOYEES .

Zemāk ir atjauninātais avota kvalifikators.

8. solis: Veiciet dubultklikšķi uz Source Qualifier, lai rediģētu transformāciju.

Jūs saņemsit uznirstošo logu Rediģēt transformāciju, kā redzams zemāk. Noklikšķiniet uz cilnes Rekvizīti.

9. solis: Cilnē Rekvizīti noklikšķiniet uz rindas UserDefined Join lauka Value.

Jūs saņemsiet šādu SQL redaktoru:

10. solis: Enter EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID kā nosacījums pievienoties abām tabulām laukā SQL un noklikšķiniet uz Labi.

11. solis: Tagad noklikšķiniet uz rindas SQL vaicājums, lai ģenerētu pievienošanās SQL, kā parādīts zemāk:

Jūs saņemsiet šādu SQL redaktoru, noklikšķiniet uz opcijas Ģenerēt SQL.

Šāds SQL tiks ģenerēts nosacījumam, kuru mēs norādījām iepriekšējā darbībā. Noklikšķiniet uz Labi.

12. darbība: Noklikšķiniet uz Lietot un Labi.

Zemāk ir pabeigta kartēšana.

Mēs esam pabeiguši to, kā dati jāpārsūta no avota uz mērķi. Tomēr faktiskā datu pārsūtīšana vēl nav notikusi, un tāpēc mums jāizmanto PowerCenter Workflow Design. Darbplūsmas izpilde novedīs pie datu pārsūtīšanas no avota uz mērķi. Lai uzzinātu vairāk par darbplūsmu, pārbaudiet mūsu Informatica apmācība: darbplūsma Emuārs

13. solis: LTagad mēs palaižam darbplūsmas pārvaldnieku, noklikšķinot uz ikonas W, kā redzams zemāk:

Zemāk ir darbplūsmas dizainera mājas lapa.

kas ir druka pitonā

14. solis: Tagad izveidosim jaunu darbplūsmu mūsu kartēšanai. Noklikšķiniet uz cilnes Darbplūsma un atlasiet Izveidot opciju.

Jūs saņemsiet zemāk redzamo uznirstošo logu. Norādiet darbplūsmas nosaukumu un noklikšķiniet uz Labi.

15. solis : Kad darbplūsma ir izveidota, darbplūsmas pārvaldnieka darbvietā mēs saņemam sākuma ikonu.

Tagad pievienosim jaunu sesiju darbvietai, kā redzams zemāk, noklikšķinot uz sesijas ikonas un uz darbvietas:

Noklikšķiniet uz darbvietas, lai ievietotu ikonu Sesija.

16. darbība: Pievienojot sesiju, jums jāizvēlas kartēšana, kuru esat izveidojis un saglabājis iepriekš minētajās darbībās. (Es to biju saglabājis kā m-DARBINIEKS).

Zem sesijas ikonas pievienošanas ir redzama darbvieta.

17. solis : Tagad, kad esat izveidojis jaunu sesiju, mums tā ir jāsaista ar sākuma uzdevumu. Mēs to varam izdarīt, noklikšķinot uz saites uzdevuma ikonas, kā redzams zemāk:

Vispirms noklikšķiniet uz ikonas Sākt un pēc tam uz ikonas Sesija, lai izveidotu saiti.

Zemāk ir pievienota darbplūsma.

18. solis: Tagad, kad mēs esam pabeiguši dizainu, sāksim darbu. Noklikšķiniet uz cilnes Darbplūsma un atlasiet opciju Sākt darbplūsmu.

Darbplūsmas pārvaldnieks, palaižot Workflow Monitor.

19. solis : Kad sākam darbplūsmu, automātiski tiek palaists darbplūsmas pārvaldnieksunļauj pārraudzīt darbplūsmas izpildi. Zemāk redzams, ka darbplūsmas monitors parāda jūsu darbplūsmas statusu.

20. solis: Lai pārbaudītu darbplūsmas statusu, ar peles labo pogu noklikšķiniet uz darbplūsmas un atlasiet Get Run Properties, kā redzams zemāk:

Atlasiet cilni Avota / mērķa statistika.

Zemāk jūs varat redzēt rindu skaitu, kas pēc pārveidošanas ir pārsūtīti starp avotu un mērķi.

Jūs varat arī pārbaudīt savu rezultātu, pārbaudot mērķa tabulu, kā redzams zemāk.

Es ceru, ka šis Informatica ETL emuārs bija noderīgs, lai veidotu izpratni par ETL jēdzieniem, izmantojot Informatica, un ir radījis pietiekamu interesi, lai jūs varētu uzzināt vairāk par Informatica.

Ja jums šis emuārs šķita noderīgs, varat arī apskatīt mūsu emuāru sēriju Informatica Tutorial , Informatica apmācība: Izpratne par Informatica ‘Inside Out’ un Informatica transformācijas: Informatica PowerCenter sirds un dvēsele . Ja meklējat sīkāku informāciju par Informatica sertifikāciju, varat pārbaudīt mūsu emuāru Informatica sertifikāts: Viss, kas jāzina .

Ja jūs jau esat nolēmis izvēlēties Informatica kā karjeru, es iesaku jums apskatīt mūsu kursa lapa. Informatica sertifikācijas apmācība Edureka padarīs jūs par Informatica ekspertu, izmantojot tiešās instruktoru vadītās sesijas un praktiskās mācības, izmantojot reālās dzīves izmantošanas gadījumus.