Data Scraping


လုပ်ငန်းစဉ် ၁ : အွန်လိုင်း ပေါ်မှ tool များသုံး၍  pdf မှ excel သို့ပြောင်းခြင်း


PDF file အတွင်းရှိ data table ကို Excel format အဖြစ် ပြောင်းလဲဖို့အတွက် သင့်ကို ကူညီပေးနိုင်တဲ့ Tool ပေါင်းများစွာ ရှိပါတယ်။ တခုချင်းဆီက မတူညီတဲ့ နည်းပညာတွေအသုံးပြုထားပီး ရှုပ်ထွေးနေတဲ့ ဖိုင်တွေကို အချိန်ကုန် သက်သာစွာနဲ့ သန့်ရှင်းတဲ့ ဒေတာဖိုင်အဖြစ် ရရှိနိုင်တာမို့ စမ်းသပ်ကြည့်သင့်ပါတယ်။ ဒီ Tool တွေက အွန်လိုင်းပေါ်ကနေပဲ အသုံးပြုနိုင်ပြီး တခုကတော့ Cometdocs ဖြစ်ပါတယ်။ သင့်ရဲ့ စာရင်းဇယားတွေက အဖြူနဲ့အနက် နောက်ခံ ဖြစ်မနေပဲ ကာလာပေါင်းစုံ နဲ့ နောက်ခံ ဖြစ်နေတဲ့ အခါမျိုးမှာ ကောင်းစွာအလုပ်လုပ်နိုင်ပါတယ်။  www.cometdocs.com မှာ ဝင်ရောက် အသုံးပြုကြည့်ပါ။


ဒီသင်ခန်းစာမှာ အသုံးပြုမယ့် documentတွေကတော့ အရင်းအမြစ် ၂ ခု ကို အခြေခံထားပါတယ် ။ ပထမတခုကတော့ မြန်မာနိုင်ငံ စွမ်းအင်ဝန်ကြီးဌာနမှ Role of Hydropower in Myanmar စာတမ်းတို ဖြစ်ပီး ဒုတိယတခုကတော့ ကျန်းမာရေးဝန်ကြီးဌာနမှ Hospital Statistics from 2014-2016 အစီရင်ခံစာ အရှည် ဖြစ်ပါတယ်။ ပထမစာတမ်းမှာတော့ လက်ရှိ နိုင်ငံတွင်းရှိ ရေအားလျှပ်စစ်ရင်းမြစ်တွေ အပြင် ပရောဂျက်တွေအကြောင်းကိုပါ ထည့်သွင်းထားပါတယ်။ ဒုတိယစာတမ်းကတော့ ၂၀၁၄ ခုနှစ်မှ ၂၀၁၆ ခုနှစ် အတွင်း ဆေးရုံဆိုင်ရာ အချက်အလက်များဖြစ်ပါတယ်။ အခု သင်ခန်းစာမှာ ပထမစာတမ်း မှ ဇယားနံပါတ် ၃ ကို ထုတ်ယူမှာ ဖြစ်ပြီး ဒုတိယစာတမ်း မှ ဇယား ၄-၁၊ ဇယား ၄-၂၊ ဇယား ၄-၃ တို့ကို ရယူကြည့်ကြပါမယ်။    


အရင်ဆုံး cometdocs ကိုသုံးပြီး Hydropower document ထဲကဒေတာတွေကို ရယူ ကြည့်ရအောင်!

၁)စက်ရဲ့ web browser ကနေ www.cometdocs.com ကို ဝင်ပါ။

၂)Go to the Web App ခလုတ်ကိုနှိပ်ပါ။

၃)Upload ခလုတ်ကိုနှိပ်ပြီး Role of Hydropower in Myanmar ကို cometdocs ထဲသို့ တင်လိုက်ပါ။


၄)Convert ကိုနှိပ်ပါ။ box အလွတ်တစ်ခု ကျလာပါလိမ့်မယ်။

၅)box အလွတ်ထဲသို့ pdf ဖိုင်ကို drag-and-drop လုပ်ပြီးထည့်လိုက်ပါ။

၆)screen က refresh ဖြစ်သွားတဲ့အခါမှာ ပြောင်းမယ့် ‌ပုံစံကို Excel (xlsx) အဖြစ်သက်မှတ်ပေးပါ။

၇)‘Enter your email’ အကွက်ထဲမှာ မိမိရဲ့ email လိပ်စာကို ထည့်ပြီး Convert ခလုတ်ကိုနှိပ်ပါ။

 (ပြောင်းပြီးသား file ကို  မိမိ email ထဲသို့ hyperlink တစ်ခုဖြင့်ပို့ပေးပါလိမ့်မယ်။



၈)မိမိ email ကို ဖွင့်ကြည့်ပြီး ရောက်နေသော email ထဲမှ link ကိုနှိပ်ပါ။


၉)‘Click here to download your file’ ကိုနှိပ်ပြီး ပြောင်းထားတဲ့ Excel file ကို ရယူနိုင်ပါပြီ။





လေ့ကျင့်ခန်း


The Role of Hydropower in Myanmar ကိုသုံးပြီး Excel သို့ ထပ်မံပြောင်းပါ။ ယခုအခါတွင်တော့ 

http://www.zamzar.com/ကိုသုံးပါ။ Zamzar ဆိုသည်မှာ Cometdoc နှင့်ဆင်တူသော

အခြား program တစ်ခုဖြစ်ပါသည်။




လုပ်ငန်းစဥ် ၂ : Tabula သုံး၍ pdf မှ excel သို့ ‌ပြောင်းခြင်း




Tabula ဆိုတာဘာလဲ?


Tabula ဆိုတာကတော့ မိမိ ကွန်ပျူတာ ပေါ်မှာ သွင်းထားပြီး Pdf file တွေထဲမှ ဒေတာ တွေကို ထုတ်ယူနိုင်သော tool တစ်ခုဖြစ်ပါတယ်။ အဖြူနဲ့ အမဲ ဖြစ်နေတဲ့ ‌ဒေတာဇယား တွေ အတွက် အထူးသင့်လျော်ပါတယ်။ ၎င်းရဲ့ interface ကို browser မှာမှတ်ထားတဲ့အတွက် tabula ကိုသုံးဖို့ အင်တာနက်မလိုပါ။

Tabula ကို install ပြုလုပ်ခြင်း 


၁)စက်ထဲမှာ Javaကို အရင်သွင်းထားပါ။ https://www.java.com/en/download/ မှာ   

ဒေါင်းလုပ်ရယူနိုင်သည်။

၂)Tabula ဝက်ဘ်ဆိုက် ကိုသွားပါ။ http://tabula.technology/

၃)မိမိစက်နဲ့ ကိုက်ညီမယ့် Tabula version ကို ဒေါင်းလုပ်ဆွဲပါ။ 

၄)Zip file အနေနဲ့ ရရှိမှာဖြစ်ပြီး Extract လုပ်လိုက်ပါက ‘tabula’ folder တစ်ခုကို စက်ထဲမှာ ဖန်တီးပေးပါလိမ့်မယ်။

၅)ထိုfolderထဲမှ tabula.exe ကိုနှိပ်ပြီးဖွင့်လိုက်ပါ။ control window‌ ပေါ်လာပြီး program စrun ပါလိမ့်မယ်။

၆)ထို့နောက် web browser ‌ပေါ်လာမှာဖြစ်ပြီး ‌ထိုအရာကတော့ tabula ဖြစ်ပါတယ်။ web browser မပေါ်ပါက http://localhost:8080 မှတစ်ဆင့်ဝင်နိုင်ပါသည်။


Tabula ကို အသုံးပြုခြင်း


Tabula သုံးပြီး pdf ထဲက ဇယားတွေကို ရယူကြည့်ကြမယ်! ခုနက သုံးခဲ့တဲ့ online tools တွေနဲ့ မတူဘဲ မိမိလိုချင်တဲ့ ဇယားကိုပဲ ရွေးပြီးထုတ်ယူနိုင်ပါတယ်။ ဒါကြောင့် tabulaဟာ fileခပ်ကြီးကြီးတွေကနေ data scrape လုပ်ဖို့ အထူးသင့်လျော်ပါတယ်။ ဒုတိယ document ဖြစ်တဲ့ Hospital Report (2014-2016).pdf ထဲကနေ ဇယားတစ်ခု ထုတ်ယူကြည့်ရအောင်!


၁)tabula ပွင့်လာပြီဆိုလျှင် Browse ခလုတ်ကိုနှိပ်ပြီး Hospital Report (2014-2016).pdf ကိုရှာပြီးရွေးပါ။ 

၂)ထို့နောက် Import ကိုနှိပ်ပါ။ tabula က ထိုpdf ကို process လုပ်မှာဖြစ်ပြီး ထို pdf ထဲမှ ဇယားကို preview အနေနဲ့ ပြပါလိမ့်မယ်။



၃)tabula က မိမိ စိတ်တိုင်းကျ ဇယားများကို ‌ရွေးချယ်‌ခွင့်ပေးပါတယ်။ ‘Autodetect tables’ ကို သုံးနို‌င်ပေမယ့် ဇယားအားလုံးကို‌ ရွေးတဲ့အတွက် အချိန်ကြာမြင့်တတ်ပါတယ်။ ‘Clear all selections’ ကတော့ မလိုအပ်တဲ့ဇယားတွေကို အလိုအလျောက်မရွေးချယ်မိစေရန် သုံးပါတယ်။ ရွေးလိုက်တဲ့ ‌ဇယားမှာ အနီ‌ရောင် ပြောင်းသွားသည်ကို ပုံပါအတိုင်း တွေ့မြင်နိုင်ပါတယ်။ 


၄)စာမျက်နှာ ၉ မှ ဇယား၄-၁ ကိုရွေးပါ။ ထို ဇယားဟာ ၂၀၁၄ အတွက် hospital resources ဒေတာဖြစ်ပြီး ၂၀၁၅-၁၆ ဒေတာ တွေကိုပါ လိုချင်တဲ့အတွက် စာမျက်နှာ ၁၁၊ ၁၃ မှ ဇယား ၄-၃ နှင့် ၄-၃ ကိုပါရွေးပါ။ 

ဇယားတစ်ခုလုံး၏ ပတ်လည်ကို သေချာရွေးချယ်မိရန် အထူးသတိပြုပါ။


၅)Preview & Export Extracted Data ကိုနှိပ်ပါ။ ဒေတာရဲ့ preview ပုံစံကိုပြပါလိမ့်မယ်။ Extraction နည်းလမ်းနှစ်ခုဖြစ်သည့် Stream (သို့) Lattice တို့အနက်ကြိုက်ရာ ရွေးပြီး extract လုပ်နိုင်ပါတယ်။

Lattice ကို rows နဲ့ cols တွေကို လိုင်းတွေနဲ့ခွဲထားရာမှာ သုံးသင့်ပြီး Stream ကိုတော့ blank space တွေနဲ့ ခွဲထားလျှင် သုံးသင့်ပါတယ်။ ယခု သင်ခန်းစာအရ ဇယားထဲက ဒေတာတွေဟာ grid lines တွေနဲ့ ခွဲထားတဲ့အတွက် Lattice ကိုသုံးပါမယ်။ 


၆)Export format ၏ drop-down list မှာ မိမိ ပြောင်းမယ့် format ကိုရွေးနိုင်ပါသည်။ CSV အမျိုးအစား ဒေတာရချင်သည့် အတွက် CSV ကို ရွေးပေးပါ။ ထို့နောက်  Export ခလုတ်ကို နှိပ်နိုင်ပါသည်။  

၇)tabula-Hospital Report (2014-2016).csv ဟူ၍ csv ဖိုင်တစ်ခု ရလာပါလိမ့်မယ်။ 

၈)ထို file ကိုသုံးပြီး နှစ်သက်ရာ spreadsheet software (ဥပမာ - Excel) သုံး၍ ဆက်လက် process လုပ်နိုင်သည်။


 



လုပ်ငန်းစဥ် ၃ : Image ပုံစံ ဖြင့် ရှိနေသောဇယားမှ ဒေတာများရယူခြင်း


တခါတရံဒေတာတွေဟာ ဇယား ပုံစံ ဖြင့်ရှိနေတတ်သော်လည်း ထိုဇယားဟာ image ဖြစ်နေ၍ ရွေးချယ်၍မရတတ်ပါ။ ဥပမာ  document ကိုကြည့်ပါ။ http://www.moee.gov.mm/en/upload_img/Slide345.JPG

ဖိုင်များဟာ image file များဖြစ်နေပါတယ်။ ဂျာနယ်လစ်သမားများအတွက် ထိုဖိုင်များကို ကွန်ပျူတာကဖတ်၍ရသော ဒေတာအဖြစ်ပြောင်းလဲရန်ခက်ခဲပါတယ်။ ဇယားတွင်စာများ ရှိသော်လည်း ကွန်ပျူတာက ထိုစာများကို မဖတ်နိုင်ပါ။ ထို့ကြောင့် Optical Character Recognition (OCR) ကိုသုံးပြီး ထို ပုံ/ဖိုင်များကို စာအဖြစ်ပြောင်းလဲရန်ကြိုးစားကြည့်ရအောင် !



ဤပုံထဲမှ ဒေတာများကို google document သုံးပြီး ရယူကြည့်ပါမယ်။


ပုံကို  download ဆွဲခြင်း

၁)http://www.moee.gov.mm/en/upload_img/Slide345.JPG  ကိုဖွင့်ပါ။

၂)ပုံပေါ်လာပြီဆိုပါက ဇယား-၂ ပေါ်မှာ right click နှိပ်ပြီး Save image as ကိုရွေး၍ စက်ထဲတွင် သိမ်းဆည်းထားနိုင်ပါသည်။

၃)ပုံကို electrification_naypyitaw.png အနေနဲ့ သိမ်းပါ။


Google Docs သုံး၍ ဇယားကို extract လုပ်ခြင်း


၄)https://www.google.com/drive/ ကိုဖွင့်ပါ။

၅)Gmail login credentials များဖြင့် google ထဲသို့ log in ဝင်ပါ။ 

၆)Google drive စာမျက်နှာ ပေါ်လာပါက ဘယ်ဘက်မှ အနီ‌‌ရောင်ခလုတ် NEW ကိုနှိပ်ပြီး drop-down menu ထဲမှ File Upload ကိုရွေးပါ။



၇)electrification_naypyitaw.jpg/png ကို ရှာဖွေ ရွေးပြီး Open ကိုနှိပ်ပါ။

၈)ပုံတင်ပြီးပြီဆိုလျှင် Google drive ထဲက list ထဲတွင် ပေါ်လာလိမ့်မည်။

၉)ထို ပုံ ကို right click နှိပ်၍ Open with > Google Docs ကိုရွေးပါ။



၁၀)ပုံမှ ရယူထားသော ဇယားပါသည့် Google doc တစ်ခု ကို မြင်တွေ့ရပါလိမ့်မည်။

( ရရှိသော ဒေတာများကို မူလပုံနှင့် နှိုင်းယှဥ်လေ့လာကြည့်နိုင်ပါသည်။)







ပိုမိုရှုပ်ထွေးသော scraping နည်းလမ်းများကို လေ့လာလိုပါက : 

  1. Import.io ကနေ browser အခြေခံသော web scraping နည်းလမ်းများကို သုံးနိုင်ပါတယ်။ https://www.import.io/ သူတို့ရဲ့နည်းလမ်းများကို တစ်ဆင့်ချင်းစီ သုံးပြီး ဒေတာ တွေကို scrape လုပ်နိုင်ပါတယ်။

  2. Webscraper.io ကတော့ browser plugin ဖြစ်ပြီး website ပေါ်မှ scrape လုပ်ချင်တဲ့ဒေတာတွေကို စိတ်ကြိုက်ရွေးချယ်နိုင်ပါတယ်။

  3. Outwit Hub ဟာ မိမိ ကွန်ပျုတာပေါ်ကနေ တန်းသုံးနိုင်တဲ့ software package ဖြစ်ပြီး သူ့ရဲ့ free version က ဒေတာ rows ၁၀၀ လောက်ပဲ scrape လုပ်ခွင့်ပေးပါတယ်။ http://www.outwit.com/products/hub/ 

  4. Regular Expressions က code ကို အခြေခံကာ ဒေတာ တွေကို scrape လုပ်ပေးတဲ့ coding language တစ်ခုဖြစ်ပါတယ်။ http://www.regular-expressions.info/ 

  5. Morph.io ကတော့ ကြိုရေးထားတဲ့ ပြင်ဆင်ရေးသားနိုင်တဲ့ script တွေကိုသုံးပြီး ဒေတာ scrape လုပ်ရုံသာမက အဆင်သင့် သုံးနိုင်တဲ့ library တွေနဲ့ scaping နည်းလမ်းကိုပါ ပြုပြင် ပြောင်းလဲနိုင်ပါတယ်။ https://morph.io/ 






>>>  Advance Scraping နည်းလမ်းများ