Web Scraping menggunakan Google Spreadsheet

Halo teman2! Udah lama nih gak blogging ( lagi banyak kerjaan 😀 ). Kali ini saya mau share tentang Web Scraping. Apa sih web scraping itu ?

Web Scraping adalah proses pengambilan sebuah dokumen semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain. Web scraping sering dikenal sebagai screen scraping. Web Scraping tidak dapat dimasukkan dalam bidang data mining karena data mining menyiratkan upaya untuk memahami pola semantik atau tren dari sejumlah besar data yang telah diperoleh. Aplikasi web scraping (juga disebut intelligent, automated, or autonomous agents) hanya fokus pada cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi ( Josi et al.2014 )

Web scraping memiliki sejumlah langkah, sebagai berikut:

  1. Create Scraping Template
    • Pembuat program mempelajari dokumen HTML dari website yang akan diambil informasinya untuk tag HTML yang mengapit informasi yang akan diambil
  2. Explore Site Navigation
    • Pembuat program mempelajari teknik navigasi pada website yang akan diambil informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat
  3. Automate Navigation and Extraction
    • Berdasarkan informasi yang didapat pada langkat 1 dan 2 di atas, aplikasi web scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang ditentukan
  4. Extracted Data and Package History
    • Informasi yang didapat dari langkah 3 disimpan dalam tabel atau tabel-tabel database.

Web Scraping dapat digunakan pada berbagai macam bahasa pemrograman dan juga terdapat pada aplikasi spreadsheet seperti Google Spreadsheet. Caranya adalah dengan menambahkan formula importHTML di cell seperti :

=importhtml(“https://jalandamai.org”,”list”,4)

Dimana:

  • importhtml merupakan formula dari google spreadsheet
  • https://jalandamai.org adalah URL yang akan dilakukan pengambilan konten
  • List atau table tergantung pada jenis struktur yang berisi data yang diinginkan.
  • 4 merupakan indeks yang mengidentifikasi tabel atau daftar mana yang didefinisikan dalam sumber HTML yang harus dikembalikan (Kita bisa tarik data sampai berapa kedalamannya)

Hasilnya:

Portal jalandamai.org memiliki 4 level indeks yang dapat dilakukan web scraping

Gimana? Gampang kan? Gak perlu repot2 ngoding, tinggal tarik data pake Google Spreadsheet. Hasil scraping ini bisa dipakai untuk SEO, identifikasi konten dll.

Referensi:

  • Josi, A., Abdillah, L. A., and Suryayusra (2014). Penerapan teknik web scraping pada mesin pencari artikel ilmiah. CoRR, abs/1410.5777.

Leave a Reply

Your email address will not be published. Required fields are marked *