Semalt Berbagi Cara Mudah Mengekstrak Informasi Dari Situs Web

Scraping Web adalah metode populer untuk mendapatkan konten dari situs web. Algoritma yang diprogram khusus datang ke halaman utama situs dan mulai mengikuti semua tautan internal, merakit interior div yang Anda tentukan. Akibatnya, file CSV siap yang berisi semua informasi yang diperlukan terletak dalam urutan yang ketat. CSV yang dihasilkan dapat digunakan untuk pembuatan konten yang hampir unik di masa depan. Dan secara umum, sebagai sebuah tabel, data seperti itu sangat berharga. Bayangkan bahwa seluruh daftar produk toko konstruksi disajikan dalam sebuah tabel. Selain itu, untuk setiap produk, untuk setiap jenis dan merek produk, semua bidang dan karakteristik diisi. Setiap copywriter yang bekerja untuk toko online akan senang memiliki file CSV tersebut.

Ada banyak alat untuk mengekstraksi data dari situs web atau pengikisan web dan jangan khawatir jika Anda tidak terbiasa dengan bahasa pemrograman apa pun, dalam artikel ini saya akan menunjukkan salah satu cara termudah - menggunakan Scrapinghub.

Pertama-tama, buka scrapinghub.com, daftar, dan masuk.

Langkah selanjutnya tentang organisasi Anda dapat dilewati begitu saja.

Kemudian Anda sampai ke profil Anda. Anda perlu membuat proyek.

Di sini Anda perlu memilih algoritma (kami akan menggunakan algoritma "Portia") dan memberikan nama untuk proyek tersebut. Sebut saja entah bagaimana tidak biasa. Misalnya, "111".

Sekarang kita masuk ke ruang kerja algoritma di mana Anda perlu mengetik URL situs web yang ingin Anda ekstrak data. Kemudian klik "Laba-laba Baru".

Kami akan pergi ke halaman yang akan dijadikan contoh. Alamat diperbarui di tajuk. Klik "Beri Catatan Halaman Ini".

Gerakkan kursor mouse Anda ke kanan yang akan membuat menu muncul. Di sini kami tertarik pada tab "Item yang diekstraksi", di mana Anda perlu mengklik "Edit Item".

Namun daftar kosong bidang kami ditampilkan. Klik "+ Field".

Semuanya sederhana di sini: Anda perlu membuat daftar bidang. Untuk setiap item, Anda harus memasukkan nama (dalam hal ini, judul dan konten), tentukan apakah bidang ini diperlukan ("Diperlukan") dan apakah itu dapat bervariasi ("Bervariasi"). Jika Anda menentukan bahwa suatu item "diperlukan", algoritme hanya akan melewati halaman di mana ia tidak akan dapat mengisi bidang ini. Jika tidak ditandai, prosesnya bisa bertahan selamanya.

Sekarang cukup klik pada bidang yang kita butuhkan dan tunjukkan apa itu:

Selesai? Kemudian di tajuk situs web klik "Simpan Sampel". Setelah itu, Anda bisa kembali ke ruang kerja. Sekarang algoritma tahu cara mendapatkan sesuatu, kita perlu mengatur tugas untuk itu. Untuk melakukan ini, klik "Publikasikan Perubahan".

Buka papan tugas, klik "Jalankan Laba-laba". Pilih situs web, prioritas dan klik "Jalankan".

Nah, pengikisan sekarang sedang dalam proses. Kecepatannya ditunjukkan dengan mengarahkan kursor Anda pada jumlah permintaan yang dikirim:

Kecepatan menyiapkan string dalam CSV - dengan menunjuk nomor lain.

Untuk melihat daftar barang yang sudah dibuat cukup klik nomor ini. Anda akan melihat sesuatu yang serupa:

Setelah selesai, hasilnya dapat disimpan dengan mengklik tombol ini:

Itu dia! Sekarang Anda dapat mengekstrak informasi dari situs web tanpa pengalaman dalam pemrograman.