Design process data storage and organize data scraping

Falentino Sembiring; Dian Permata Sari

doi:10.17509/integrated.v1i1.113

Authors

Falentino Sembiring Nusa Putra University Author
Dian Permata Sari Indonesia University of Education Author

DOI:

https://doi.org/10.17509/integrated.v1i1.113

Keywords:

Data Warehouse, Penyaringan Data, Situs Serupa, Web Scraping

Abstract

Dalam penelitian ini, Web scraping akan menjelaskan suatu proses pengambilan url dari situs serupa untuk proses erosi dan menyimpan data url pada database harian, mingguan, bulanan, dan tahunan, sehingga data url dapat valid dan url yang tidak valid akan disaring. penyaringan ini akan dilakukan untuk memudahkan sejumlah proses untuk dipindahkan ke dalam database. Proses selanjutnya adalah url berdasarkan data konten yang tersedia akan dibedakan berdasarkan judul, tag, kata kunci seperti SEO. Setiap langkah akan disimpan di gudang data untuk membuat pusat data url. Semoga ini adalah tahap mengumpulkan data untuk big data. Masalah dibatasi dengan mendesain crawlers web dengan mencari situs serupa dan menyimpan proses dalam database. Dari basis data itu akan diarahkan ke data warehouse. Setelah di gudang data, data akan diproses di antarmuka ke pengguna serta dibagi dengan klasifikasi. Data yang sudah ada di data warehouse digunakan untuk data mining/penambangan data dengan menggunakan sejumlah algoritma untuk mengindeks data dan menyajikannya dalam antarmuka pengguna.