Design process data storage and organize data scraping

Authors

DOI:

https://doi.org/10.17509/integrated.v1i1.113

Keywords:

Data Warehouse, Penyaringan Data, Situs Serupa, Web Scraping

Abstract

Dalam penelitian ini, Web scraping akan menjelaskan suatu proses pengambilan url dari situs serupa untuk proses erosi dan menyimpan data url pada database harian, mingguan, bulanan, dan tahunan, sehingga data url dapat valid dan url yang tidak valid akan disaring. penyaringan ini akan dilakukan untuk memudahkan sejumlah proses untuk dipindahkan ke dalam database. Proses selanjutnya adalah url berdasarkan data konten yang tersedia akan dibedakan berdasarkan judul, tag, kata kunci seperti SEO. Setiap langkah akan disimpan di gudang data untuk membuat pusat data url. Semoga ini adalah tahap mengumpulkan data untuk big data. Masalah dibatasi dengan mendesain crawlers web dengan mencari situs serupa dan menyimpan proses dalam database. Dari basis data itu akan diarahkan ke data warehouse. Setelah di gudang data, data akan diproses di antarmuka ke pengguna serta dibagi dengan klasifikasi. Data yang sudah ada di data warehouse digunakan untuk data mining/penambangan data dengan menggunakan sejumlah algoritma untuk mengindeks data dan menyajikannya dalam antarmuka pengguna.

Downloads

Download data is not yet available.

Downloads

Published

2019-04-08

Issue

Section

Articles

How to Cite

Sembiring, F., & Sari, D. P. (2019). Design process data storage and organize data scraping. INTEGRATED (Journal of Information Technology and Vocational Education), 1(1), 17-20. https://doi.org/10.17509/integrated.v1i1.113