Skip to content

huyson1810/NguyenHuySon_18021102_group2_Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Crawler_Data_First

Crawler Data DSKTlab assignment2
1.Tin tức (chạy file kenh14_test.py) -Nguồn: https://kenh14.vn/
-Số lượng bài: 5k+ (file txt trong output)
-Tốc độ: 300 bài / phút
-Trạng thái: đã chạy được đầy đủ
-Thu thập được: link , tiêu đề, tác giả, nguồn cung cấp, mô tả tóm tắt, tags, ngày xuất bản, nội dung
-Mô tả mã nguồn:
name :tên của spider
start_urls:page đầu tiên để crawl rồi từ page này lan sang page khác
Hàm parse(self,response):hàm gọi để xử lý phản hồi được tải xuống và thực hiện các chức năng:
Kiểm tra xem link đó có phải là link cần crawl không?
Sau khi kiểm tra thì ghi lại data đã crawl ra file dạng text

2.Thương mại điện tử (chạy file tgdd.py)
-Nguồn: https://www.thegioididong.com/

-Số lượng bài: khoảng 2k sản phẩm (để máy chạy trong 1h)
-Tốc độ: khoảng hơn 30 sản phẩm / phút
-Trạng thái: đã chạy được hoàn thiện
-Thu thập được: link , tên sản phẩm , đánh giá trung bình, phân loại/hãng, giá cả, nguồn ảnh đại diện, giới thiệu sản phẩm, mô tả ngắn gọn, mô tả thông tin sản phẩm cụ thể, quảng cáo
Phần source code các chức năng tương tự như crawl news

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages