泛解析站群的问题 #3

c1y2m3 · 2024-03-12T13:01:30Z

将页面上的超链接插入 pages 表，但是会碰到页面中有泛解析站群的网站，内容都是js生成随机调用链接，就会无限循环爬虫
我遇到了很多这样的站，如下：

"link_url": "http://smp47ccf.gdyaauc.com",
"href_domains": [
  "http://05u2svrf.zjjzgh.org",
  "http://0l3p7aft.qiliangjy.top",
  "http://19vmozz2.zcfgwn.com",
  "http://1lgvfoe.sdjdlw.com",
  "http://2xys6axot.qifeng365.com.cn",
  "http://3a8n6t66d.jscysg.com",
  "http://3b5g5f5.sckcjsqg.com",
  "http://4tbtzl1uu.tumourcloud.com",
  "http://5rwocxf.666ic.net",
  "http://5wjhuzbgw.t4h.cn",
  "http://61loq0d.lshlyd.com",]

"link_url": "http://nmmqtrv.ciduw.com",
"href_domains": [
  "http://1.ciduw.com",
  "http://11.ciduw.com",
  "http://1118741.ciduw.com",
  "http://112.ciduw.com",
  "http://112579.ciduw.com",
  "http://12237.ciduw.com",
  "http://1227.ciduw.com",
  "http://126139.ciduw.com",
  "http://129.ciduw.com",
  "http://13581966.ciduw.com",
  "http://1359143.ciduw.com",
  "http://13838252.ciduw.com",
  "http://14.ciduw.com",]

大多都是随机几位英文+数字组合，但是通过过滤英文+数字组合还是会爬取到其他站群
我目前是限制了域名个数，减低程序在泛解析站群上花费的时间
不知道大家有什么更优的方法来爬出这些陷阱？

The text was updated successfully, but these errors were encountered:

sc-xy · 2024-06-26T14:42:57Z

现在大公司做的一般都是采用机器学习+AI的模式来排除泛解析站群的，但是也存在一些简单可操作的方法

使用正则表达式简单过滤
反向DNS解析IP对应的域名，根据域名数量排序，过滤高解析IP对应的域名
对页面内容使用摘要算法后，对摘要算法对应的域名数量排序，过滤高数量的域名

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

泛解析站群的问题 #3

泛解析站群的问题 #3

c1y2m3 commented Mar 12, 2024 •

edited

Loading

sc-xy commented Jun 26, 2024

泛解析站群的问题 #3

泛解析站群的问题 #3

Comments

c1y2m3 commented Mar 12, 2024 • edited Loading

sc-xy commented Jun 26, 2024

c1y2m3 commented Mar 12, 2024 •

edited

Loading