Respect robots.txt

pull/23/head
makeworld 2025-02-22 22:15:31 -05:00 zatwierdzone przez GitHub
rodzic f27c45d4be
commit 7fd6d18ded
Nie znaleziono w bazie danych klucza dla tego podpisu
ID klucza GPG: B5690EEEBB952194
1 zmienionych plików z 1 dodań i 0 usunięć

Wyświetl plik

@ -283,6 +283,7 @@ func Crawl(config types.Config) {
c.AllowedDomains = domains
c.AllowURLRevisit = false
c.DisallowedDomains = getBannedDomains(config.Crawler.BannedDomains)
c.IgnoreRobotsTxt = false
delay, _ := time.ParseDuration("200ms")
c.Limit(&colly.LimitRule{DomainGlob: "*", Delay: delay, Parallelism: 3})