Semalt Review: Web-kaavinta hauskanpitoa ja voittoa varten

Voit kaavittaa sivustoa ilman sovellusliittymää. Vaikka sivuston omistajat suhtautuvat aggressiivisesti kaavuttamisen lopettamiseen, he välittävät vähemmän sovellusliittymistä ja korostavat sen sijaan enemmän verkkosivustoja. Tosiasiat, että monet sivustot eivät suojaa riittävästi automaattista pääsyä, luo liikkumavaraa kaavintajille. Joitakin yksinkertaisia kiertotapoja auttaa sinua keräämään tarvitsemasi tiedot.

Kaapimisen aloittaminen

Kaapiminen vaatii tarvittavien tietojen rakenteen ja saatavuuden ymmärtämistä. Tämä alkaa hakemalla tietojasi. Etsi URL, joka palauttaa tarvitsemasi tiedot. Selaa verkkosivustoa ja tarkista, kuinka URL-osoitteet muuttuvat, kun navigoit eri osioissa.

Voit vaihtoehtoisesti etsiä useita termejä sivustosta ja tarkistaa, kuinka URL-osoitteet muuttuvat hakutermin perusteella. Sinun pitäisi nähdä GET-parametri, kuten q =, joka muuttuu, kun etsit uutta termiä. Säilytä tietojen lataamiseen tarvittavat GET-parametrit ja poista muut.

Kuinka käsitellä sivuuttaminen

Sivun jättäminen estää sinua pääsemästä kaikkiin tarvittaviin tietoihin kerralla. Kun napsautat sivua 2, offset = -parametri lisätään URL-osoitteeseen. Tämä on joko sivun elementtien lukumäärä tai sivunumero. Lisää tämä numero jokaisella tietosivulla.

Vedä AJAX: ää käyttävien sivustojen verkkovälilehti Firebug- tai Inspector-kohtaan. Tarkista XHR-pyynnöt, tunnista ja keskity niihin, jotka vetää tietojasi.

Hanki tietoja sivumerkinnöistä

Tämä saavutetaan CSS-koukkuilla. Napsauta hiiren kakkospainikkeella tiettyä tietosi osaa. Vedä Firebug tai Inspector ja zoomaa DOM-puun läpi saadaksesi ylimmän <div>, joka kääri yhden kohteen. Kun olet saanut oikean solmun DOM-puusta, tarkastele sivulähdettä varmistaaksesi, että elementtejäsi voi käyttää raa'assa HTML-muodossa.

Sivustokaavion onnistumiseen tarvitaan HTML-jäsennyskirjasto, joka lukee HTML-muodossa ja muuntaa siitä objektin, jota voi iteroida, kunnes saat tarvitsemasi. Jos HTTP-kirjasto vaatii tiettyjen evästeiden tai otsikoiden asettamista, selaa verkkosivustoa selaimellasi ja saat otsikot selaimesi lähettämistä. Laita ne sanakirjaan ja lähetä pyyntösi eteenpäin.

Kun tarvitset kirjautumisen kaapimiseen

Jos sinun on luotava tili ja kirjauduttava sisään saadaksesi haluamasi tiedot, sinulla on oltava hyvä HTTP-kirjasto kirjautumistietojen käsittelemiseksi. Kaapimen sisäänkirjautuminen altistaa sinut kolmansien osapuolien sivustoille.

Jos verkkopalvelusi nopeusrajoitus riippuu IP-osoitteesta, aseta koodi, joka iskee verkkopalvelun asiakaspuolen Javascriptiin. Lähetä sitten tulokset takaisin palvelimellesi jokaiselta asiakkaalta. Tulokset näyttävät olevan peräisin niin monesta paikasta, eikä yksikään ylitä niiden nopeusrajaa.

Huonosti muotoiltu merkintä

Joidenkin merkintöjen tarkistaminen voi olla vaikeaa. Tällaisissa tapauksissa kaivaa HTML-jäsentäjään virhetoleranssiasetuksia varten. Voit vaihtoehtoisesti käsitellä koko HTML-asiakirjaa pitkänä merkkijonona ja jakaa merkkijonot.

Vaikka voit kaadata kaikenlaista tietoa verkkosivustolta, jotkut sivustot käyttävät ohjelmistoja kaavutuksen lopettamiseen, ja muut kieltävät web-romutuksen . Tällaiset sivustot voivat haastaa sinut oikeuteen ja olet jopa vanginnut heidän tietojensa keräämisen vuoksi. Joten ole fiksu kaikessa Web-kaaviossa ja tee se turvallisesti.