Semalt: 3 Hapat Për Scraping në Web faqe të PHP

Skrapimi i Uebit, i quajtur gjithashtu nxjerrja e të dhënave në internet ose korrja e faqeve në internet, është procesi i nxjerrjes së të dhënave nga një faqe interneti ose blog. Ky informacion përdoret më pas për të vendosur etiketat meta, përshkrimet e meta, fjalët kyçe dhe lidhjet në një sit, duke përmirësuar performancën e tij të përgjithshme në rezultatet e motorit të kërkimit.

Dy teknika kryesore janë përdorur për të shkruajtur të dhënat:

  • Analizimi i dokumentit - Ai përfshin një dokument XML ose HTML i cili konvertohet në skedarët DOM (Document Object Model). PHP na ofron shtrirje të shkëlqyeshme të DOM-it.
  • Shprehje të rregullta - ashtë një mënyrë për të scraping të dhënave nga dokumentet në internet në formën e shprehjeve të rregullta.

Issueështja me të dhënat e scraping të faqes së internetit të palëve të treta është e lidhur me të drejtat e autorit të saj sepse nuk keni leje të përdorni këto të dhëna. Por me PHP, ju lehtë mund të fshini të dhënat pa probleme të lidhura me të drejtat e autorit ose cilësinë e ulët. Si programues PHP, mund t'ju duhet të dhëna nga uebfaqe të ndryshme për qëllime kodimi. Këtu kemi sqaruar se si të merrni të dhëna nga faqet e tjera në mënyrë efikase, por para kësaj, duhet të keni parasysh që në fund do të merrni ose skedarë index.php ose scrape.js.

Hapat1: Krijoni një formë për të hyrë në Ueb URL:

Para së gjithash, ju duhet të krijoni një formë në index.php duke klikuar në butonin Submit dhe shkruani URL-në e faqes në internet për scraping të të dhënave.

<form metodë = "post" name = "scrape_form" id = "scrap_form" acti>

Vendosni URL-në e faqes në internet për të scrape të dhënat

<input type = "input" name = "website_url" id = "website_url">

<input type = "dorëzo" name = "dorëzo" vlerën = "Dorëzo">

</ Form>

Hapat2: Krijo funksionin PHP për të marrë të dhëna në internet:

Hapi i dytë është krijimi i skrapeve të funksionit PHP në skedarin scrape.php pasi do të ndihmojë në marrjen e të dhënave dhe përdorimin e bibliotekës së URL-së. Do t'ju lejojë gjithashtu të lidheni dhe të komunikoni me serverë dhe protokolle të ndryshëm pa ndonjë problem.

funksion scrapeSiteData ($ website_url)

nëse (! function_exists ('curl_init')) {

vdes ('cURL nuk është i instaluar. Ju lutemi instaloni dhe provoni përsëri.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, e vërtetë);

$ dalje = curl_exec ($ curl);

curl_close ($ Curl);

kthimi i rezultatit $;

}

Këtu, ne mund të shohim nëse PHP cURL është instaluar siç duhet apo jo. Tre cURL kryesore duhet të përdoren në zonën e funksioneve dhe curl_init () do të ndihmojë në fillimin e seancave, curl_exec () do ta ekzekutojë atë dhe curl_close () do të ndihmojë në mbylljen e lidhjes. Variablat si CURLOPT_URL janë përdorur për të vendosur URL-të e faqes në internet që na duhen t'i fshijmë. CURLOPT_RETURNTRANSFER i dytë do të ndihmojë në ruajtjen e faqeve të gërvishtura në formën e ndryshueshme sesa në formën e tij të paracaktuar, e cila në fund të fundit do të shfaqë tërë faqen e internetit.

Hapat3: Scrape të dhëna specifike nga Uebfaqja:

It'sshtë koha për të trajtuar funksionalitetet e skedarit tuaj PHP dhe scrape seksionin specifik të faqes tuaj të internetit. Nëse nuk dëshironi të gjitha të dhënat nga një URL specifike, duhet të modifikoni përdorni variablat CURLOPT_RETURNTRANSFER dhe të nënvizoni pjesët që dëshironi të copëtoni.

në qoftë se (isset ($ _ POST [ 'submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Postimet e fundit');

$ end_point = strpos ($ html, '', $ start_point);

gjatësia $ = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, gjatësi $);

jehonë $ html;

}

Ne ju sugjerojmë të zhvilloni njohuritë themelore të PHP dhe Shprehjet e Rregullta përpara se të përdorni cilindo nga këto kode ose të shkruani një blog ose faqe të veçantë për qëllime personale.