Guida al Funzionamento: Tool Content Grab

Come funziona Content Grab.

Il database e il file “content.sql”.

Per prima cosa dobbiamo assicurarci di avere sul nostro computer il database MySql altrimenti il web tool non funziona. Usando phpMyAdmin bisogna creare un nuovo database. Il database, di cui troverete in allegato al file di download il file di dump, servirá per contenere il contenuto grabbato dalla pagina di cui poi passeremo l’url al web tool. Nel pacchetto che contiene tutti i file di Content Grab ce n’é uno che si chiama “content.sql” (contenuto all’interno del file zippato “content_grab.sql”); dobbiamo caricarlo con phpMyAdmin; oppure aprire il file “content.sql” e fare il copia e incolla delle righe che contiene direttamente nella form di phpMyAdmin. Dall’area “privilegi di phpMyAdmin dobbiamo creare un nuovo utente:

    nome utente: quello che vogliamo;
    host: localhost;
    password: quello che vogliamo.
Poi bisogna selezionare tutti i permessi riguardanti la sezione “Dati”.

Il file “config.php”.

Fin qui abbiamo creato il database e l’utente. Ora bisogna andare modificare il file “config.php” contenuto nella cartella “include” per settare diverse variabili, perchè il funzionamento del software é completamente gestibile tramite un piccolo pannello di controllo definito in questo file. Per prima cosa dobbiamo inserire in $server l’indirizzo del server su cui girerá il nostro software e in $url l’indirizzo della pagina web dalla quale vogliamo che venga prelevato il contenuto. Nel file ci sono inoltre 4 variabili che contengono l’indirizzo del server su cui gira il database, il nome del db, il nome dell’utente che ha i permessi per accedere al db e la password dell’utente sopra indicato:

    $db_server = 'localhost' ; qui va lasciato "localhost" se il Content Grab gira sul nostro computer;
    $db_name = 'nomedb'; qui dobbiamo mettere il nome del nostro database creato in precedenza;
    $db_username = 'nomeutente', dove bisogna inserire il nome dell’utente che abbiamo creato prima;
    $db_password = 'pwutente' dove va inserita la password dell'utente.
Possiamo anche impostare la lingua con cui il software si rivolgerá a noi tramite la variabile $text_language. Salviamo e chiudiamo il file e ora possiamo far girare lo script “content_grab.php”.

Scegliere cosa grabbare.

Affinchè il web tool Content Grab possa estrarre soltanto il contenuto che noi gli indichiamo e non tutto il contenuto del sito, dobbiamo settare altre variabili contenute nel file “config.php”:

    $title = “0” o “1” : impostiamo questa variabile a 1 se desideriamo prelevare il titolo della pagina (NB: da non confondere con il meta title);
    $meta_array é un array al cui interno troveremo il nome dei vari meta tag che se impostati ad 1 saranno cercati nel documento, se settati a 0 verranno tralasciati; questo array é comunque personalizzabile perchè possiamo aggiungere e/o rimuovere il nome di altri meta tag;
    $view_javascript = ‘0’ o ‘1’; se impostato ad 1 permette la cattura del codice javascript presente nel documento web;
    $view_content = ‘0’ o ‘1’; questa variabile determina il funzionamento di tutte le altre variabili di cui parleremo successivamente; se $view_content viene impostata a 1 le altre variabili saranno processato, altrimenti no;
    $content_all = ‘0’ o ‘1’; se impostata a 1 catturerá tutto il contenuto testuale presente nella pagina, escludendo cosí il contenuto presente all’interno della definizione di tag; per esempio: [div class = ciao]prova[/div] e il tool preleverá solo la parola “prova”;
    $pattern_rule = questo é il vero cuore del sistema; con questa possiamo inserire delle espressioni regolari per catturare parti specifiche della pagina web;
    $view_link = ‘0’ o ‘1’; se impostato ad 1 il software catturerá i link presenti nella pagina web, nel senso che il web tool restituirá la lista testuale dei link presenti nella pagina, oltre al contenuto prelevato dalla stessa basandosi su altre variabili; la lista che puó essere organizzata in ordine alfabetico o in base alla loro posizione nel codice html;
    $offset = se impostato con un numero intero permetterá al software di catturare il contenuto, descritto dalle altre variabili, da piú pagine web nel caso in cui le pagine che resentino il contenuto siano indirizzabili tramite l’aggiornamento di una variabile di offset, come per esempio “news.php?id=10”. La variabile $offset indica ogni quando dovrá essere aggiornato l’id della pagina;
    $offset_finish indica fino a quando modificare l’id per dare in questo modo un termine al prelevamento del contenuto;
    $variable_get indicha quale variabile GET dovrá essere aggiornata con il nuovo offset;
    $db_save = ‘all’ o ‘single’; se impostato ad “all” fará si che il software memorizzi nel database tutto il contenuto di ogni singola pagina web in un’unica tupla; se impostata a “single” allora ogni pezzo di contenuto che fa match con le impostazioni delle variabili suddette verranno inserite in singole e separate tuple, una per ogni match.

Sezione Download Tool.

Vai nella sezione Download web tool per scaricare la versione che fa al caso tuo, oppure clicca sotto per scaricare l'ultima versione del tool

Scarica le versioni del web tool

WebTool in Evidenza

Tool Content Grab V. 2.0.1

Tool capace di grabbare solo alcune parti di contenuto...

Download versione 2.0.1

inserito il 13/Jun/2008

------------------------------------

Webtool Content Grab

Content Grab, Web Tool in grado di "rubare" contenuti

Download versione 2.0

inserito il 12/Jun/2008

------------------------------------

Web Tool per l'estrazione dei Contenuti

webtool Content Grab permette di estrarre il contenuto di...

Download versione 1.0

inserito il 13/Apr/2008

------------------------------------