Как спереть весь контент с нужного сайта.

Итак, задача: есть сайт по нужной нам тематике. На 1000 страничек :)
Нужно сдереть с него весь контент.

Делаем вот что: с помощью телепорта качаем весь сайт себе в одну папочку.

С помощью скрипта, который ниже, мы обрабатываем эту папочку.

Как работает скрипт: прописываете папочку на сервере, где лежат нужные нам странички с инфой. И запускаете скрипт.

После этого он аккуратненько пройдется по страничкам и выдерет оттуда всю инфу без всякого там html-форматирования. И положит ее в файлик.

Код скрипта, который дёргает инфу

$dir="dir";
$indexfile="data.txt";

function text_2_base($url, &$baza)
{
$fd = fopen ('http:// phpdirtobase/dir/'.$url, "r");
while (!feof($fd))
{
$htmltotext = fgetss($fd, 1000);
fwrite($baza, $htmltotext);
}
fclose ($fd);
}

$fp = fopen($indexfile, "w+");

if (is_dir($dir)) {
if ($dh = opendir($dir)) {
$i = -2;
while ((($file = readdir($dh)) !== false))
{$i++;
if ( $file != "." && $file != "..")
{
echo $i.' obrabotan : '.$file. '
‘;
text_2_base($file, $fp);
}
}
closedir($dh);
}
}

fclose($fp);
Все. Инфа по тематике дорвея у нас есть.
Есть конечно некоторые проблемы - не все хтмл форматирование убивается. Но ничего, можно и ручками немножко поработать :) Совсем немножко.

ht tp://doorwaycreation.jino-net.ru/info/kak-zagnat-vsyu-infu-s-nuzhnogo-sayta-sebe-v-bazu/

Понравилась статья? Поделиться с друзьями:
Комментариев: 2
  1. Eugeny Prokopyev

    Если дорвеи редиректные делать — наверно прокатит. А если пропалят, что контент ворованный?

  2. Мёбиус

    Способ интересный. Но копипизд не сильно то рулит в посике (

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:
Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.