PDA

Просмотр полной версии : Парсер Google без проксей!


zverOK
09.10.2008, 06:49
После долгих скитаний:D нашел замечательный парсер Google - Hkey Free C++ Google Parser. :) Скачать здеся: http://www.altalabs.ru/files/Parser.rar

При запросах гугл выдает страничку Sorry с тем, что вы робот:-]
И нужно ввести каптчу для подтверждения, что вы человек :)
У многих парсеров отсутствует встроенный браузер - а у выше описанного продукта он есть.
Так вот, как у проги в интерфейсе появится страничка Sorry c вводом каптчи - вводим цифры и прога работает дальше :-]

И без каких-либо проксей можно напарсить достаточно много!
Главное таймаут ставьте не меньше 2000-3000 мсек:)
Страничка программы: http://bajron.od.ua/seo-soft/apdeyt-parsera-google.html

Также рекомендую использовать прогу для отсева дублей Doubles Cleaner.
Скачать здеся: http://www.altalabs.ru/files/Se7DoublesCleener.rar
Страничка программы: http://bajron.od.ua/seo-soft/programma-dlya-otseva-dubley.html

zverOK
10.10.2008, 23:48
После некоторого времени теста парсера Google - появилась маленькая проблемка при выствлении таймаута в 2-3 тыс. милисек:
"бывает парсер в запросах пропускает некоторые из 10 страниц(на каждой страничке по 100 ссылок)"

Вся проблема решилась после установки таймаута в 5000 мсек.
Не знаю почему именно так - но уже напарсил более 25-30 тыс. ссылок и всё нормально, ни одной странички не пропустил(спецом вручную проверил:))

Всем удачного парсинга:-]

mefish
19.10.2008, 18:31
Да ты открытие прям сделал :haha:

Если ты в клубе, то увидеш там темку со сбором баз, ноч безпрерывной работы, и 170к помоему напарсил. Парсил с дедика и с компа одновременно :)

zverOK
04.11.2008, 00:05
Продолжим тему Парсеров Google без проксей!
Ещё один парсер GoogPars, тоже со встроенным браузером.
Скачать можно по адресу http://tospam2008.narod.ru/GoogPars1.1.rar

Инструкция:
Вводим запрос и нажимаем "Заслать!" - в браузере откроется 1-ая страничка с результатами от 1 до 100.

После нажимаем "Парсить!" - и в конце выдаст окно "Болше никак" - Закрываем окошко и браузер обновиться, прокручиваем страничку до конца и если видим нечто такое:

"Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 497 уже показанных.
Если вы хотите, можно повторить поиск, включив опущенные результаты.
......"
- то парсинг закончился.

А если только такое:
"« Предыдущая Следующая »"
- то нажимем опять "Парсить!"

Ну вот и всё!
Сайт автора: http://tospam2008.narod.ru/

Разница данного парсера от предыдущего:
он парсит через http://www.google.com/ie?q=
а Hkey Free C++ через http://www.google.com.ua/search?num=100&hl=ru&q=