[???]Как можно получить автоматически текст страницы?

migel

Например вот этой страницы в форума?
Т.е. как написать прогу, которая умеет по урлу вытягивать хтмл-текст?
Вообще на чем ее можно написать?
Какие библиотеки к С? Другой язык?

ppplva

lwp

ma3yp

UNIX-way: воспользоваться утилитой wget.

rosali

Уже написана вроде бы. wget называется, можешь посмотреть исходники...
А так в принципе все просто. Находишь ip через gethostbyname или еще откуда-нибудь, открываешь сокет на 80 порту, пишешь туда



GET /showflat.php?Cat=&Board=prog&Number=2934049&view=collapsed&o=&showlite=&tistart= HTTP/1.0 \r\n\r\n

и все, забираешь страницу. Ну, это в простейшем случае. А так еще надо заниматься редиректом, авторизацией, куками... Вобщем, тебе же не нужно браузер написать? или?

Julie16

libcurl

sergey_m

Нет. unix-way будет curl. wget для другого.

spirinale

а если он с виртуалхоста хочет получить страницу?

migel

А почему в этом случае не получится?
---
нет, мне нужно обычную страницу достать. Под виндой.
Я просто не особо шарю, мне бы лучше всего было готовый код рабочий если бы кто-нибудь мог выложить, не очень сложный, и я бы по нему понял что и как открывать.

migel

Можно и Perl-фрагмент, только тогда уже лучше целиком прогу, тк. в перле я совсем ламо и точно не смогу прикутить к ней нужное окружение.

migel

ТОЛько что оттуда

там хороший вопрос в конце: а если у меня дребедень?

Barbie29

тогда нада ставить ActiveState Perl. или решать проблему както иначе.

migel

А что это?
Компилятор?

Dasar

Ставишь .Net
и пишешь:



HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

request.UserAgent = @"User-Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MyIE2; Maxthon; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.40607)";

using (StreamReader reader = new StreamReader(

request.GetResponse.GetResponseStream

 Encoding.GetEncoding(1251

//Encoding.GetEncoding(20866

{

  return reader.ReadToEnd;

}

Оставить комментарий