как пакетно извлечь содержание тега из html-страницы
скинь архив страниц на форум - извлеку бесплатно.
скинь архив страниц на форум - извлеку бесплатно.Спалился, майор?
Руслан не слушай его, лучше grep-ом пробежись, распарсит достаточно читабельно
grep-если бы я еще знал как написать код ...
спасибо, но там пара сотен МБ
Грепом тяжело разрулить ситуацию:
<title>ЭтоТут sed+awk лучше помогут.
такой
идиотский
многострочный
заголовок</title>
сожми РАРом - станет 20 мегабайт
пс. и не слушай етих линуксоедофф
пс. и не слушай етих линуксоедофф
у меня там в одной строке - название книги
ну мне бы хотелось решить эту задачу поскольку она еще не раз встретится, еще раз б.спасибо
эти строки располагались в таком же порядке в каком сами страницы лежат в папке.файлы в директории - множество неупорядоченное, но может быть упорядочено по различным критериям
Спасибо, неплохая прога, у меня есть кракнутая, но она не решает мою проблему
я виндовоз
Какая у тебя версия винды?
А файл html упорядочены в каком виде?
В таком?
01. BlahBlah.html
02. BlahBla.html
...
1999. BlahBlah.html
А файл html упорядочены в каком виде?
В таком?
01. BlahBlah.html
02. BlahBla.html
...
1999. BlahBlah.html
Почти все *никсовые утилиты, собранные под винду:
http://sourceforge.net/projects/unxutils/
все уже давно тут поняли, что ты виндовз
http://sourceforge.net/projects/unxutils/
все уже давно тут поняли, что ты виндовз
XP
Да, именно так
Да, именно так
но она не решает мою проблемув и треде давали и другие проги.
зачем ты хочешь написать свою собственную систему? используя неподходящие для этого средства. учитывая что ты не умеешь этого делать.
эта прога, кстати, не очень красивая по инфтрфейсу, что важно когда надо обозревать большое количество файлов.
Я не пишу своих программ, естессно, я пытаюсь найти алгоритмы связанные с манипулированием строками и именами файлов с помощью других прог, в чем нимало преуспел.
Кстати, проблему с многосоттысячной библиотекой практически решила прога MyHomeLib
А здесь я пытаюсь улучшить навигацию скачанного мной 30 Гб сайта книг.
Я не пишу своих программ, естессно, я пытаюсь найти алгоритмы связанные с манипулированием строками и именами файлов с помощью других прог, в чем нимало преуспел.
Кстати, проблему с многосоттысячной библиотекой практически решила прога MyHomeLib
А здесь я пытаюсь улучшить навигацию скачанного мной 30 Гб сайта книг.
в винде есть свой grep. С блекджеком и регулярками:
findstr /i /r /c:"<title>.*</title>" *.html
findstr /i /r /c:"<title>.*</title>" *.html
А здесь я пытаюсь улучшить навигацию скачанного мной 30 Гб сайта книг.О, начинается, а что в итоге ты хочешь сделать?
А то я уже собрался тебе помочь и написать скрипт, а окажется, что ты опять гланды через жопу пытаешься удалить.
если бы гланды... он через свою жопу кота катрирует.
и этот кот скачан с сайта.
а если его связать и силой перевести на дб?
а если его связать и силой перевести на дб?
напиши пжлст
Что в результате хочешь получить?
Могу результат скинуть в текстовый файл, будет примерно такого вида:
Имя файл—содержание тега <title>
Могу результат скинуть в текстовый файл, будет примерно такого вида:
Имя файл—содержание тега <title>
а чем вариант с findstr не устраивает?
а если его связать и силой перевести на дб?Я думаю, что так к августу, еще через пяток таких годных тредов инициативная группа H&S таки выдвинется к месту дислокации руслана именно с этой целью.
Именно так и хотел бы,, если можно то хорошо бы разделить имя файла и содерж. тега точкой с запятой (;)
Скрипт слабал за 5 минут, он довольно топорный 
Распаковываешь zip, далее перетягиваешь папку с твоими html файлами на скрипт, и всё, в этой папке появится файл !_result.txt с результатом работы.

Распаковываешь zip, далее перетягиваешь папку с твоими html файлами на скрипт, и всё, в этой папке появится файл !_result.txt с результатом работы.
Архив открывается, в нем файл drag_drop.vbs но архив не распаковывается, я использую WinRAR 4
Отвечает:
! file10133.zip: Неизвестный метод в drag_drop.vbs
! file10133.zip: Нет файлов для извлечения
Все сопутствующие танцы с бубном (открытие в различных Коммандерах) ничего не дали
Их ответы:
- drag_drop.vbs: This archive uses an unknown compression method.
- Метод упаковки не поддерживается
Может быть ты опубликуешь здесь текст скрипта, а я его скопирую в нотпад и сохраню файл как vbs
Отвечает:
! file10133.zip: Неизвестный метод в drag_drop.vbs
! file10133.zip: Нет файлов для извлечения
Все сопутствующие танцы с бубном (открытие в различных Коммандерах) ничего не дали
Их ответы:
- drag_drop.vbs: This archive uses an unknown compression method.
- Метод упаковки не поддерживается
Может быть ты опубликуешь здесь текст скрипта, а я его скопирую в нотпад и сохраню файл как vbs
Короче, Склифосовский.
Если будешь меньше тупить, то вот:
Это сделает то, что ты просил в самом начале.
Если будешь меньше тупить, то вот:
<?php
$dir = opendir('path_to_your_dir');
$output = fopen('output.txt', 'a');
while(false != ($file = readdir($dir)))
{
if($file != '.' && $file != '..')
{
$text = fread($file, filesize($file));
unset($matches);
if(preg_match('/<title>(.*)<\/title>/'), $text, $matches)
fputs($output, $file.' - '.(preg_replace('/\s+/g', ' ', $matches[0])).'\r\n');
}
}
fclose($output);
closedir($dir);
?>
Это сделает то, что ты просил в самом начале.
но это же потребует установить php-среду, типа Апачи, не?
В принципе спасибо конечно
В принципе спасибо конечно
нет, достаточно просто распаковать архив с PHP
вот только парсер кода на форуме фигурные скобки теряет и "\n" превращает в непойми что. Код подправил
В следующий раз пользуйся бесплатным 7-zip
Перезалил архив:
Перезалил архив:
СУПЕР! Ты - гений! СПАСИБО!
php-среду, типа Апачи

в винде есть свой grep. С блекджеком и регулярками:а он жадный? как отработает ситуацию с двумя тегами в одном файле?
findstr /i /r /c:"<title>.*</title>" *.html
правильно построить регулярку - второй вопрос
правильно построить регуляркуНевозможно
судя по факу на сайте майкрософта там весьма жалкие возможности построения регулярок.
нормально. Но переносы строк ниосиливает.
из квантификаторов только
понятие о жадной и ленивой квантификации отсутствует.
группировок нет.
*
+, ? и {m,n} отсутствуютпонятие о жадной и ленивой квантификации отсутствует.
группировок нет.
Наверное это не очень прилично, но можно я тебя попрошу еще немного мне помочь.
А если это не <title> тэг, а скажем <a>, причем их несколько на странице (и страниц тоже несколько) и внутри тэга еще указатель гиперссылки, ну такое вот: <a href="http://www.xxx.com"> и хотелось бы извлечь эти гиперссылки
так чтобы на выходе было:
filename1.html;http://www.aaa.com
filename1.html;http://www.bbb.com
filename2.html;http://www.xxx.com
filename2.html;http://www.yyy.com
Этим скриптом моя грандиозная задача по оприходыванию 30 гигов будет завершена
А если это не <title> тэг, а скажем <a>, причем их несколько на странице (и страниц тоже несколько) и внутри тэга еще указатель гиперссылки, ну такое вот: <a href="http://www.xxx.com"> и хотелось бы извлечь эти гиперссылки
так чтобы на выходе было:
filename1.html;http://www.aaa.com
filename1.html;http://www.bbb.com
filename2.html;http://www.xxx.com
filename2.html;http://www.yyy.com
Этим скриптом моя грандиозная задача по оприходыванию 30 гигов будет завершена

а потом захочется веса ввести или текст парсить
ненене
бери *sql,
c++|php|java|c#|python|perl|js,
libxml|simpledom и вперед
ненене
бери *sql,
c++|php|java|c#|python|perl|js,
libxml|simpledom и вперед
С чего мне тебе помогать?
Ты мне ни то что бы пива или денег на телефон не предложил, ты даже плюс не поставил.

Ты мне ни то что бы пива или денег на телефон не предложил, ты даже плюс не поставил.

тоже правильно. Спасибо за тот файл 

а чего никто xslt не посоветовал?
Оставить комментарий
BULKA8
Есть папка с 2000 html-страниц, нужно извлечь из них содержание тега <title> (на русском) причем чтобы на выходе эти строки располагались в таком же порядке в каком сами страницы лежат в папке.php/javascript кодить не умею
может кто поможет?