как пакетно извлечь содержание тега из html-страницы
скинь архив страниц на форум - извлеку бесплатно.
скинь архив страниц на форум - извлеку бесплатно.Спалился, майор?
Руслан не слушай его, лучше grep-ом пробежись, распарсит достаточно читабельно
grep-если бы я еще знал как написать код ...
спасибо, но там пара сотен МБ
<title>ЭтоТут sed+awk лучше помогут.
такой
идиотский
многострочный
заголовок</title>
пс. и не слушай етих линуксоедофф
у меня там в одной строке - название книги
ну мне бы хотелось решить эту задачу поскольку она еще не раз встретится, еще раз б.спасибо
эти строки располагались в таком же порядке в каком сами страницы лежат в папке.файлы в директории - множество неупорядоченное, но может быть упорядочено по различным критериям
Спасибо, неплохая прога, у меня есть кракнутая, но она не решает мою проблему
я виндовоз
А файл html упорядочены в каком виде?
В таком?
01. BlahBlah.html
02. BlahBla.html
...
1999. BlahBlah.html
Да, именно так
но она не решает мою проблемув и треде давали и другие проги.
зачем ты хочешь написать свою собственную систему? используя неподходящие для этого средства. учитывая что ты не умеешь этого делать.
Я не пишу своих программ, естессно, я пытаюсь найти алгоритмы связанные с манипулированием строками и именами файлов с помощью других прог, в чем нимало преуспел.
Кстати, проблему с многосоттысячной библиотекой практически решила прога MyHomeLib
А здесь я пытаюсь улучшить навигацию скачанного мной 30 Гб сайта книг.
findstr /i /r /c:"<title>.*</title>" *.html
А здесь я пытаюсь улучшить навигацию скачанного мной 30 Гб сайта книг.О, начинается, а что в итоге ты хочешь сделать?
А то я уже собрался тебе помочь и написать скрипт, а окажется, что ты опять гланды через жопу пытаешься удалить.
если бы гланды... он через свою жопу кота катрирует.
а если его связать и силой перевести на дб?
напиши пжлст
Могу результат скинуть в текстовый файл, будет примерно такого вида:
Имя файл—содержание тега <title>
а чем вариант с findstr не устраивает?
а если его связать и силой перевести на дб?Я думаю, что так к августу, еще через пяток таких годных тредов инициативная группа H&S таки выдвинется к месту дислокации руслана именно с этой целью.
Именно так и хотел бы,, если можно то хорошо бы разделить имя файла и содерж. тега точкой с запятой (;)
Распаковываешь zip, далее перетягиваешь папку с твоими html файлами на скрипт, и всё, в этой папке появится файл !_result.txt с результатом работы.
Отвечает:
! file10133.zip: Неизвестный метод в drag_drop.vbs
! file10133.zip: Нет файлов для извлечения
Все сопутствующие танцы с бубном (открытие в различных Коммандерах) ничего не дали
Их ответы:
- drag_drop.vbs: This archive uses an unknown compression method.
- Метод упаковки не поддерживается
Может быть ты опубликуешь здесь текст скрипта, а я его скопирую в нотпад и сохраню файл как vbs
Если будешь меньше тупить, то вот:
<?php
$dir = opendir('path_to_your_dir');
$output = fopen('output.txt', 'a');
while(false != ($file = readdir($dir)))
{
if($file != '.' && $file != '..')
{
$text = fread($file, filesize($file));
unset($matches);
if(preg_match('/<title>(.*)<\/title>/'), $text, $matches)
fputs($output, $file.' - '.(preg_replace('/\s+/g', ' ', $matches[0])).'\r\n');
}
}
fclose($output);
closedir($dir);
?>
Это сделает то, что ты просил в самом начале.
В принципе спасибо конечно
нет, достаточно просто распаковать архив с PHP
вот только парсер кода на форуме фигурные скобки теряет и "\n" превращает в непойми что. Код подправил
Перезалил архив:
СУПЕР! Ты - гений! СПАСИБО!
php-среду, типа Апачи
в винде есть свой grep. С блекджеком и регулярками:а он жадный? как отработает ситуацию с двумя тегами в одном файле?
findstr /i /r /c:"<title>.*</title>" *.html
правильно построить регулярку - второй вопрос
правильно построить регуляркуНевозможно
судя по факу на сайте майкрософта там весьма жалкие возможности построения регулярок.
нормально. Но переносы строк ниосиливает.
*
+, ? и {m,n}отсутствуют
понятие о жадной и ленивой квантификации отсутствует.
группировок нет.
А если это не <title> тэг, а скажем <a>, причем их несколько на странице (и страниц тоже несколько) и внутри тэга еще указатель гиперссылки, ну такое вот: <a href="http://www.xxx.com"> и хотелось бы извлечь эти гиперссылки
так чтобы на выходе было:
filename1.html;http://www.aaa.com
filename1.html;http://www.bbb.com
filename2.html;http://www.xxx.com
filename2.html;http://www.yyy.com
Этим скриптом моя грандиозная задача по оприходыванию 30 гигов будет завершена
ненене
бери *sql,
c++|php|java|c#|python|perl|js,
libxml|simpledom и вперед
Ты мне ни то что бы пива или денег на телефон не предложил, ты даже плюс не поставил.
тоже правильно. Спасибо за тот файл
а чего никто xslt не посоветовал?
Оставить комментарий
BULKA8
Есть папка с 2000 html-страниц, нужно извлечь из них содержание тега <title> (на русском) причем чтобы на выходе эти строки располагались в таком же порядке в каком сами страницы лежат в папке.php/javascript кодить не умею
может кто поможет?