Как написать регулярное выражение:

stm7884696

которое бы находило фрагмент кода между:
<>
и
<>
(внутри кода может находится любое колво любых символов включая перенос строки)

ppplva

<>(.*)<>
А вообще, от языка зависит.

Fragaria

на PCRE:
 
/<>(.*)<--end menu-->/s

Julie16

Никак.

Julie16

Всем: а что мы получим на этом:
<>qwqw<><>qawqw<>

Fragaria

в условиях не сказано, что так может получиться, но тогда:
 /<>(.*?)<>/s 

ppplva

внутри кода может находится любое колво любых символов
Что-нибудь получим.

Julie16

И что? Это ты вообще к чему?

Julie16

Мне кажется что требуется совсем не это(я знаю что написано, просто мне это кажется очевидным). Это же не сферический конь в вакууме...

Fragaria

это я к тому, что если сделать
 
preg_match_all("/<>(.*?)<>/s",$text,$sub);
то в твоём случае мы на выходе получим массив $sub, в котором будут находиться все совпадения с паттерном (в данном случае их будет 2)

Julie16

А если так:
<><><>...<><><>

Fragaria

тут конечно загнётся
но это уже другой вопрос - можно ли написать парсер на регэкспах, и вроде выяснили, что нельзя

Julie16

Ага. По лемме о накачке.

Julie16

PS: я пытаюсь сказать что в терминах автора треда эту задачу решить нельзя. Нужно дать некие утверждения о том что может лежать внутри.

Fragaria

насколько я знаю автора, внутри лежит PHP-код, который не содержит вложенных блоков <>

sergey_m

Всем: а что мы получим на этом:
<>qwqw<><>qawqw<>
Нужен "не жадный" режим. В перле он есть, не знаю как в других реализациях.
P.S. В случае вложенных, конечно, не получится.

Barbie29

и в случае вложенных можно:
Допустим существует HTML-документ, в котором произвольное число вложенных таблиц [<table>.*</table>]. Требуется "вырезать" по очереди самые вложенные таблицы (не содержащие внутри [<table>.*</table>] и, соответственно, выводить. И так - рекурсивно до конца вырезать изнутри всю таблицу. Ниже представлена программа, реализующая эту задачу при помощи логического оператора (?!...):

#!/usr/bin/perl -wT

$file=qq|s<table>aaa bbb
<table>cc<table>ccc
<table> 2<table>bb</table> <table>cc</table> </table></table>cc
</table>
ddd</table>d
|;

print $file;
&req($file);
sub req {
if($file=~m%(<table>?!.*<table>).*?)</table>)%igs){
$file=~s%(<table>?!.*<table>).*?)</table>)%%igs;
print "Virezali --$1--";
&req($file);
}
return $file;
}

http://genphys.phys.msu.ru/~dmitriyk/perl/regex.shtml#subroutines

Julie16

Еще один Дыртаньян. Нельзя. Еще раз: нельзя создать регулярное выражение, решающее подобную задачу. Домашнее задание: разобраться почему.
PS: очевидно что программой это сделать можно. Прочти тред и пойми, что спрашивалось.

evgen5555

Все правильно написал.
Так как мелких требований к функционалу никто и не додумался предъявить.

Barbie29

а я вот неуверен, что нельзя рекурсию на регекспе сделать, с помощю какихннить \n или ?:, другое дело, что подолбаться надо, чтоб доказать, что можно, но счас другая дабота есть...
в конце концов если уж на принцип, то рекурсивно конструитровать к регекспе другой регекс, юзая eval какой нибудь.
конечно, тот код, который я привел - это более чем рег выражение...
p.s. не стоит недооцениватьперловые регекспы.

Julie16

Это теоретически невозможно. Ботай автоматы.

Barbie29

если ты о теории, то возможно и прав(я теорию не знаю но я практик когда то такой регексп написал для выделения всех чисел в любом мат виде записи(кроме, походу, теховского формата):


#!/usr/bin/perl
$_=qq~
1234
34 -4567
3456
-0.35e-0,2
56grf45
-.034 E20
-.034 e2,01 -,045 e-,23
-,034 e201 3e-.20
-,045 e-,23 e-0.88

4 E-0.20
22
E-21
-0.2 w 4 3
345
2 ^-,3
~;
print "$1\n" while m%[+-]?(?=\d|[\.,]\d)\d*([\.,]\d*)?\se|e|\s?\^[-+]?\d*[,\.]?)\d+)?)|([+-]?e[+-]?\d*[,.]?\d+%gxi;
А вот его сокращенный вид


#!/usr/bin/perl

$_=qq~
1234
34 -4567
3456
-0.35e-0,2
56grf45
-.034 E20
-.034 e2,01 -,045 e-,23
-,034 e201 3e-.20
-,045 e-,23 e-0.88

4 E-0.20
22
E-21
-0.2 w 4 3
345
2 ^-,3
~;

$a='[+-]?\d*[,.]?\d+';print"$_\n"for/$a\s?[e^]$a|$a|[+-]?e$a/ig
типа язык, который позволяет 63-мя символами реализовать 14 условий, хотя текст всего чистого регекспа - 39 символов. Ну понятно вобщем.
Но в данном случае функциональные возможности языка программирования расширяют возможнсти автоматов, я так понял. И я походу дела имею ввиду возможности языка программирования но не возможности автоматов.
p.s. про недетерминированныфе и детерминированные конечные автоматы я только слышал как перл-программер, т.е. принципа их работы не знаю.

sergey_m

> Это теоретически невозможно. Ботай автоматы.
Вообще нельзя сделать рекурсию в regexp, но в perl можно.

#!/usr/bin/perl

sub qqq($) {
my $q = shift;

$q =~ s/(.*?)<begin.>(.*)<end.>(.*?)/$1.qqq($2).$3/e;

return $q;
}

print qqq("qwer<begin1>asd<end1>\n");
print qqq("<begin1>qwer<begin2>asd<end2>xyz<end1>\n");

Эта программа работает неправильно из-за бага (фичи?) в perl. При рекурсивном входе в блок переменные $1, $2, ... не очищаются. В этом можно убедиться вот так:

#!/usr/bin/perl

sub qqq($) {
my $q = shift;

print("oops: \$1 is - $1\n") if !($1 eq "");
print("oops: \$2 is - $2\n") if !($2 eq "");
print("oops: \$3 is - $3\n") if !($3 eq "");

$q =~ s/(.*?)<begin.>(.*)<end.>(.*?)/$1.qqq($2).$3/e;

return $q;
}

print qqq("qwer<begin1>asd<end1>\n");
print qqq("<begin1>qwer<begin2>asd<end2>xyz<end1>\n");

Если бы они очищались, то программа работала бы как надо.

sergey_m

Мы немножко обманем perl, и таки добьёмся своего:

#!/usr/bin/perl

sub qqq($;$$) {
my ($x, $q, $y);

if ($#{@_} == 0) { # first call
($x, $q, $y) = ("", shift, "");
} elsif ($#{@_} == 2) { # recursive call
($x, $q, $y) = @_;
} else {
die("oops\n");
}

$q =~ s/(.*?)<begin>(.*)<end>(.*?)/qqq($1,$2,$3)/e;

return $x.$q.$y;
}

print qqq("aaa<begin>qwer<begin>asd<end>xyz<end>bbb\n");

stm7884696

Пацаны, вы загнались уже...
Вот вам пример кода..
(просто есть желание написать как нить попроще, не юзая темплейты)
 <tr>

<>

<td class="menu"><div align="left"><img alt="" src="image/super_shadow.jpg" height="25" width="190"></div>

<div class="menu">

<>

</div>

</td>

<>

<>

<td class="main">
задача - сделать так, что бы между коментами "menu" и "end menu" не осталось ничего...
Регэкспы надо юзать phpшные.

sergey_m

Если эти тэги не бывают вложенными, то решение уже тебе показали несколько раз. В самом начале треда.

stm7884696

ну тогда отлично..
Всем спасибо...
ЗЫ Уточнил задачу, что бы прекратить бесполезное гадание..
Всем участникам еще раз спасибо )

daru

Мож это не совсем твой случай (или совсем не твой - всяко бывает) imho лучше в ситуации, когда нужно как-то преобразовать XML/HTML стремиться использовать XSLT. Конечно, если нужно вырезать "произвольный текст между" двумя комментами, то кхм... Но может быть можно переформулировать исходную задачу? Тэгами, там, какими-нибудь неугодный кусочек выделить?
У XSLT по сравнению с регэкспами есть хотя бы то преимущество, что существенно снижается риск получить некорректный XML на выходе.

sergey_m

Горе от ума, иопт. Вот так всё работает:

sub qqq($) {
my $q = shift;
$q =~ s/<begin>(.*)<end>/qqq($1)/e;
return $q;
}

print qqq("aaa<begin>qwer<begin>asd<end>xyz<end>bbb\n");

sergey_m

Эта программа работает неправильно из-за бага (фичи?) в perl. При рекурсивном входе в блок переменные $1, $2, ... не очищаются.
В связи с этим открыт bug: http://rt.perl.org/rt3/index.html?q=34247

Marinavo_0507

Имхо это не может быть багом по определению, так как семантика языка perl определена только его канонической реализацией.

sergey_m

Ты гонишь, потому что семантика определяется не реализацией, а документацией.

Marinavo_0507

Скажем не гоню, а преувеличиваю.
Документация определяет семантику частично.

sergey_m

> Скажем не гоню, а преувеличиваю.
Сорри, грубо вышло.
> Документация определяет семантику частично.
Возможно реализация определяет там, где промолчала документация. Но в данном случае баг стопудовый.

Marinavo_0507

> Но в данном случае баг стопудовый.
А вот хз. Всё-таки переменные специальные.
По твоей ссылке народ тоже не уверен, баг это или нет.
На документацию никто не ссылается, что характерно.
Только на интуицию, и на реализацию.

sergey_m

Про документацию все в курсе:


@- $-[0] is the offset of the start of the last successful match.
"$-["n"]" is the offset of the start of the substring matched
by n-th subpattern, or undef if the subpattern did not match.

Thus after a match against $_, $& coincides with "substr $_,
$-[0], $+[0] - $-[0]". Similarly, "$"n coincides with "substr
$_, $-["n"], $+["n"] - $-["n"]" if "$-["n"]" is defined, and $+
coincides with "substr $_, $-[$#-], $+[$#-]". One can use
"$#-" to find the last matched subgroup in the last successful
match. Contrast with $#+, the number of subgroups in the regu-
lar expression. Compare with "@+".

This array holds the offsets of the beginnings of the last suc-
cessful submatches in the currently active dynamic scope.
"$-[0]" is the offset into the string of the beginning of the
entire match. The nth element of this array holds the offset
of the nth submatch, so "$-[1]" is the offset where $1 begins,
"$-[2]" the offset where $2 begins, and so on.

Marinavo_0507

Ок, убедил
Оставить комментарий
Имя или ник:
Комментарий: