Как написать регулярное выражение:

stm7884696

которое бы находило фрагмент кода между:
<>
и
<>
(внутри кода может находится любое колво любых символов включая перенос строки)

ppplva

<>(.*)<>
А вообще, от языка зависит.

Fragaria

на PCRE:

 

/<>(.*)<--end menu-->/s

Julie16

Никак.

Julie16

Всем: а что мы получим на этом:
<>qwqw<><>qawqw<>

Fragaria

в условиях не сказано, что так может получиться, но тогда:

 /<>(.*?)<>/s

ppplva

внутри кода может находится любое колво любых символов

Что-нибудь получим.

Julie16

И что? Это ты вообще к чему?

Julie16

Мне кажется что требуется совсем не это(я знаю что написано, просто мне это кажется очевидным). Это же не сферический конь в вакууме...

Fragaria

это я к тому, что если сделать

 

preg_match_all("/<>(.*?)<>/s",$text,$sub);

то в твоём случае мы на выходе получим массив $sub, в котором будут находиться все совпадения с паттерном (в данном случае их будет 2)

Julie16

А если так:
<><><>...<><><>

Fragaria

тут конечно загнётся
но это уже другой вопрос - можно ли написать парсер на регэкспах, и вроде выяснили, что нельзя

Julie16

Ага. По лемме о накачке.

Julie16

PS: я пытаюсь сказать что в терминах автора треда эту задачу решить нельзя. Нужно дать некие утверждения о том что может лежать внутри.

Fragaria

насколько я знаю автора, внутри лежит PHP-код, который не содержит вложенных блоков <>

sergey_m

Всем: а что мы получим на этом:
<>qwqw<><>qawqw<>

Нужен "не жадный" режим. В перле он есть, не знаю как в других реализациях.
P.S. В случае вложенных, конечно, не получится.

Barbie29

и в случае вложенных можно:
Допустим существует HTML-документ, в котором произвольное число вложенных таблиц [<table>.*</table>]. Требуется "вырезать" по очереди самые вложенные таблицы (не содержащие внутри [<table>.*</table>] и, соответственно, выводить. И так - рекурсивно до конца вырезать изнутри всю таблицу. Ниже представлена программа, реализующая эту задачу при помощи логического оператора (?!...):



#!/usr/bin/perl -wT



$file=qq|s<table>aaa bbb

      <table>cc<table>ccc

      <table> 2<table>bb</table> <table>cc</table>    </table></table>cc

  </table>

     ddd</table>d

|;



print $file;

&req($file);

sub req {

  if($file=~m%(<table>?!.*<table>).*?)</table>)%igs){

    $file=~s%(<table>?!.*<table>).*?)</table>)%%igs;

    print "Virezali --$1--";

    &req($file);

  }

return $file;

}

http://genphys.phys.msu.ru/~dmitriyk/perl/regex.shtml#subroutines

Julie16

Еще один Дыртаньян. Нельзя. Еще раз: нельзя создать регулярное выражение, решающее подобную задачу. Домашнее задание: разобраться почему.
PS: очевидно что программой это сделать можно. Прочти тред и пойми, что спрашивалось.

evgen5555

Все правильно написал.
Так как мелких требований к функционалу никто и не додумался предъявить.

Barbie29

а я вот неуверен, что нельзя рекурсию на регекспе сделать, с помощю какихннить \n или ?:, другое дело, что подолбаться надо, чтоб доказать, что можно, но счас другая дабота есть...
в конце концов если уж на принцип, то рекурсивно конструитровать к регекспе другой регекс, юзая eval какой нибудь.
конечно, тот код, который я привел - это более чем рег выражение...
p.s. не стоит недооцениватьперловые регекспы.

Julie16

Это теоретически невозможно. Ботай автоматы.

Barbie29

если ты о теории, то возможно и прав(я теорию не знаю но я практик

когда то такой регексп написал для выделения всех чисел в любом мат виде записи(кроме, походу, теховского формата):





#!/usr/bin/perl

$_=qq~

1234

34 -4567

 3456

-0.35e-0,2

    56grf45

-.034 E20

     -.034 e2,01   -,045 e-,23

  -,034 e201  3e-.20

-,045 e-,23 e-0.88



4 E-0.20

22 

E-21

 -0.2 w         4 3

345

2 ^-,3

~;

print "$1\n" while m%[+-]?(?=\d|[\.,]\d)\d*([\.,]\d*)?\se|e|\s?\^[-+]?\d*[,\.]?)\d+)?)|([+-]?e[+-]?\d*[,.]?\d+%gxi;

А вот его сокращенный вид





#!/usr/bin/perl



$_=qq~

1234

34 -4567

 3456

-0.35e-0,2

    56grf45

-.034 E20

     -.034 e2,01   -,045 e-,23

  -,034 e201  3e-.20

-,045 e-,23 e-0.88



4 E-0.20

22 

E-21

 -0.2 w         4 3

345

2 ^-,3

~;



$a='[+-]?\d*[,.]?\d+';print"$_\n"for/$a\s?[e^]$a|$a|[+-]?e$a/ig

типа язык, который позволяет 63-мя символами реализовать 14 условий, хотя текст всего чистого регекспа - 39 символов. Ну понятно вобщем.
Но в данном случае функциональные возможности языка программирования расширяют возможнсти автоматов, я так понял. И я походу дела имею ввиду возможности языка программирования но не возможности автоматов.
p.s. про недетерминированныфе и детерминированные конечные автоматы я только слышал как перл-программер, т.е. принципа их работы не знаю.

sergey_m

> Это теоретически невозможно. Ботай автоматы.
Вообще нельзя сделать рекурсию в regexp, но в perl можно.



#!/usr/bin/perl



sub qqq($) {

  my $q = shift;



  $q =~ s/(.*?)<begin.>(.*)<end.>(.*?)/$1.qqq($2).$3/e;



  return $q;

}



print qqq("qwer<begin1>asd<end1>\n");

print qqq("<begin1>qwer<begin2>asd<end2>xyz<end1>\n");

Эта программа работает неправильно из-за бага (фичи?) в perl. При рекурсивном входе в блок переменные $1, $2, ... не очищаются. В этом можно убедиться вот так:



#!/usr/bin/perl



sub qqq($) {

  my $q = shift;



  print("oops: \$1 is - $1\n") if !($1 eq "");

  print("oops: \$2 is - $2\n") if !($2 eq "");

  print("oops: \$3 is - $3\n") if !($3 eq "");



  $q =~ s/(.*?)<begin.>(.*)<end.>(.*?)/$1.qqq($2).$3/e;



  return $q;

}



print qqq("qwer<begin1>asd<end1>\n");

print qqq("<begin1>qwer<begin2>asd<end2>xyz<end1>\n");

Если бы они очищались, то программа работала бы как надо.

sergey_m

Мы немножко обманем perl, и таки добьёмся своего:



#!/usr/bin/perl



sub qqq($;$$) {

  my ($x, $q, $y);



  if ($#{@_} == 0) { # first call

    ($x, $q, $y) = ("", shift, "");

  } elsif ($#{@_} == 2) { # recursive call

    ($x, $q, $y) = @_;

  } else {

        die("oops\n");

  }



  $q =~ s/(.*?)<begin>(.*)<end>(.*?)/qqq($1,$2,$3)/e;



  return $x.$q.$y;

}



print qqq("aaa<begin>qwer<begin>asd<end>xyz<end>bbb\n");

stm7884696

Пацаны, вы загнались уже...
Вот вам пример кода..
(просто есть желание написать как нить попроще, не юзая темплейты)

 <tr>



	<>



	<td class="menu"><div align="left"><img alt="" src="image/super_shadow.jpg" height="25" width="190"></div>



	<div class="menu">



		<>



	</div>



	</td>



	<>



	<>



	<td class="main">

задача - сделать так, что бы между коментами "menu" и "end menu" не осталось ничего...
Регэкспы надо юзать phpшные.

sergey_m

Если эти тэги не бывают вложенными, то решение уже тебе показали несколько раз. В самом начале треда.

stm7884696

ну тогда отлично..
Всем спасибо...
ЗЫ Уточнил задачу, что бы прекратить бесполезное гадание..
Всем участникам еще раз спасибо

)

daru

Мож это не совсем твой случай (или совсем не твой - всяко бывает) imho лучше в ситуации, когда нужно как-то преобразовать XML/HTML стремиться использовать XSLT. Конечно, если нужно вырезать "произвольный текст между" двумя комментами, то кхм... Но может быть можно переформулировать исходную задачу? Тэгами, там, какими-нибудь неугодный кусочек выделить?
У XSLT по сравнению с регэкспами есть хотя бы то преимущество, что существенно снижается риск получить некорректный XML на выходе.

sergey_m

Горе от ума, иопт. Вот так всё работает:



sub qqq($) {

  my $q = shift;

  $q =~ s/<begin>(.*)<end>/qqq($1)/e;

  return $q;

}



print qqq("aaa<begin>qwer<begin>asd<end>xyz<end>bbb\n");

sergey_m

Эта программа работает неправильно из-за бага (фичи?) в perl. При рекурсивном входе в блок переменные $1, $2, ... не очищаются.

В связи с этим открыт bug: http://rt.perl.org/rt3/index.html?q=34247

Marinavo_0507

Имхо это не может быть багом по определению, так как семантика языка perl определена только его канонической реализацией.

sergey_m

Ты гонишь, потому что семантика определяется не реализацией, а документацией.

Marinavo_0507

Скажем не гоню, а преувеличиваю.
Документация определяет семантику частично.

sergey_m

> Скажем не гоню, а преувеличиваю.
Сорри, грубо вышло.
> Документация определяет семантику частично.
Возможно реализация определяет там, где промолчала документация. Но в данном случае баг стопудовый.

Marinavo_0507

> Но в данном случае баг стопудовый.
А вот хз. Всё-таки переменные специальные.
По твоей ссылке народ тоже не уверен, баг это или нет.
На документацию никто не ссылается, что характерно.
Только на интуицию, и на реализацию.

sergey_m

Про документацию все в курсе:



       @-      $-[0] is the offset of the start of the last successful match.

               "$-["n"]" is the offset of the start of the substring matched

               by n-th subpattern, or undef if the subpattern did not match.



               Thus after a match against $_, $& coincides with "substr $_,

               $-[0], $+[0] - $-[0]".  Similarly, "$"n coincides with "substr

               $_, $-["n"], $+["n"] - $-["n"]" if "$-["n"]" is defined, and $+

               coincides with "substr $_, $-[$#-], $+[$#-]".  One can use

               "$#-" to find the last matched subgroup in the last successful

               match.  Contrast with $#+, the number of subgroups in the regu-

               lar expression.  Compare with "@+".



               This array holds the offsets of the beginnings of the last suc-

               cessful submatches in the currently active dynamic scope.

               "$-[0]" is the offset into the string of the beginning of the

               entire match.  The nth element of this array holds the offset

               of the nth submatch, so "$-[1]" is the offset where $1 begins,

               "$-[2]" the offset where $2 begins, and so on.

Marinavo_0507

Ок, убедил

Оставить комментарий