Что за разметка текстового файла? \b \i \p ...

yolki


\vTITLE="Harry Potter and the Deathly Hallows" AUTHOR="J. K. Rowling"
PUBLISHER="Bloomsbury Publishing PLC" COPYRIGHT="Copyright \a169 2007 by J. K.
Rowling"\v

\m="cover.png"

\bHarry Potter and the Deathly Hallows\b
\c\iBy J. K. Rowling\i
\sThe dedication of this book is split seven ways.
To Neil
To Jessica
To David
To Kenzie
To Di
To Anne
And to You
If you have stuck with Harry until the very end.\i\s\c

\p\C0="Chapter One: The Dark Lord Ascending"
\bChapter One
\iThe Dark Lord Ascending\i\b

fedya

RTF?

sirius

Судя по всему, это разметка для читалки наладонника.

kruzer25

Я сначала думал, что это rtf, но оказалось, что нет.
Самый лёгкий способ прочитать это - написать за пять минут на коленке парсер этой фигни в html, как я, собственно, и сделал.

yolki

это точно не RTF.
скорее всего да - разметка для читалки. вопрос - что за читалка.
чистить и писать парсер ломает.

kruzer25

Ну могу тебе в понедельник принести.
Там же всё элементарно - \aNNN - это символ с кодом NNN, абзацы бьются по строкам, всякие там \i, \b - модификаторы "включить/выключить режим i, включить/выключить режим b", то есть, просто помнишь текущее состояние, и, самый простой вариант, когда встречается новая команда - закрываешь все открытые теги модификаторов, меняешь у нужного текущее состояние и открываешь по новой (хотя можно и без таких излишеств а \p\C0="..." - это <h2>...</h2>, можно простым регэкспом обойтись.

yolki

не надо мне формат разъяснять он и так тривиальный.
\C0 - чаптер уровня 0
\БУКВА - открыть/закрыть тэг, это и так всё видно.

sirius

Кажется, нашел.
Такую разметку кушает eReader.
http://ebooks.palm.com/product/detail/19286
Есть ли он под отличные от PalmOS ОСи и чем конвертировать, не знаю.

kruzer25

\C0 - чаптер уровня 0
Там других и нету. Кроме того, перед \C0 (и только перед ним) всегда стоит \p.
не надо мне формат разъяснять он и так тривиальный.
Ну так напиши парсер, там дел действительно на пять минут, дольше в интернете ответ искать будешь.

yolki

там есть \C1

kruzer25

Да?

sirius

А может, проще найти нормальный текст поттера?

kruzer25

Ну, убрать из этого всё форматирование даже легче, чем преобразовать его в нормальный вид
Оставить комментарий
Имя или ник:
Комментарий: