Технология XSLT - читать бесплатно онлайн полную версию книги автора Алексей Н. Валиков (Глава 8 Дополнительные элементы и функции языка XSLT) #9

Глава 8 Дополнительные элементы и функции языка XSLT

Дополнительные элементы и функции

В этой главе разбираются дополнительные элементы и функции языка XSLT, которые выполняют в преобразованиях различные задачи, непосредственно не связанные с созданием узлов выходящего документа. Дополнительные элементы и функции XSLT расширяют возможности преобразования, предоставляя разного рода вспомогательный сервис.

К дополнительным элементам XSLT мы отнесем следующие:

□

xsl:preserve-space

xsl:strip-space

— работа с пробельными символами;

□

xsl:message

— сообщения процессора;

□

xsl:sort

— сортировка множеств перед обработкой;

□

xsl:namespace-alias

— определение псевдонимов пространств имен;

□

xsl:key

— определение ключей;

□

xsl:number

— нумерация;

□

xsl:decimal-format

— определение десятичного формата;

□

xsl:output

— контроль сериализации.

В XSLT также определяются дополнительные функции, расширяющие базовую библиотеку функций XPath:

□

key

— использование ключей;

□

format-number

— форматирование чисел;

□

document

— обращение к внешним документам;

□

current

— обращение к текущему узлу преобразования;

□

unparsed-entity-uri

— получение URI неразбираемой сущности по ее имени;

□

generate-id

— генерация уникального идентификатора узла документа;

□

system-property

— получение информации о свойствах системы, окружения.

Обработка пробельных символов

В XSLT выделяются четыре пробельных символа, обработка которых несколько отличается от обработки других символов. Их Unicode-коды и описания сведены в табл. 8.1.

Таблица 8.1. Unicode-коды пробельных символов

Unicode-коды	Описание
Десятичный	Шестнадцатеричный
`#9`	`#x9`	Горизонтальная табуляция
`#10`	`#xA`	Перевод строки
`#13`	`#xD`	Возврат каретки
`#32`	`#x20`	Пробел

Отличие обработки пробельных символов заключается в том, что после разбора и создания логической модели для входящего документа и для самого преобразования, узлы, которые содержат только пробельные символы, будут удалены из дерева.

Пример

Рассмотрим шаблон преобразования, содержащий пробельные символы ("

□

" обозначает пробел, а "

¶

" — перевод строки).

Листинг 8.1. Шаблон преобразования с пробельными символами

¶

¶

□□□¶

□□□¶

□□□□□□□□□¶

□□□□□□¶

□□□□□□□□□¶

¶

Поскольку текстовые узлы этого шаблона содержат только пробельные символы, они будут удалены из дерева преобразования, и результат будет иметь вид:

Вообще, текстовый узел будет сохранен при выполнении хотя бы одного из следующих условий.

□ Он содержит хотя бы один непробельный символ.

□ Он принадлежит элементу, в котором сохранение пробельных символов задано средствами XML, а именно атрибутом
xml:space
со значением
preserve
.

□ Он принадлежит элементу, имя которого включено во множество имен элементов, для которых нужно сохранять пробельные символы.

Во всех остальных случаях текстовый узел будет удален.

Продемонстрируем все три случая сохранения текстового узла на примерах.

Первый случай довольно прост. Шаблон

¶

¶

□□¶

¶

создаст в выходящем документе фрагмент

<а/>

безо всяких пробельных символов, в то время как шаблон

¶

¶

□□||¶

¶

создаст фрагмент вида

¶

¶

□□||¶

¶

Различие двух этих шаблонов в том, что в первом текстовые узлы содержат текст "
¶ ¶ □□
" и "
¶ ¶
" соответственно, а во втором — "
¶ ¶ □□|
" и "
| ¶ ¶
". Текстовые узлы второго шаблона не будут удалены, поскольку они содержат непробельные символы (символы "
|
").

Второй случай сохранения текстовых узлов основан на использовании возможностей XML по управлению пробельными символами. Если в элементе задан атрибут
xml:space
со значением
"preserve"
, обрабатывающее программное обеспечение должно сохранять в нем и в его потомках пробельные символы. Единственным исключением из этого правила может быть опять же атрибут
xml:space
, заданный в элементе-потомке со значением
"default"
.

Пример

Шаблон

¶

□□<а>¶

□□□□¶

□□□□□□¶

□□□□□□□□¶

□□□□□□¶

□□□□¶

□□¶

создаст в выходящем документе фрагмент вида:

Если же шаблон будет определен в виде:

¶

□□<а xml:space="preserve">¶

□□□□¶

□□□□□□¶

□□□□□□□□¶

□□□□□□¶

□□□□¶

□□¶

то в выходящем фрагменте в элементах
а
и
b
пробельные символы будут сохранены, а в элементах
с
и
d
— удалены:

<а xml:space="preserve">¶

□□□□¶

□□□□□□¶

□□□□¶

□□

В третьем случае сохранение пробельных символов текстового узла зависит от того, принадлежит ли имя родительского элемента особому множеству, называемому множеством имен элементов, для которых следует сохранять пробельные символы или, для краткости, сохраняющее множество.

Для преобразований сохраняющее множество состоит из единственного элемента
xsl:text
, то есть единственный элемент в преобразовании, для которого пробельные текстовые узлы не будут удаляться, — это элемент
xsl:text
. Поэтому его часто используют для вывода в выходящем документе пробельных символов.

Для входящих документов сохраняющее множество состоит из имен всех элементов. То есть по умолчанию преобразования сохраняют все пробельные текстовые узлы. Для изменения сохраняющего множества элементов входящего документа используются элементы
xsl:preserve-space
и
xsl:strip-space
.

Элементы xsl:preserve-space и xsl:strip-space

Синтаксические конструкции этих элементов очень похожи:

elements="токены"/> elements="токены"/> Элемент xsl:preserve-space добавляет, a xsl:strip-space удаляет имя элемента из сохраняющего множества входящего документа. Пример Предположим, нам нужно сохранять пробельные символы во всех элементах d и удалять их в элементах с . Тогда в преобразовании достаточно указать Вообще, обязательные атрибуты elements элементов xsl:strip-space и xsl:preserve-space содержат не сами имена элементов, а так называемые проверки имен. Проверка имени имеет три варианта синтаксиса. □ Синтаксис "*" используется для выбора произвольных имен. Ей будут соответствовать любые имена элементов. □ Синтаксис "имя" используется для выбора элементов с заданным именем. К примеру, проверке имени "d" будут соответствовать все элементы с именем "d ". □ Синтаксис "префикс:*" используется для выбора всех элементов в данном пространстве имен. К примеру, если в документе определен префикс пространства имен upr в виде атрибута xmlns:upr="http://www.upr.com" , проверке имени "upr:*" будут соответствовать все элементы пространства имен, определяемого идентификатором "http://www.upr.com" . Пример Предположим, что нам необходимо сохранить пробельные символы в элементе с именем с и удалить их в элементе e и элементах, принадлежащих пространству имен, определяемому идентификатором "urn:d ". Листинг 8.2. Входящий документ <а xmlns:d="urn:d">¶ □□¶ □□□□¶ □□□□□□¶ □□□□¶ □□¶ Листинг 8.3. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> xmlns:t="urn:d"/> Листинг 8.4. Выходящий документ ¶ □□¶ □□□□□□¶ □□□□¶

Сообщения процессора По большому счету, мы не можем контролировать процесс преобразования. Процессор может сам выбирать, как и в какой последовательности он будет выполнять те или иные шаблоны — таковы особенности декларативного программирования. Вместе с тем мы все-таки можем получить кое-какую информацию о ходе преобразования, используя механизм, называемый в XSLT сообщениями. Элемент xsl:message Синтаксис этого элемента дан ниже: terminate="yes" | "no"> Элемент xsl:message указывает процессору на то, что он должен вывести сообщение, которое является результатом обработки шаблона, содержащегося в этом элементе. Механизм вывода сообщения зависит от реализации того или иного процессора и может быть различным — от вывода текста сообщения на экран до вызова внешнего модуля для обработки сообщения. Пример Иногда в процессе отладки преобразования бывает полезно выводить сообщения о том, какой элемент обрабатывается в данный момент. Листинг 8.5. Входящий документ Листинг 8.6. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Processing element which has a parent element . Листинг 8.7. Выходящий документ Листинг 8.8. Сообщения процессора Processing element a. Processing element b which has a parent element a. Processing element с which has a parent element b. Processing element d which has a parent element c. Атрибут terminate указывает на то, должен ли процессор прекратить дальнейшую обработку документа или нет. Значением этого атрибута по умолчанию является "no" , что означает, что процессор должен просто вывести сообщения и продолжать дальнейшее выполнение шаблона. Если же в xsl:message указано terminate="yes" , то процессор, выведя сообщение, прервет обработку. Этот прием может использоваться, например, для того, чтобы проверять входящие документы на соответствие определенной схеме. Пример При помощи xsl:message мы можем запретить обработку документов, которые не имеют в корне элемент с именем "html" в любом регистре символов. Листинг 8.9. Шаблон преобразования Document has no root HTML element. Если мы будем обрабатывать документ вида обработка не будет прервана, в то время как преобразование документа будет прервано сообщением: Document has no root HTML element: Processing terminated using xsl:message Сортировка При преобразовании документа элементами xsl:for-each и xsl:apply-templates , выбранные узлы по умолчанию обрабатываются в порядке просмотра документа, который зависит от выражения, использованного в атрибуте select этих элементов. XSLT позволяет изменять этот порядок посредством использования механизма сортировки. Элементы xsl:for-each и xsl:apply-templates могут содержать один или несколько элементов xsl:sort , которые позволяют предварительно сортировать обрабатываемое множество узлов. Элемент xsl:sort Синтаксис этого элемента определяется в XSLT как: select = "выражение" lang = "язык" data-type = "text" | "number" | "имя" order = "ascending" | "descending" case-order = "upper-first" | "lower-first" /> В случае если xsl:for-each и xsl:apply-templates содержат элементы xsl:sort , обработка множества узлов должна производиться не в порядке просмотра документа, а в порядке, который определяется ключами, вычисленными при помощи xsl:sort . Первый элемент xsl:sort , присутствующий в родительском элементе, определяет первичный ключ сортировки, второй элемент — вторичный ключ, и так далее. Элемент xsl:sort обладает атрибутом select , значением которого является выражение, называемое также ключевым выражением. Это выражение вычисляется для каждого узла обрабатываемого множества, преобразуется в строку и затем используется как значение ключа при сортировке. По умолчанию значением этого атрибута является "." , что означает, что в качестве значения ключа для каждого узла используется его строковое значение. После этих вычислений узлы обрабатываемого множества сортируются по полученным строковым значениям своих ключей и обрабатываются в новом порядке. Если ключи некоторых узлов совпадают, они могут быть в дальнейшем отсортированы вторичными и так далее ключами. Элемент xsl:sort может иметь следующие необязательные атрибуты, которые указывают некоторые параметры сортировки. □ Атрибут order определяет порядок, в котором узлы должны сортироваться по своим ключам. Этот атрибут может принимать только два значения — "ascending" , указывающее на восходящий порядок сортировки, и "descending" , указывающее на нисходящий порядок. Значением по умолчанию является "ascending" , то есть восходящий порядок. □ Атрибут lang определяет язык ключей сортировки. Дело в том, что в разных языках символы алфавита могут иметь различный порядок, что, соответственно, должно учитываться при сортировке. Атрибут lang в XSLT может иметь те же самые значения, что и атрибут xml:lang (например: "en" , "en-us" , "ru" и т.д.). Если значение этого атрибута не определено, процессор может либо определять язык исходя из параметров системы, либо сортировать строки исходя из порядка кодов символов Unicode. □ Атрибут data-type определяет тип данных, который несут строковые значения ключей. Техническая рекомендация XSLT разрешает этому атрибуту иметь следующие значения: • "text" — ключи должны быть отсортированы в лексикографическом порядке исходя из языка, определенного атрибутом lang или параметрами системы; • "number" — ключи должны сравниваться в численном виде. Если строковое значение ключа не является числом, оно будет преобразовано к не-числу (NaN ), и, поскольку нечисловые значения неупорядочены, соответствующий узел может появиться в отсортированном множестве где угодно; • "имя" — в целях расширяемости XSLT также позволяет указывать в качестве типа данных произвольное имя. В этом случае реализация сортировки полностью зависит от процессора; • значением атрибута data-type по умолчанию является "text" . □ Атрибут case-order указывает на порядок сортировки символов разных регистров. Значениями этого атрибута могут быть "upper-first" , что означает, что заглавные символы должны идти первыми, или "lower-first" , что означает, что первыми должны быть строчные символы. К примеру, строки "ночь" , "Улица" , "фонарь" , "Аптека" , "НОЧЬ" , "Фонарь" при использовании case-order="upper-first" будут иметь порядок "Аптека" , "НОЧЬ" , "ночь" , "Фонарь" , "фонарь" , "улица" . При использовании case-order="lower-first" те же строки будут идти в порядке "Аптека" , "ночь" , "НОЧЬ" , "фонарь" , "Фонарь" , "улица" . Значение case-order по умолчанию зависит от процессора и языка сортировки. В большинстве случаев заглавные буквы идут первыми. Как можно видеть, элемент xsl:sort определяет сортировку достаточно гибко, но вместе с тем не следует забывать, что эти возможности могут быть реализованы в процессорах далеко не полностью. Поэтому одна и та же сортировка может быть выполнена в разных процессорах по-разному. Приведем простой пример сортировки имен и фамилий. Рассмотрим пример. Листинг 8.10. Входящий документ William Gibson William Blake John Fowles Отсортируем этот список сначала по именам в убывающем, а затем по фамилиям в возрастающем порядке. Листинг 8.12. Выходящий документ William Blake William Gibson John Fowles К сожалению, сортировкой нельзя управлять динамически. Все атрибуты элемента xsl:sort должны обладать фиксированными значениями. Псевдонимы пространств имен Любопытным фактом является то, что XML-документ, являющийся результатом выполнения XSLT-преобразования, может и сам быть XSLT- преобразованием. Иными словами, преобразования могут генерироваться другими преобразованиями. В некоторых случаях такая возможность будет очень полезна, например, входящий XML-документ может описывать преобразование, которое нужно сгенерировать. Листинг 8.13. XML-документ, описывающий требуемое преобразование Приведенный выше документ описывает преобразование, которое должно удалять из входящего документа элементы а , а элементы b и c заменять элементами B и C соответственно. Такое преобразование может выглядеть следующим образом. Листинг 8.14. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Преобразование, генерирующее такой код, не представляет особой сложности. Например, шаблон для обработки элемента replace может иметь следующий вид: Шаблон этот выглядит очень громоздко, потому что мы не могли просто включить в него создаваемое правило: поскольку мы создаем элементы в пространстве имен XSLT, находясь в шаблоне, они воспринимались бы не как генерируемые, а как принадлежащие генерирующему преобразованию. Очевидно, что шаблон вида был бы некорректен. По этой причине нам пришлось генерировать все инструкции при помощи xsl:element и xsl:attribute , что сделало шаблон громоздким и малопонятным. Если внимательно рассмотреть проблему, то окажется, что она состоит в том, что мы хотим в преобразовании использовать элементы одного пространства имен так, как если бы они относились к другому пространству. К счастью, XSLT предоставляет легкий и удобный способ для решения такого рода задачи: пространству имен можно назначить псевдоним при помощи элемента xsl:namespace-alias . Элемент xsl:namespace-alias Синтаксическая конструкция этого элемента выглядит следующим образом: stylesheet-prefiх="префикс" | "#default" result-prefix="префикс" | "#default"/> Элемент xsl:namespace-alias назначает пространству имен выходящего документа пространство имен, которое будет подменять его в преобразовании, иначе говоря — псевдоним. Обязательный атрибут result-prefix указывает, какому пространству имен назначается псевдоним. Обязательный атрибут stylesheet-prefix указывает, какое пространство имен будет использоваться в качестве его псевдонима в преобразовании. Оба атрибута содержат префиксы пространств имен, которые, естественно, должны быть ранее объявлены в преобразовании. Пример Возвращаясь к генерации преобразования, мы можем изменить пространство имен генерируемых элементов так, чтобы они не воспринимались процессором как элементы XSLT. Для того чтобы в выходящем документе эти элементы все же принадлежали пространству имен XSLT, измененное пространство имен в преобразовании должно указываться как псевдоним этого пространства. Листинг 8.15. Преобразование, использующее псевдонимы пространств имен version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:axsl="http://www.w3.org/1999/XSL/Transform/Alias"> stylesheet-prefix="axsl" result-prefix="xsl"/> В этом преобразовании элемент xsl:namespace-alias указывает на то, что все элементы, принадлежащие в преобразовании пространству имен с URI http://www.w3.org/1999/XSL/Transform/Alias в выходящем документе должны принадлежать пространству имен с URI http://www.w3.org/1999/XSL/Transform то есть пространству имен XSLT. Результатом применения этого преобразования к документу из листинга 8.13 будет следующий документ. Листинг 8.16. Выходящее преобразование version="1.0" xmlns:axsl="http://www.w3.org/1999/XSL/Transform" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> В этом сгенерированном преобразовании элементы имеют префикс axsl , но при этом принадлежат пространству имен XSLT. Атрибуты stylesheet-prefix и result-prefix элемента xsl:namespace-alias могут иметь значения "#default" . Определение вида stylesheet-prefix="a" result-prefix="#default"/> означает, что элементы, принадлежащие в преобразовании пространству имен а , в выходящем документе должны принадлежать пространству имен по умолчанию. Определение вида stylesheet-prefix="#default" result-prefix="a"/> означает, что элементы, принадлежащие в преобразовании пространству имен по умолчанию, в выходящем документе должны принадлежать пространству имен а . Пример Листинг 8.17. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:a="urn:a" xmlns="urn:b"> stylesheet-prefix="#default" result-prefix="a"/> stylesheet-prefix="a" result-prefix="#default"/> Листинг 8.18. Выходящий документ Результатом этого преобразования является то, что пространство имен с URI "urn:а" стало пространством имен по умолчанию, а пространство имен с URI "urn:b" изменило префикс на а . В преобразованиях можно объявлять несколько псевдонимов пространств имен при условии, что одно и то же пространство имен преобразования не должно быть объявлено элементами xsl:namespace-alias с одинаковым порядком импорта псевдонимом для различных пространств имен выходящего документа. Пример Если преобразование a.xsl содержит определение stylesheet-prefix="x" result-prefix="a"/> а преобразование b.xsl — определение stylesheet-prefix="x" result-prefix="b"/> где в обоих преобразованиях префикс x представляет одно пространство имен, а пространства имен a и b — разные, то преобразование a.xsl не сможет включать преобразование b.xsl и наоборот, потому что они будут иметь одинаковый порядок импорта и содержать элементы xsl:namespace-alias , назначающие разным пространствам имен одинаковые псевдонимы. В одном преобразовании такие псевдонимы также не имеют права встречаться. Если же подобное все же случилось, процессор может сигнализировать ошибку или использовать определение, которое было дано в преобразовании последним. Совсем иначе обстоит дело с импортированием. При импортировании определения старших в порядке импорта преобразований могут переопределять определения младших преобразований. Таким образом, если преобразование a.xsl будет импортировать преобразование b.xsl , пространство имен x будет назначено псевдонимом пространству имен а и наоборот. Ключи Прежде чем мы приступим к разбору ключей, которые являются одной из самых мощных концепций языка XSLT, попробуем решить одну несложную задачку. Листинг 8.19. Входящий документ Пусть входящий документ представляет собой список объектов (элементов item ), каждый из которых имеет имя (атрибут name ) и источник (атрибут source ). Требуется сгруппировать объекты по своим источникам и получить документ приблизительно следующего вида. Листинг 8.20. Требуемый результат Первым шагом на пути решения этой задачи является формулировка в терминах XSLT предложения "сгруппировать объекты по своим источникам". Источник каждого объекта определяется его атрибутом source , значит множество объектов, принадлежащих одному источнику "а" , будет определяться путем выборки /items/item[@source='a'] Тогда для каждого элемента item в его группу войдут элементы, которые будут выбраны выражением /items/item[@source=current()/@source] Попробуем использовать этот факт в следующем шаблоне: Как и ожидалось, при применении этого правила к элементам item для каждого из них будет создана группа, принадлежащая тому же источнику, — уже хороший результат, но в условии требуется создать по группе не для каждого объекта, а для каждого источника. Чтобы достичь этого, можно создавать группу только для первого объекта, принадлежащего ей. Провести такую проверку опять же несложно: объект будет первым в группе тогда и только тогда, когда ему не предшествуют другие, элементы item , принадлежащие тому же источнику. Иначе говоря, создаем группы только для тех элементов, для которых выражение preceding-sibling::item[@source-current()/@source] будет возвращать пустое множество. С небольшими добавлениями искомое преобразование целиком будет иметь вид. Листинг 8.21. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> test="preceding-sibling::item[@source=current()/@source]"/> Бесспорно, решение было несложным, но довольно громоздким. Самым же узким местом в этом преобразовании является обращение к элементам item источника текущего элемента посредством сравнения атрибутов source . Проблема совершенно стандартна для многих преобразований: нужно выбирать узлы по определенным признакам, причем делать это нужно как можно более эффективно. Хорошо, что в нашем документе было всего восемь элементов item , но представьте себе ситуацию, когда элементов действительно много. Проблема, которую мы подняли, достаточно серьезна. Она состоит в оптимизации поиска узлов с определенными свойствами в древовидно организованной структуре. Попробуем разобраться в смысле фразы "узел обладает определенными свойствами". Очевидно, это означает, что для этого узла выполняется некое логическое условие, иначе говоря, некий предикат обращается в "истину". Однако какого именно типа условия мы чаще всего проверяем? Анализируя различные классы задач, можно придти к выводу, что в большинстве случаев предикаты являются равенствами — выражениями, которые обращаются в "истину" тогда и только тогда, когда некоторый параметр узла, не зависящий от текущего контекста, равен определенному значению. В нашем примере смысл предиката на самом деле состоит не в том, чтобы проверить на истинность выражение @source=current()/@source , а в том, чтобы проверить на равенство @source и current()/@source . Если переформулировать это для общего случая, то нам нужно выбрать не те узлы, для которых истинно выражение A=B , скорее нужно выбрать те, для которых значение A равно значению B . Иначе говоря, узел будет идентифицироваться значением в своего свойства A . И если мы заранее вычислим значения свойств A , проблема поиска узлов в дереве сведется к классической проблеме поиска элементов множества (в нашем случае — узлов дерева) по определенным значениям ключей (в нашем случае — значениями свойств A ). Чтобы пояснить это, вернемся к нашему примеру: мы ищем элементы item со значением атрибута source , равным заданному. Свойством, идентифицирующим эти элементы, в данном случае будут значения их атрибутов source , которые мы можем заранее вычислить и включить в табл. 8.2. Таблица 8.2. Значения атрибута source элементов item Идентификатор (значение атрибута source ) Элемент item a a a b b b с с Таким образом, значение "с" идентифицирует объекты с именами D и G , а значение "а" — объекты с именами A , C и H , причем находить соответствующие элементы в таблице по их ключевому свойству не составляет никакого труда. Несмотря на то, что произведенные нами манипуляции чрезвычайно просты (и настолько же эффективны), процессор вряд ли в общем случае сможет сделать что-либо подобное сам, и потому очень важной является возможность явным образом выделять в XSLT-преобразованиях ключевые свойства множеств узлов. В этом разделе мы будем рассматривать две конструкции, позволяющие манипулировать множествами узлов посредством ключей — это элемент xsl:key , который определяет в преобразовании именованный ключ, и функция key , которая возвращает множество узлов, идентифицирующихся заданными значениями ключей. Элемент xsl:key Синтаксис элемента несложен: name="имя" match="паттерн" use="выражение"/> Элемент верхнего уровня xsl:key определяет в преобразовании ключ именем, заданным в значении атрибута name , значением которого для каждого узла документа, соответствующего паттерну match , будет результат вычисления выражения, заданного в атрибуте use . Ни атрибут use , ни атрибут match не могут содержать переменных. Пример В нашем примере элементы item идентифицируются значениями своих атрибутов source . Для их идентификации мы можем определить ключ с именем src следующим образом: Следуя строгому определению, данному в спецификации языка, ключом называется тройка вида (node, name, value) , где node — узел, name — имя и value — строковое значение ключа. Тогда элементы xsl:key , включенные в преобразование, определяют множество всевозможных ключей обрабатываемого документа. Если этому множеству принадлежит ключ, состоящий из узла x , имени у и значения z , говорят, что узел x имеет ключ с именем у и значением z или что ключ у узла x равен z . Пример Ключ src из предыдущего примера определяет множество, которое состоит из следующих троек: (<item name="A".../>, 'src', 'a') (<item name="B".../>, 'src', 'b') (<item name="C".../>, 'src', 'a') (<item name="D".../>, 'src', 'c') ... (<item name="H".../>, 'src', 'a') В соответствии с нашими определениями мы можем сказать, что элемент имеет ключ с именем "src" и значением "b" или что ключ "src" элемента равен "a" . Для того чтобы обращаться к множествам узлов по значениям их ключей, в XSLT существует функция key , о которой мы сейчас и поговорим. Функция key Ниже приведена синтаксическая конструкция данной функции: node-set key(string, object) Итак, элементы xsl:key нашего преобразования определили множество троек (node, name, value) . Функция key(key-name, key-value) выбирает все узлы x такие, что значение их ключа с именем key-name (первым аргументом функции) равно key-value (второму аргументу функции). Пример Значением выражения key('src', 'a') будет множество элементов item таких, что значение их ключа "src" будет равно "а" . Попросту говоря, это будет множество объектов источника "а" . Концепция ключей довольно проста, и существует великое множество аналогий в других языках программирования: от хэш-функций до ключей в реляционных таблицах баз данных. По всей вероятности, читателю уже встречалось что-либо подобное. Но не следует забывать, что язык XSLT — довольно нетрадиционный язык и с точки зрения синтаксиса, и с точки зрения модели данных. Как следствие, ключи в нем имеют довольно много скрытых нюансов, которые очень полезно знать и понимать. Мы попытаемся как можно более полно раскрыть все эти особенности. Определение множества ключей Не представляет особой сложности определение множества ключей в случае, если в определении они идентифицируются строковыми выражениями. Например, в следующем определении атрибут use показывает, что значением ключа src элемента item будет значение атрибута source . Но что можно сказать о следующем определении: Очевидно, это уже гораздо более сложный, но, тем не менее, вполне реальный случай, не вписывающийся в определения, которые давались до сих пор. Мы говорили лишь о том, что множество ключей определяется элементами xsl:key преобразования, но как именно оно определяется — оставалось доселе загадкой. Восполним этот пробел, дав строгое определение множеству ключей. Узел x обладает ключом с именем у и строковым значением z тогда и только тогда, когда в преобразовании существует элемент xsl:key такой, что одновременно выполняются все нижеперечисленные условия: □ узел x соответствует паттерну, указанному в его атрибуте match ; □ значение его атрибута name равно имени y ; □ результат u вычисления выражения, указанного в значении атрибута use в контексте текущего множества, состоящего из единственного узла x , удовлетворяет одному из следующих условий: • u является множеством узлов и z равно одному из их строковых значений; • u не является множеством узлов и z равно его строковому значению. Без сомнения, определение не из простых. Но как бы мы действовали, если бы физически создавали в памяти множество ключей? Ниже представлен один из возможных алгоритмов: □ для каждого элемента xsl:key найти множество узлов документа, удовлетворяющих его паттерну match (множество X ); □ для каждого из найденных узлов ( x ∈ X ) вычислить значение выражения атрибута use (значение u(x) ); □ если u(x) является множеством узлов (назовем его U_х ), то для каждого u_xi ∈ U_х создать ключ (x, n, string(u_xi)) , где n — имя ключа (значение атрибута name элемента xsl:key ); □ если u(x) является объектом другого типа (назовем его u_x ), создать ключ (x, n, string(u_x)) . Пример Найдем множество ключей, создаваемое определением Имена всех ключей будут одинаковы и равны "src" . Множество x узлов, удовлетворяющих паттерну item , будет содержать все элементы item обрабатываемого документа. Значением выражения, заданного в атрибуте use, будет множество всех узлов атрибутов каждого из элементов item . Таким образом, множество узлов будет иметь следующий вид: (<item name="А".../>, 'src', 'a') (<item name="А".../>, 'src', 'A') (<item name="В".../>, 'src', 'b') (<item name="В".../>, 'src', 'В') (<item name="С".../>, 'src', 'а') (<item name="С".../>, 'src', 'С') (<item name="D".../>, 'src', 'с') (<item name="D".../>, 'src', 'D') ... (<item name="H".../>, 'src', 'a') (<item name="H".../>, 'src', 'H') В итоге функция key('src', 'a') будет возвращать объекты с именами A , C и H , а функция key('src', 'A') — единственный объект с именем A (поскольку ни у какого другого элемента item нет атрибута со значением "A" ). Необходимо сделать следующее замечание: совершенно необязательно, чтобы процессор действительно физически создавал в памяти множества ключей. Это множество определяется чисто логически — чтобы было ясно, что же все-таки будет возвращать функция key . Процессоры могут вычислять значения ключей и искать узлы в документе и во время выполнения, не генерируя ничего заранее. Но большинство процессоров, как правило, все же создают в памяти определенные структуры для манипуляций с ключами. Это могут быть хэш-таблицы, списки, простые массивы или более сложные нелинейные структуры, упрощающие поиск, — важно другое. Важно то, что имея явное определение ключа в xsl:key , процессор может производить такую оптимизацию. Использование нескольких ключей в одном преобразовании В случае, когда к узлам в преобразовании нужно обращаться по значениям различных свойств, можно определить несколько ключей — каждый со своим именем. Например, если мы хотим в одном случае обращаться к объектам, принадлежащим одному источнику, а во втором — к объектам с определенными именами, мы можем определить в документе два ключа — один с именем src , второй — с именем name : Множество ключей, созданных этими двумя определениями, будет выглядеть следующим образом: (<item name="А".../>, 'src', 'а') (<item name="А".../>, 'name', 'А') (<item name="В".../>, 'src', 'b') (<item name="В".../>, 'name', 'В') (<item name="C".../>, 'src', 'a') (<item name="C".../>, 'name', 'С') (<item name="D".../>, 'src', 'с') (<item name="D".../>, 'name', 'D') ... (<item name="H".../>, 'src', 'a') (<item name="H".../>, 'name', 'H') В этом случае функция key('src', 'а') возвратит объекты с именами A , C и H , а функция key('name', 'а') — объект с именем А . Имя ключа является расширенным именем. Оно может иметь объявленный префикс пространства имен, например name="data:src" match="item" use="@source" xmlns:data="urn:user-data"/> В этом случае функция key(key-name, key-value) будет возвращать узлы, значение ключа с расширенным именем key-name которых равно key-value . Совпадение расширенных имен определяется как обычно — по совпадению локальных частей и URI пространств имен. Использование нескольких определений одного ключа Процессор должен учитывать все определения ключей данного преобразования — даже если некоторые из них находятся во включенных или импортированных модулях. Порядок импорта элементов xsl:key не имеет значения: дело в том, что определения ключей с одинаковыми именами для одних и тех же узлов, но с разными значениями ключа не переопределяют, а дополняют друг друга. Пример Предположим, что в нашем документе имеется несколько элементов item , в которых не указано значение атрибута source , но по умолчанию мы будем причислять их к источнику а . Соответствующие ключи будут определяться следующим образом: To есть для тех элементов item , у которых есть атрибут source , значением ключа будет значение этого атрибута, для тех же элементов, у которых атрибута source нет, его значением будет "а" . Для входящего документа вида ... соответствующее множество ключей будет определяться следующим образом: (<item name="А".../>, 'src', 'а') (<item name="В".../>, 'src', 'b') (<item name="С".../>, 'src', 'а') (<item name="D".../>, 'src', 'c') ... (<item name="H".../>, 'src', 'a') (<item name="I".../>, 'src', 'a') (<item name="J".../>, 'src', 'a') (<item name="K".../>, 'src', 'a') Функция key('src', 'a') возвратит объекты с именами A , C , H , I , J и K . То, что одни и те же узлы могут иметь разные значения одного ключа, является также очень удобным свойством. Например, два определения ключей, приведенные выше, можно дополнить третьим: Это определение позволит по значению "#default" обращаться к объектам, принадлежащим источнику по умолчанию. Использование множеств узлов в функции key Функция key принимает на вход два аргумента: первым аргументом является строка, задающая имя ключа, в то время как вторым аргументом может быть объект любого типа. В том случае, если аргумент key-value в функции key(key-name, key-value) является множеством узлов, функция key возвратит все узлы, имеющие ключ key-name со значением, равным хотя бы одному из строковых значений узла множества key-value . Пример Предположим, что источники объектов будут сгруппированы следующим образом: Для того чтобы вычислить множество элементов item , принадлежащих любому из источников данной группы, достаточно будет воспользоваться выражением вида key('src', sources/source/@name) Множество узлов, выбираемое путем sources/source/@name , будет содержать атрибуты name элементов source . Их строковые значения будут равны а и с , значит, наше выражение возвратит множество элементов item , значение атрибута source которых равно либо а либо с . Использование ключей в нескольких документах Ключи, определенные в преобразовании, могут использоваться для выбора узлов в различных обрабатываемых документах. Функция key возвращает узлы, которые принадлежат текущему документу, то есть документу, содержащему текущий узел. Значит, для того, чтобы выбирать узлы из внешнего документа, необходимо сделать текущим узлом один из узлов этого внешнего документа. Контекстный документ может быть легко изменен элементом xsl:for-each , например, для того, чтобы текущим документом стал документ a.xml , достаточно написать Пример Предположим, что нам нужно выбрать объекты, принадлежащие источнику a , причем принадлежность объектов определена в двух внешних документах, a.xml и b.xml . Листинг 8.22. Входящий документ Листинг 8.23. Документ a.xml Листинг 8.24. Документ b.xml Листинг 8.25. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Листинг 8.26. Выходящий документ Составные ключи В теории реляционных баз данных существует такое понятие, как составной ключ. Согласно определению К. Дж. Дейта [Дейт 1999], составной ключ — это "потенциальный ключ; состоящий из более чем одного атрибута". Хотя концепция ключей в XSLT сильно отличается от того, что называется ключом в реляционных БД, идея весьма и весьма интересна: использовать при обращении к множествам узлов не одно свойство, а некоторую их комбинацию. Главная проблема состоит в том, что значение ключа в XSLT всегда является строкой, одним из самых примитивных типов. И выбирать множества узлов можно только по одному строковому значению за один раз. Ничего похожего на key(key-name, key-value-1, key-value-2, ...) для выбора узлов, первое свойство которых равно key-value-1 , второе — key-value-2 и так далее, XSLT не предоставляет. Выход достаточно очевиден: если значение ключа не может быть сложной структурой, оно должно выражать сложную структуру. Иными словами, раз значением составного ключа может быть только строка, то эта строка должна состоять из нескольких частей. Пример Предположим, что объекты с одинаковыми именами могут принадлежать различным источникам. Покажем, как с помощью ключей можно решить следующие задачи: □ найти объект с определенным именем и источником; □ найти объекты с определенным именем; □ найти объекты с определенным источником. Листинг 8.27. Входящий документ Для элементов item мы будем генерировать ключи, значения которых будут состоять из двух частей — источника и имени, разделенных символом "- ". Для того чтобы решить одним ключом все три поставленные задачи, мы будем использовать для его определения три элемента xsl:key . Листинг 8.28. Входящий документ version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Листинг 8.29. Выходящий документ У приведенного здесь способа формирования ключа есть определенные ограничения: необходимо иметь априорную информацию о строковых значениях каждого из свойств, составляющих наш композитный ключ для того, чтобы корректно формировать его строковые представления. Например, если бы в приведенном выше документе имена объектов и источников могли бы содержать символ " - ", было бы непонятно, к какому объекту относится составной ключ "a-b-c ": к объекту с источником a-b и именем с или к объекту с источником а и именем b-c . К счастью, в большинстве случаев такая информация имеется, и генерировать составные ключи не очень сложно. Функция key в паттернах Разбирая синтаксические правила построения паттернов, мы встретились с особой формой паттерна, в котором могла использоваться функция key . Приведем еще раз эту продукцию: [PT3] IdKeyPattern ::= 'id' '(' Literal ')' | 'key' '(' Literal ',' Literal ')' Функция key(key-name, key-value) в паттерне будет соответствовать узлам, значение ключа key-name которых равняется или принадлежит объекту key-value . Это позволяет использовать возможности ключей при проверке узлов на соответствие образцу. Пример Предположим, что нам нужно по-особому обработать объекты, принадлежащие источнику а . Для этого мы можем создать шаблон следующего вида. Листинг 8.30. Шаблон, использующий функцию key в паттерне Этот шаблон будет применяться к любым узлам, имеющим ключ src со значением а . Нумерация Нумерация, несомненно, является одной из самых естественных проблем, решаемых при помощи XSLT. Задача нумерации состоит в том, чтобы, исходя из позиции обрабатываемого узла в дереве документа, вычислить по заданным критериям его порядковый номер. В качестве примера такого рода задачи можно привести вывод номеров частей, разделов и глав книги, указание номеров элементов списка или строк таблицы. Для вычисления порядковых номеров узлов в дереве в XSLT существует несколько способов. В простых случаях для достижения цели бывает достаточно воспользоваться одним из следующих XPath-выражений. □ Для того чтобы получить порядковый номер текущего узла в обрабатываемом множестве, можно использовать функцию position . Обратим внимание, что это будет позиция узла в обрабатываемом в данный момент множестве, а не в дереве исходящего документа. □ Функция count(preceding-sibling::*)+1 возвращает порядковый номер текущего элемента среди других элементов его родителя, иначе говоря, среди его братьев. Путь выборки preceding-sibling::* выбирает множество братских элементов, предшествующих текущему узлу, а функция count вычисляет их количество. Таким образом, значение count(preceding-sibling::*)+1 будет равно 1 для первого элемента (поскольку ему другие элементы не предшествуют), 2 — для второго (ему предшествует один элемент) и так далее. □ Для того чтобы учитывать при подсчете только определенные элементы, можно переписать предыдущее выражение в чуть более строгом виде. Например, выражение, считающее только элементы chapter , будет задаваться следующим образом: (preceding-sibling::chapter) +1 . □ Глубина текущего узла от корня дерева может быть вычислена выражением count(ancestor-or-self::node()). Это выражение будет возвращать 1 для корневого узла, 2 для элемента документа и так далее. Вычислять выражения и выводить вычисленные значения в результирующее дерево следует, как и обычно — при помощи элемента xsl:value-of . Пример В более сложных ситуациях бывает необходимо подсчитывать узлы, находящиеся на разных уровнях вложенности или удовлетворяющие определенным условиям, начинать отсчет с заданной позиции в документе и использовать при вычислении номера сложные выражения. Использование XPath в таких случаях может быть очень неудобным — выражения будут слишком громоздкими и вычислять их придется в несколько этапов. Другим, несравненно более легким и удобным способом нумерации и индексирования узлов является использование элемента xsl:number . Элемент xsl:number Синтаксис элемента описывается следующей конструкцией: level="single" | "multiple" | "any" count="паттерн" from="паттерн" value="выражение" format="{строка}" lang="{токен}" letter-value={ "alphabetic" | "traditional" } grouping-separator="{символ}" grouping-size="{число}"/> Элемент xsl:number вычисляет номер узла в соответствии с заданными критериями, форматирует его и затем вставляет в результирующее дерево в виде текстового узла. То, что все это выполняется в одном элементе преобразования, имеет существенные преимущества по сравнению с использованием XPath-выражений: программа становится более простой и понятной, причем далеко не в ущерб функциональности. К сожалению, в этом случае, как и во многих других, универсальность использования повлекла за собой семантическую сложность. Несмотря на то, что xsl:number имеет всего девять атрибутов (причем ни один из них не является обязательным), мы посвятим их описанию значительное количество страниц. Пока же, чтобы сориентировать читателя, мы кратко перечислим назначения атрибутов xsl:number . □ Атрибут level указывает, на каких уровнях дерева следует искать нумеруемые узлы. □ Атрибут count указывает, какие именно узлы следует считать при вычислении номера. □ Атрибут from указывает, в какой части документа будет производиться нумерация. □ Атрибут value задает выражения, которые следует использовать для вычисления значения номера. □ Атрибут format определяет, как номер будет форматироваться в строку. □ Атрибут lang задает языковой контекст нумерации. □ Атрибут letter-value определяет параметры буквенных методов нумерации. □ Атрибут grouping-separator задает символ, разделяющий группы цифр в номере. □ Атрибут grouping-size определяет количество цифр в одной группе. Выполнение элемента xsl:number можно условно разделить на два этапа — вычисление номера и его строковое форматирование. На этапе вычисления активными являются элементы level , count , from и value . Форматирование производится с учетом значений атрибутов format , lang , letter-value , grouping-separator и grouping-size . Результатом первого этапа является список номеров, который форматируется в текстовый узел на втором этапе. Вычисление номеров Пожалуй, самым простым для понимания (но не самым простым в использовании) способом вычисления номера является использование XPath-выражений. Этот способ практически идентичен использованию xsl:value-of , как было показано в начале этой главы. Единственным отличием xsl:number является то, что после вычисления номера он сначала форматируется, а потом уже вставляется в результирующее дерево в виде текстового узла. Результатом первого этапа форматирования при определенном атрибуте value является список, состоящий из числа, полученного в результате вычисления выражения, указанного в значении этого атрибута. Пример В этом и нескольких следующих примерах мы будем вычислять номера в одном и том же документе, который представлен в листинге 8.31. Листинг 8.31. Входящий документ для примеров преобразований с использованием xsl:number paragraph 1 paragraph 2 paragraph 3 paragraph 4 paragraph 5 paragraph 6 paragraph 7 paragraph 8 paragraph 9 paragraph 10 paragraph 11 paragraph 12

Идентификатор (значение атрибута `source` )	Элемент `item`
`a`
`a`
`a`
`b`
`b`
`b`
`с`
`с`

paragraph 13 paragraph 14 paragraph 15 paragraph 16 paragraph 17 paragraph 18 В качестве первого примера приведем два шаблона, обрабатывающих элементы chapter : один с использованием xsl:value-of , а второй с использованием xsl:number . Листинг 8.32. Вариант нумерующего шаблона с использованием xsl:value-of . Листинг 8.33. Вариант нумерующего шаблона с использованием xsl:number Результат обоих шаблонов имеет следующий вид: 1. First chapter 2. Second chapter 3. Third chapter Использование xsl:number даже в этом простом случае сэкономило одну строчку в коде. Однако, если бы вместо нумерации арабскими цифрами (1 , 2 , 3 и т.д.) нужно было применить нумерацию римскими цифрами (I , II , III и т.д.), в преобразовании с xsl:number мы бы изменили всего один символ (вместо format="1. " указали бы format="I. " ), в то время как в преобразовании с xsl:value-of пришлось бы писать сложную процедуру преобразования числа в римскую запись. В том случае, если атрибут value опущен, номера элементов вычисляются исходя из значений атрибутов level , count и from . Атрибут level имеет три варианта значений: single , multiple и any , значением по умолчанию является single . Процедура вычисления номеров существенным образом зависит от того, какой из этих вариантов используется — при методе single считаются элементы на одном уровне, при методе multiple — на нескольких уровнях и при методе any — на любых уровнях дерева. Алгоритм вычисления списка номеров в каждом из случаев не слишком сложен, но понять его только по формальному описанию довольно непросто. Поэтому каждый из методов будет дополнительно проиллюстрирован примерами вычисления. Атрибут count содержит паттерн, которому должны удовлетворять нумеруемые узлы. Узлы, не соответствующие этому образцу, просто не будут приниматься в расчет. Значением этого атрибута по умолчанию является паттерн, выбирающий узлы с тем же типом и именем, что и у текущего узла (если, конечно, у него есть имя). Атрибут from содержит паттерн, который определяет так называемую область нумерации, или область подсчета. При вычислении номера будут приниматься во внимание только те нумеруемые узлы, которые принадлежат этой области. По умолчанию областью подсчета является весь документ. Метод single Метод single используется для того, чтобы вычислить номер узла, основываясь на его позиции среди узлов того же уровня. Нумерацию, в которой используется метод single , также называют одноуровневой нумерацией. Областью нумерации этого метода будет множество всех потомков ближайшего предка текущего узла, удовлетворяющего паттерну, указанному в атрибуте from . Вычисление номера производится в два шага. □ На первом шаге находится узел уровня дерева. Узлом уровня будет узел, удовлетворяющий следующим условиям: • он является первым (то есть ближайшим к текущему) узлом, принадлежащим оси ancestor-or-self текущего узла; • он удовлетворяет паттерну count ; • он принадлежит области подсчета; • если такого узла нет, список номеров будет пустым. □ На втором шаге вычисляется номер узла уровня. Этот номер будет равен 1 плюс количество узлов, принадлежащих оси навигации preceding-sibling и удовлетворяющих паттерну count . Надо сказать, от атрибута from в методе single мало пользы. Единственный эффект, который можно от него получить, — это пустой список номеров в случае, если первый узел, принадлежащий оси ancestor-or-self и удовлетворяющий паттерну count , не будет иметь предка, соответствующего паттерну атрибута from . Пример Разберем функционирование одноуровневой нумерации в следующем шаблоне: Мы продемонстрируем вычисление номера одного из элементов para на схематическом изображении дерева обрабатываемого документа (рис. 8.1). Узел обрабатываемого элемента мы выделим полужирной линией, узел элемента doc пометим буквой d , узлы элементов chapter — буквой с , элементов section и para — буквами s и p соответственно. Рис. 8.1. Дерево обрабатываемого документа В качестве первого примера приведем вычисление номера элементом На первом шаге нам нужно найти узел уровня дерева. Этим узлом будет первый элемент section , являющийся предком текущего узла. На рис. 8.2 он обведен пунктиром. Рис. 8.2. Первый шаг вычисления номера Номер этого элемента будет равен 1 плюс количество предшествующих ему братских элементов section . Это множество выделено пунктиром на рис. 8.3. Рис. 8.3. Второй шаг вычисления номера Выделенное множество содержит два узла. Таким образом, искомый номер будет равен 3 . Проведем такой же разбор для определения В этом случае паттерну, указанному в элементе count удовлетворяет сам текущий узел, значит, он и будет являться узлом уровня, как это показано на рис. 8.4. Рис. 8.4. Первый шаг вычисления номера Выделим множество элементов para , являющихся братьями узла уровня и предшествующих ему (рис. 8.5). Рис. 8.5. Второй шаг вычисления номера Выделенное множество содержит всего один узел, значит, искомый номер будет равен 2 . Таким образом, результатом обработки выделенного элемента para будет следующая строка: 3.2.paragraph 14 Метод multiple Метод multiple похож на метод single , но при этом он немного сложнее, поскольку вычисляет номера узлов сразу на нескольких уровнях дерева. Нумерацию с применением метода multiple называют также многоуровневой нумерацией. Область нумерации метода multiple определяется так же, как и в случае с методом single : учитываются только потомки ближайшего предка текущего узла, удовлетворяющего паттерну, указанному в атрибуте from . Вычисление списка номеров узлов выполняется в два этапа: □ На первом этапе выбирается множество нумеруемых узлов, удовлетворяющее следующим условиям: • его узлы принадлежат оси навигации ancestor-or-self текущего узла; • его узлы соответствуют паттерну count ; • его узлы принадлежат области подсчета. □ На втором этапе для каждого узла нумеруемого множества вычисляется позиция среди собратьев. Позиция нумеруемого узла будет равна 1 плюс количество узлов, принадлежащих его оси навигации preceding-sibling и соответствующих паттерну count . Пример Для демонстрации вычисления номеров на нескольких уровнях дерева документа проследим за выполнением инструкции format=" 1.1." level="multiple" count="doc|chapter|para" from="doc"/> при обработке того же элемента para . Прежде всего, надо определить область подсчета. Значением атрибута from является паттерн doc , значит, подсчет будет вестись среди всех потомков ближайшего к текущему элементу para предка, который является элементом doc . Это множество выделено на рис. 8.6 штрих-пунктирной линией. Рис. 8.6. Определение области подсчета Следующим шагом выберем узлы, принадлежащие оси навигации ancestor-or-self текущего узла para и удовлетворяющие паттерну doc|chapter|para . Это множество будет включать сам текущий элемент, а также его предки chapter и doc . На рис. 8.7 они обведены пунктиром. Рис. 8.7. Первый шаг вычисления номера Следующим шагом оставим только те из выбранных узлов, которые входят в область подсчета. Эти узлы обведены на рис. 8.8 пунктиром. Рис. 8.8. Второй шаг вычисления номера Мы получили множество узлов, состоящее всего из двух элементов — chapter и para вследствие того, что элемент doc был исключен как не входящий в область подсчета. Выделим множества пересчитываемых узлов, предшествующих нумеруемым элементам (рис. 8.9). Рис. 8.9. Третий шаг вычисления номера В этом примере элемент chapter , так же как и элемент para , будет иметь номер 2 . Соответственно, результатом выполнения инструкции xsl:number в этом случае будет строка 2.2.paragraph 14 Метод any Метод any используется для того, чтобы вычислить номер узла, основываясь на его позиции среди всех учитываемых узлов элемента. Областью нумерации этого метода будет множество всех узлов, следующих в порядке просмотра документа за первым предком текущего узла, который удовлетворяет паттерну, указанному в атрибуте from . Номер вычисляется как 1 плюс количество узлов области подсчета, удовлетворяющих паттерну count и предшествующих в порядке просмотра документа текущему узлу. Пример В качестве примера применения метода any вычислим порядковый номер элемента para среди всех элементов документа, начиная со второй главы. Инструкцию такого рода мы запишем в виде format=" 1." level="any" count="*" from="chapter[2]"/> При ее выполнении мы сначала определим область, в которой будут подсчитываться узлы (обведены штрих-пунктирной линией на рис. 8.10). Рис. 8.10. Определение области подсчета узлов Следующим шагом выделим подмножество области подсчета, предшествующее в порядке просмотра текущему узлу para (рис. 8.11). Рис. 8.11. Первый шаг вычисления номера Выделенное множество содержит 11 узлов, значит, искомый номер будет равен 12 . Перед тем, как перейти к рассмотрению способов форматирования номеров, приведем итоговый пример (листинг 8.34), в котором в шаблонах будут использоваться все три метода нумерации. Листинг 8.34. Шаблон, использующий разные методы нумерации version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"» Resulting document ================== level="multiple" count="chapter|section"/> format=" a) " level="any" count="para"/> Опишем словесно нумерацию, которая будет применяться в этом преобразовании. □ Элементы chapter будут нумероваться в соответствии со своей позицией среди других элементов chapter того же уровня. □ Элементы section будут нумероваться при помощи многоуровневой нумерации — номер будет состоять из номера элемента chapter и номера самого элемента section . □ Элементы para будут нумероваться исходя из своей позиции среди всех остальных элементов para вне зависимости от того, на каких уровнях в документе они находятся. Результатом применения этого преобразования к документу, приведенному в листинге 8.31, будет следующий текст. Листинг 8.35. Выходящий документ Resulting document ================== 1. First chapter 1.1 First section a) paragraph 1 b) paragraph 2 c) paragraph 3 1.2. Second section d) paragraph 4 e) paragraph 5 2. Second chapter 2.1 Third section f) paragraph 6 g) paragraph 7 h) paragraph 8 i) paragraph 9 2.2 Forth section j) paragraph 10 k) paragraph 11 l) paragraph 12 2.3 Fifth section m) paragraph 13 n) paragraph 14 o) paragraph 15 p) paragraph 16 3. Third chapter 3.1 Sixth section q) paragraph 17 r) paragraph 18 Форматирование номеров Возвращаясь немного назад, напомним, что результатом первого этапа выполнения xsl:number является список номеров, который может быть пустым или содержать одно или несколько чисел. Несложно увидеть, что количество номеров в этом списке будет зависеть от следующих условий. □ Список номеров будет пустым, если в области нумерации не оказалось нумеруемых узлов. □ Список номеров будет состоять не более чем из одного числа при использовании методов single и any . □ Список номеров будет состоять из нуля или более чисел (по одному на каждый уровень нумерации) при использовании метода multiple . На этапе форматирования список номеров преобразуется в строку и вставляется результирующее дерево в виде текстового узла. Преобразование номеров из списка в строку имеет совершенно иной характер, нежели чем приведение числа к строковому типу. При форматировании номера нужно получить не просто строковое представление числа, здесь требуется сгенерировать значащий текстовый индекс, который совершенно необязательно должен иметь цифровую запись. Форматирование списка номеров производится в соответствии со значениями атрибутов format , lang , letter-value , grouping-separator и grouping-size , назначение и использование которых мы и будем разбирать в этом разделе. Основным атрибутом форматирования является атрибут format , который содержит последовательность форматирующих токенов. Каждый форматирующий токен состоит из букв и цифр; он определяет процедуру форматирования для каждого числа из списка форматируемых номеров. В значении атрибута format форматирующие токены отделяются друг от друга сочетаниями символов, которые не являются буквами и цифрами. Такие сочетания называются разделяющими последовательностями. При форматировании они остаются в строковом выражении номера без изменений. Пример В примере к методу multiple мы использовали следующий элемент xsl:number : format=" 1.1." level="multiple" count="doc|chapter|para" from="doc"/> Разберем строение атрибута format этого элемента (на рис. 8.12 пробелы обозначены символами "□ "): Рис. 8.12. Строение атрибута format элемента xsl:number Список номеров в том примере состоял из номера элемента chapter (числа 2) и номера элемента para (тоже 2). Номер, генерируемый элементом xsl:number , будет состоять из: □ разделяющей последовательности " □□□□□ ", которая будет скопирована, как есть; □ числа 2 , которое получается в результате форматирования номера 2 форматирующим токеном "1 "; □ разделяющего символа " . "; □ числа 2 , которое получается в результате форматирования номера 2 вторым форматирующим токеном "1 "; □ разделяющего символа " . ". Объединив все эти части, мы получим отформатированный номер " □□□□□2.2 ". Несложно заметить, что главную роль при преобразовании списка номеров в их строковое представление играют форматирующие токены. Каждый такой токен преобразовывает соответствующий ему номер в строку. В табл. 8.3 мы приведем описания этих преобразований. Таблица 8.3. Форматирующие токены Токен Описание Примеры Токен Преобразование 1 Форматирует номер в виде строкового представления десятичного числа 1 1 → '1' 1 2 → '2' 1 10 → '10' 1 999 → '999' 1 1000 → '1000' 0...01 Форматирует номер в виде строкового представления десятичного числа; если получившая строка короче токена, она дополняется предшествующими нулями 0001 1 → '0001' 001 2 → '002' 001 10 → '010' 01 999 → '999' 00001 1000 → '01000' A Форматирует номер в виде последовательности заглавных букв латинского алфавита A 1 → 'A' A 2 → 'B' A 10 → 'J' A 27 → 'AA' A 999 → 'ALK' A 1000 → 'ALL' a Форматирует номер в виде последовательности строчных букв латинского алфавита a 1 → 'a' a 2 → 'b' a 10 → 'j' a 27 → 'aa' a 999 → 'alk' a 1000 → 'all' I Форматирует номер заглавными римскими цифрами I 1 → 'I' I 2 → 'II' I 10 → 'X' I 27 → 'XXVII' I 999 → 'IM' I 1000 → 'M' i Форматирует номер строчными римскими цифрами i 1 → 'i' i 2 → 'ii' i 10 → 'x' i 27 → 'xxvii' i 999 → 'im' i 1000 → 'm' Другой Форматирует номер k как k -й член последовательности, начинающейся этим токеном. Если нумерация таким токеном не поддерживается, вместо него используется токен 1 . Не поддерживающийся токен 1 → '1' b 10 → 'k' Б 2 → 'В' Б 27 → 'Ы' á 999 → 'ανψ' å 1000 → 'βζο' При использовании алфавитной нумерации процессор может учитывать значение атрибута lang элемента xsl:number для того, чтобы использовать буквы алфавита соответствующего языка. Однако на практике возможность эта поддерживается очень слабо: большинство процессоров поддерживают алфавитную нумерацию только с использованием латиницы. Поэтому для того, чтобы использовать при алфавитной нумерации кириллицу, вместо атрибута lang следует использовать форматирующие токены "А " (русская заглавная буква "А ") и "&#х430; " (русская строчная буква "а "). Пример Для форматирования номеров в последовательности 1.1.a , 1.1.б , 1.1.в , …, 1.2.а и так далее можно использовать объявление вида: format="1.&#х430;" level="multiple" count="chapter|section" from="doc"/> Представим теперь себе следующую ситуацию: нам нужно начать нумерацию с латинской буквы i для того, чтобы получить последовательность номеров вида i , j , k , l , m и так далее. Первое, что приходит в голову — это запись вида Однако вместо требуемой последовательности мы получим последовательность строчных римских цифр: i , ii , iii и так далее. Иными словами, некоторые форматирующие токены определяют нумерующую последовательность двусмысленно: одним вариантом является алфавитная последовательность, начинающаяся этим токеном, другим — некая традиционная для данного языка (например, последовательность римских цифр для английского).Для того чтобы различать эти последовательности в двусмысленных ситуациях, в xsl:number существует атрибут letter-value . Если его значением является "alphabetic" , нумерующая последовательность является алфавитной, значение "traditional" указывает на то, что следует использовать традиционный для данного языка способ. Если атрибут letter-value опущен, процессор может сам выбирать между алфавитным и традиционным способами нумерации. При использовании цифровых форматов нумерации (иными словами, токенов вида 1 , 01 , 001 и так далее) цифры в номере можно разделить на группы, получив, например, такие номера как "2.00.00 " из 20000 или "0-0-0-2 " из 2. Для этой цели в xsl:number используется пара атрибутов grouping-separator и grouping-size . Атрибут grouping-separator задает символ, который следует использовать для разбивки номера на группы цифр, в то время как grouping-size указывает размер группы. Эти атрибуты всегда должны быть вместе — если хотя бы один из них опущен, второй просто игнорируется. Пример Элемент xsl:number вида format="[00000001]" grouping-separator="." grouping-size="2"/> будет генерировать номера в следующей последовательности: 1 → '[00.00.00.01]' 2 → '[00.00.00.02]' ... 999 → '[00.00.09.99]' 1000 → '[00.00.10.00]' Пожалуй, следует упомянуть, что в значениях атрибутов format , lang , letter-value , grouping-size и grouping-separator могут быть указаны шаблоны значений, иными словами могут использоваться выражения в фигурных скобках. Это может быть полезно, например, для того, чтобы сгенерировать форматирующие токены во время выполнения преобразования. Пример В следующем шаблоне формат номера секции зависит от значения атрибута format ее родительского узла: format="{../@format}-1 " level="multiple" count="chapter|section"/> При обработке входящего документа нумерация секций будет выглядеть как I-1 First Section I-2 Second Section I-3 Third Section Если же атрибут format элемента chapter будет иметь значение 1 , секции будут пронумерованы в виде 1-1 First Section 1-2 Second Section 1-3 Third Section Форматирование чисел Мы уже познакомились с функцией языка XPath string , которая конвертирует свой аргумент в строку. Эта функция может преобразовать в строку и численное значение, но возможности ее при этом сильно ограничены. К счастью, XSLT предоставляет мощные возможности для форматирования строкового представления чисел при помощи функции format-number и элемента xsl:decimal-format . Функция format-number Запись функции имеет следующий вид: string format-number(number, string, string?) Функция format-number принимает на вход три параметра. Первым параметром является число, которое необходимо преобразовать в строку, применив при этом форматирование. Вторым параметром является образец, в соответствии с которым будет форматироваться число. Третий параметр указывает название десятичного формата, который следует применять. Образец форматирования в XSLT определяется точно так же, как в классе DecimalFormat языка Java. Для того чтобы читателю, не знакомому с Java, не пришлось изучать документацию этого языка, мы приведем полный синтаксис образцов форматирования. Продукции образца форматирования мы будем помечать номерами с префиксом NF , чтобы не путать их с другими продукциями. Прежде всего, образец форматирования может состоять из двух частей: первая часть определяет форматирование положительного числа, вторая часть — отрицательного. Запишем это в виде EBNF-продукции: [NF 1] NFPattern ::= NFSubpattern (NFSubpatternDelim NFSubpattern)? Двум частям образца форматирования соответствуют нетерминалы NFSubpattern , которые разделены нетерминалом NFSubpatternDelim . В случае если вторая часть образца форматирования опушена, отрицательные числа форматируются точно так же, как и положительные, но им предшествует префикс отрицательного числа (по умолчанию — знак "минус", " - "). Примеры format-number(1234.567,'#.00;negative #.00') → '1234.57' format-number(-1234.567,'#.00/negative #.00') → 'negative 1234.57' format-number(-1234.567,'#.00') → '-1234.57' Каждая из частей образца форматирования состоит из префикса ( NFPrefix ), целой части (NFInteger ), необязательной дробной части (NFFractional ) и суффикса (NFSuffix ). [NF 2] NFSubpattern ::= NFPrefix NFinteger NFFractional? NFSuffix Префикс или суффикс образца форматирования могут содержать символ процента. Если суффикс содержит символ процента, число должно быть умножено на 100 и выведено со знаком процента. Наличие символа процента в префиксе на форматирование не влияет. Пример format-number(0.45,'0.00%') → '45.00%' format-number(0.45,'0.##%') → '45.00%' format-number(0.45678,'%0.00') → '%0.46' format-number(0.45678,'0.####%') → '45.678%' Префикс задает строку, которая будет предшествовать числу, это может быть последовательность любых неформатирующих символов ( NFChar ) плюс символ процента (NFPercent ). Аналогично, суффикс будет следовать за числом, и он тоже не может содержать форматирующих символов (за исключением символа процента). [NF 3] NFPrefix ::= (NFChar NFPercent?)* [NF 4] NFSuffix ::= (NFChar NFPercent?)* Пример Если мы хотим заключить наше число, к примеру, в квадратные скобки, мы должны будем включить в его образец форматирования префикс " [ " и суффикс "] ": format-number(123456, '[#]') → '[123456]' Нетерминал NFinteger определяет, как будет выглядеть целая часть числа. Он начинается несколькими символами NFOptDigit (по умолчанию "# "), показывающими позиции, в которых цифры необязательны, и состоит из символов NFReqDigit (по умолчанию "0 "), показывающих позиции обязательных цифр, а также символа NFGroupDelim (по умолчанию ", "), показывающего позицию символа-разделителя групп цифр. [NF 5] NFInteger ::= NFOptDigit* (NFReqDigit* NFGroupDelim | NFGroupDelim NFOptDigit*)? NFReqDigit+ Примеры format-number(1234.56,'#0000') → '1235' format-number(1234.56,'00000') → '01235' format-number(1234.56,'00,000') → '01,235' format-number(1234.56,'000,00') → '0,12,35' Замечание Некоторые процессоры позволяют указывать несколько символов-разделителей. Однако даже в этом случае они учитывают только последний из этих символов. Пример format-number(123456789.0123,'0000,000,00') → '1,23,45,67,89' Дробная часть числа, представленная нетерминалом NFFraction , начинается символом-разделителем целой и дробной части NFFractionDelim (по умолчанию ". "), продолжается последовательностью символов обязательных позиций цифр NFReqDigit и заканчивается последовательностью символов необязательных позиций NFOptDigit : [NF 6] NFFraction ::= NFFractionDelim NFReqDigit* NFOptDigit* Примеры format-number(1234.567,'#.00') → '1234.57' format-number(1234.567,'#.00#') → '1234.567' format-number(1234.567,'#.0000') → '1234.5670' Продукция NFChar , использующаяся при определении префикса (NFPrefix ) и суффикса (NFSuffix ), может содержать любые неформатирующие символы: [NF 7] NFChar ::= (Char - NFSymbol) К специальным форматирующим символам относятся следующие: □ символ обязательной позиции цифры (по умолчанию " 0 "); □ символ необязательной позиции цифры (по умолчанию " # "); □ символ-разделитель образцов форматирования для положительного и отрицательного числа (по умолчанию " ; "); □ символ-разделитель целой и дробной части (по умолчанию " . "); □ символ процента (по умолчанию " % "). Перечислим их продукции: [NF 8] NFSymbol ::= NFReqDigit | NFOptDigit | NFSubpatternDelim | NFFractionDelim | NFGroupDelim | NFPercent [NF 9] NFReqDigit ::= '0' [NF 10] NFOptDigit ::= '#' [NF 11] NFSubpatternDelim ::= ';' [NF 12] NFFractionDelim ::= '.' [NF 13] NFGroupDelim ::= ',' [NF 14] NFPercent ::= '%' Синтаксические правила, которые мы привели выше, пока не являются стандартными. Они корректно передают синтаксис образца форматирования, но являются более строгими, чем определения в документации языка Java. Элемент xsl:decimal-format Синтаксис элемента задан конструкцией вида: name="имя" decimal-separator="символ" grouping-separator="символ" infinity="строка" minus-sign="символ" NaN="строка" percent="символ" per-mille="символ" zero-digit="символ" digit="символ" pattern-sераrator="символ"/> XSLT позволяет изменять специальные символы, влияющие на форматирование строки. Именованный набор таких символов и некоторых других указаний называется десятичным форматом и определяется элементом xsl:decimal-format . От атрибутов этого элемента зависит, как будут обрабатываться символы образца форматирования и как число будет отображаться на выходе: Атрибут name элемента xsl:decimal-format задает расширенное имя десятичного формата. Если имя не указано, это означает, что элемент xsl:decimal-format определяет десятичный формат по умолчанию. Остальные атрибуты контролируют интерпретацию форматирующего образца и вывод строкового представления числа следующим образом: □ decimal-separator — задает символ, разделяющий целую и дробную части числа. Значением этого атрибута по умолчанию является символ ". ", с Unicode-кодом #x2e . Атрибут decimal-separator рассматривается как специальный символ образца форматирования. Кроме того, он будет использован как разделяющий символ при выводе; □ grouping-separator — задает символ, группирующий цифры в целой части записи числа. Такие символы используются, например, для группировки тысяч ("1,234,567.89 "). Значением по умолчанию является символ ", ", код #x2c . grouping-separator рассматривается как специальный символ образца форматирования. Помимо этого, он будет использован как разделяющий символ групп цифр при выводе числа; □ percent — задает символ процента. Значением по умолчанию является символ "% ", код #x25 . Этот символ будет распознаваться в образце форматирования и использоваться при выводе; □ per-mille — задает символ промилле. Значением по умолчанию является символ "‰ ", код #х2030 . Символ промилле распознается в образце форматирования и используется в строковом представлении числа; □ zero-digit — задает символ нуля. Значением по умолчанию является символ "0 ", код #x30; . В качестве цифр при отображении числа будут использоваться символ нуля и 9 символов, следующих за ним. Символ нуля распознается в образце форматирования и используется при выводе строкового представления числа; □ digit — определяет символ, который используется в образце форматирования для определения позиции необязательного символа. Значением по умолчанию является символ "# ". Этот символ распознается как форматирующий символ необязательной цифры. Он не включается в строковое представление числа; □ pattern-separator — определяет символ, который используется в образце форматирования для разделения положительного и отрицательного форматов числа. Он не включается в строковое представление числа. Значением этого атрибута по умолчанию является символ "; "; □ infinity — задает строку, которая будет представлять бесконечность. Значением по умолчанию является строка "Infinity "; □ NaN — задает строку, которая будет представлять не-числа. Значением по умолчанию является строка "NaN "; □ minus-sign — задает символ, который будет использоваться для обозначения отрицательных чисел. Значением по умолчанию является символ "- ", код #x2D . Элемент xsl:decimal-format не имеет смысла без функции format-number . Все, на что влияют его атрибуты — это формат, который будет использоваться при преобразовании чисел в строку функцией format-number . Примеры Определение десятичного формата: name="format1" decimal-separator="," minus-sign="N" grouping-separator=":" infinity="∞" NaN="not-a-number" percent="%" digit="$" pattern-separator="|"/> Примеры функций format-number : format-number(123456.78, '$,0000', 'format1) → '123456,7800' format-number(-123456.78, '$,00$$', 'format1') → 'N123456,78' format-number(123456.78, '$,0000|$,0000-', 'format1') → '123456,7800' format-number(-123456.78, '$,00001$,0000-', 'format1') → '123456,7800-' format-number(-123456.78, '000:000:000,00$$', 'format1') → 'N000:123:456,78' format-number('zero', '000:000:000,00$$', 'format1') -> 'not-a-number' format-number(1 div 0, '$,$', 'format1') → '∞' format-number(-1 div 0, '$,$', 'format1') → 'N∞' Определение десятичного формата: Примеры функций format-number : format-number(123456789, '#', 'format2') → '012345678' format-number(123456789, '#') → '123456780' Определение десятичного формата: Примеры функций format-number : format-number(123456789, '#', 'format3') → '23456789:' format-number(12345.06789, '#.#####', 'format3') → '23456.1789:' Десятичный формат, определяемый элементом xsl:decimal-format , в отличие от многих других элементов не может переопределяться в преобразованиях со старшим порядком импорта. Элементы xsl:decimal-format должны определять десятичные форматы с различными именами (за исключением тех случаев, когда значения их атрибутов полностью совпадают). Контроль вывода документа Несмотря на то, что XSLT-процессоры должны лишь только преобразовывать логические модели документов, организованные в виде деревьев, многие из них имеют также возможность выдавать результат преобразования в виде последовательности символов. Элемент xsl:output Синтаксис этого элемента приведен ниже: method = "xml" | "html" | "text" | "имя" version = "токен" encoding = "строка" omit-xml-declaration = "yes" | "no" standalone = "yes" | "no" doctype-public = "строка" doctype-system = "строка" cdata-section-elements = "имена" indent = "yes" | "no" media-type = "строка"/> Элемент верхнего уровня xsl:output позволяет указывать, каким образом должно быть выведено результирующее дерево. Главным атрибутом элемента xsl:output является атрибут method , который определяет, какой метод должен использоваться для вывода документа. Значением этого атрибута может быть любое имя, но при этом техническая рекомендация XSLT определяет только три стандартных метода вывода — "xml" , "html" и "text" . В том случае, если процессор поддерживает нестандартный метод вывода, его реализация полностью зависит от производителя. Если в преобразовании не определен элемент xsl:output или в нем не указан атрибут method , метод преобразования выбирается по умолчанию исходя из следующих условий. □ Если корень выходящего документа имеет дочерний элемент с локальным именем " html " (в любом регистре символов), которому предшествуют только пробельные символы, методом вывода по умолчанию становится "html ". □ Во всех остальных случаях методом вывода по умолчанию является "xml" . Пример Для документа XSL Transformations (XSLT) XSL Transformations (XSLT) Version 1.0 Методом вывода по умолчанию будет "html" , а для документа XSL Transformations (XSLT) Version 1.0 будет выбран метод вывода "xml" . Помимо главного атрибута method , элемент xsl:output имеет следующие атрибуты: □ version (версия) — определяет версию языка выходящего документа; □ indent (индентация) — определяет, должен ли процессор добавлять пробельные символы для более наглядного форматирования документа; □ encoding (кодировка) — определяет, в какой кодировке должен быть выведен документ. Значение этого атрибута не зависит от регистра символов, то есть значения encoding="utf-8" и encoding="UtF-8" будут эквивалентны. В атрибуте encoding можно использовать только печатаемые символы ASCII, то есть символы интервала от #x21 до #x7e . Значением encoding должно быть название набора символов, определенное в стандартах IANA (Internet Assigned Numbers Authority) или RFC2278. В противном случае, атрибут должен начинаться символами "x- "; □ media-type — определяет тип содержимого MIME выходящего документа; □ doctype-system — определяет системный идентификатор, который должен быть использован в декларации типа документа (DTD); □ doctype-public — определяет публичный идентификатор, который должен быть использован в декларации типа документа (DTD); □ omit-xml-declaration (пропустить декларацию XML) — определяет, нужно ли включать декларацию XML в выходящий документ или нет. Значением этого атрибута должно быть либо "yes" (пропустить декларацию), либо "no" (включить декларацию в выходящий документ); □ standalone (самостоятельный документ) — определяет, должен ли процессор выводить указание на самостоятельность документа (standalone declaration). Значением этого атрибута может быть либо "yes" (выводить указание), либо "no" (не выводить указание на самостоятельность); □ cdata-section-elements — определяет список элементов, текстовое содержимое которых должно быть выведено с использованием секций CDATA. Использование этих атрибутов зависит от того, какой из методов выбран для вывода преобразованного документа. Метод вывода "xml" Для того чтобы вывести результирующее дерево в виде XML-документа, следует использовать в элементе xsl:output метод "xml" . Ниже мы подробно опишем, каким образом на выход должны влиять другие атрибуты этого элемента. Атрибут version Этот атрибут определяет версию языка XML, которая должна использоваться для вывода результирующего документа. В случае если процессор не поддерживает указанную версию, он может либо выдать ошибку, либо использовать одну из поддерживаемых версий. На данный момент единственной действующей версией языка является версия 1.0 и потому, если в атрибуте в version будет указано другое значение, единственным эффектом от этого будет измененный параметр version в декларации XML. Пример Предположим, что в преобразовании версия выходящего документа задана как 1.2: Тогда процессор может вывести декларацию XML в следующем виде: Значением атрибута version по умолчанию является "1.0" , то есть, для того, чтобы получить декларацию XML вида и т. д. ?> достаточно опустить определение атрибута version : Атрибут encoding Атрибут encoding указывает на то, какая кодировка предпочтительна для выходящего документа. Множество кодировок зависит от используемого процессора, но при этом в соответствии с технической рекомендацией все они обязаны поддерживать Unicode-формы кодировок UTF-8 и UTF-16. В случае если процессор не поддерживает кодировку, указанную в атрибуте encoding , процессор может либо выдать ошибку, либо использовать UTF-8 или UTF-16. Если атрибут encoding опущен, процессор должен по умолчанию использовать UTF-8 или UTF-16. На практике абсолютное большинство процессоров используют по умолчанию кодировку UTF-8. При выводе содержимого выходящего документа может возникнуть ситуация, когда в выходящем потоке будут находиться символы, которые невозможно будет отобразить при используемой кодировке. В этом случае непечатаемые символы должны быть заменены символьными сущностями. Пример Представим себе входящий документ в кодировке UTF-8, содержащий символ кириллицы " Э " с Unicode-кодом #x42d (или #1069 в десятичной системе счисления): Э Если преобразование будет использовать для вывода кодировку, которая не может отображать символы кириллического алфавита, например ISO-8859-1, то символ " Э " в выходящем документе должен быть заменен символьной сущностью. Листинг 8.36. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> method="xml" encoding="ISO-8859-1" indent="yes"/> Листинг 8.37. Выходящий документ Э Вместе с тем синтаксис XML не разрешает использовать символьные сущности в именах элементов и атрибутов, и наличие в них символов, не отображаемых кодировкой вывода, будет являться ошибкой. Если в предыдущем примере документ будет иметь вид <страница>Э то вывести результирующее дерево в кодировке ISO-8859-1 будет невозможно. Атрибут indent Индентацией называют форматирование исходного текста, не влияющее на семантику, но облегчающее читаемость. К примеру, один и тот же XML-документ можно написать как <В><С/><С><В> или Очевидно, что второй случай гораздо легче для понимания, поскольку в нем легко можно видеть принадлежность элементов одного другому. Подобное форматирование можно использовать и при выводе преобразованного документа при помощи атрибута indent элемента xsl:output . Если этот атрибут имеет значение "yes" , процессор может добавить один или несколько пробельных символов или символов перевода строки — в зависимости от реализации. Как правило, каждый дочерний элемент помещают на новой строке, добавляя впереди два пробела на каждый уровень вложенности. Пример Листинг 8.38. Входящий документ Листинг 8.39. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Листинг 8.40. Выходящий документ Следует быть осторожными при использовании indent="yes" там, где в содержимом документа могут встречаться значащие пробелы. Индентация позволяет процессору при выводе документа добавлять пробельные символы по собственному усмотрению. В случаях, когда при последующей обработке преобразованного документа пробельные символы могут быть восприняты неадекватно, лучше индентацию не использовать. Атрибут cdata-section-elements Для того чтобы вывести текстовое содержимое некоторых элементов в виде секций CDATA, XSLT предлагает простой механизм — следует лишь перечислить в атрибуте cdata-section-elements элемента xsl:output элементы, которые на выходе должны содержать секции символьных данных. Пример Листинг 8.41. Входящий документ Листинг 8.42. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> indent="yes" cdata-section-elements="page"/> Листинг 8.43. Выходящий документ ]]> В соответствии с синтаксисом XML, секции CDATA не могут содержать последовательности символов " ]]> ". Потому, встретив такую комбинацию в тексте элемента, имя которого включено в cdata-section-elements , процессор заменит ее двумя секциями CDATA. Одна будет содержать "]] ", вторая – "> ". Пример Листинг 8.44. Входящий документ ]]>  Листинг 8.45. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> indent="yes" cdata-section-elements="data pre"/> Листинг 8.46. Выходящий документ ]]> ]]> Атрибут doctype-system Для определения логической структуры документов в XML используются DTD — определения типов документов. В большинстве случаев определения типов содержатся во внешних ресурсах, которые включаются в документ в виде системных или публичных идентификаторов. XSLT позволяет создавать ссылки на внешние определения типов при помощи атрибута doctype-system элемента xsl:output . Пример Предположим, что мы создаем документ, логическая схема которого определена во внешнем файле по адресу "/dtds/document.dtd" . Тогда, определив в преобразовании элемент xsl:output с атрибутом doctype-system , равным "/dtds/document.dtd" , мы получим в выходящем документе определение типа в виде элемент SYSTEM "/dtds/document.dtd"> где элемент — первый элемент выходящего документа. Листинг 8.47. Входящий документ content Листинг 8.48. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Листинг 8.49. Выходящий документ content Атрибут doctype-public Если в преобразовании атрибутом doctype-system элемента xsl:output задано внешнее определение логического типа документа, это определение может быть расширено также и публичным идентификатором. Публичный идентификатор указывается в атрибуте doctype-public элемента xsl:output . Его использование может быть продемонстрировано следующим примером. Листинг 8.50. Входящий документ content Листинг 8.51. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> doctype-system="/dtds/document.dtd" doctype-public="-//Document//Description" /> Листинг 8.52. Выходящий документ PUBLIC "-//Document//Description" "/dtds/document.dtd"> content Атрибут media-type Атрибут media-type позволяет задавать медиа-тип содержимого выходящего документа. Для метода вывода "xml" значением media-type по умолчанию является "text/xml" . Несмотря на то, что media-type не оказывает никакого влияния на содержимое самого документа, XSLT-процессоры, используемые на стороне сервера, могут в зависимости от значения этого атрибута изменять MIME-тип исходящих данных при использовании, к примеру, такого протокола, как HTTP. Атрибут omit-xml-declaration XML-документы, в принципе, могут быть корректными и без декларации XML. Поэтому XSLT позволяет опускать эту декларацию в выходящем документе, для чего значению атрибута omit-xml-declaration должно быть присвоено "yes" : omit-xml-declaration="yes"/> В случае если значение атрибута omit-xml-declaration опущено или не равно "yes" , процессор будет выводить в выходящем документе декларацию XML, которая включает информацию о версии (по умолчанию "1.0" ) и кодировке документа (по умолчанию "utf-8" или "utf-16" в зависимости от процессора). Атрибут standalone Для того чтобы объявить документ как самостоятельный или несамостоятельный (standalone или non-standalone соответственно), следует использовать атрибут standalone элемента xsl:output . Если этот атрибут будет присутствовать в xsl:output , то процессор включит в декларацию XML объявление standalone с соответствующим значением. Если атрибут standalone не указан, объявление standalone в декларацию XML выходящего документа включено не будет. Метод вывода "html" В нынешнем состоянии языки XML и HTML сильно похожи синтаксически, но при этом имеют некоторые довольно весомые различия. Метод вывода "html" используется для того, чтобы выводить документы в формате, который будет понятен большинству существующих на данный момент Web-браузеров. Одно из основных различий HTML и XML состоит в том, что в XML пустые элементы имеют формат <имя/> , в то время как в HTML тот же элемент был бы выведен, как <имя> — без косой черты. Метод вывода "html" учитывает эти различия и выводит теги пустых элементов HTML без косой черты после имени. В соответствии с технической рекомендацией языка HTML 4.0, пустыми элементами являются area , base , basefont , br , col , frame , hr , img , input , isindex , link , meta и param . Пример Листинг 8.53. Входящий документ I'm just a simple page... I've got a simple content Листинг 8.54. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> </code></pre> <pre><code> <xsl:value-of select="title"/></code></pre> <pre><code> Welcome! Be our guest! Листинг 8.55. Выходящий документ I'm just a simple page... Welcome! Be our guest! I've got a simple content Как можно заметить, метод вывода "html" распознает элементы HTML вне зависимости от регистра символов — в нашем примере пустой элемент был выведен как , что соответствует синтаксису HTML. Документы, которые преобразуются в HTML, могут также иметь программы, определенные внутри элемента script или стили, заданные внутри элемента style . В случае если внутри этих элементов оказываются символы, считающиеся в XML специальными — такие как "< ", "& " и так далее, процессор не должен заменять их символьными или встроенными сущностями. Пример Предположим, что в преобразуемом документе элемент script определен с использованием специальных символов, которые заменены сущностями: или с использованием секций символьных данных: При использовании метода вывода "html" оба варианта будут выведены, как Пожалуй, стоит еще раз повторить, что это относится только к элементам style и script . Специальные символы, использованные в других элементах, будут заменены символьными или встроенными сущностями. Пример This >o< is a black hole of this page! будет выведено как This >o< is a black hole of this page! В соответствии со спецификацией, некоторые атрибуты в HTML могут и не иметь значений — как правило, это атрибуты с булевыми значениями, такие, к примеру, как атрибут selected элемента option , присутствие которого в элементе означает то, что опция выбрана, отсутствие — то, что она не выбрана. Для того чтобы получить в выходящем документе следует в преобразовании указывать то есть присваивать булевому атрибуту значение, равное собственному имени. Такие значения будут выведены в минимизированной форме, как это и требовалось. HTML и XML также имеют небольшие различия в формате вывода инструкций по обработке. В то время как в XML эти инструкции имеют вид приложение содержимое?> в HTML инструкции по обработке заканчиваются не " ?> ", а просто правой угловой скобкой ("> "): приложение содержимое> Таким образом, результатом выполнения кода content при использовании метода XML будет а при использовании метода HTML Атрибут version Атрибут version элемента xsl:output в методе "html" обозначает версию языка HTML, которая должна использоваться в выходящем документе. По умолчанию значением этого атрибута является "4.0" , что означает соответствие выходящего документа спецификации языка HTML версии 4.0. Отметим, что последней версией языка HTML на момент написания этой книги является версия 4.02, однако отличия между этими версиями незначительны. Атрибут encoding Кодировка выходящего документа определяется в HTML несколько иначе, чем в XML. Если в XML мы использовали определение encoding в декларации XML, то в HTML кодировка описывается в элементе meta следующим образом: content="text/html; charset=windows-1251"> ... Поэтому, если в выходящем документе внутри корневого элемента html присутствует элемент head , процессор должен добавить в него элемент meta с соответствующим определением кодировки. Пример Элемент добавит в элемент head выходящего HTML-документа элемент meta в следующем виде: content="text/html; charset=ISO-8859-1"> Таким образом, для определения кодировки выходящего HTML-документа не следует вручную создавать соответствующий элемент meta — нужно просто указать требуемую кодировку в атрибуте encoding элемента xsl:output . Атрибут indent XSLT позволяет использовать в HTML документах индентацию точно так же, как мы бы использовали ее в методе "xml" . Атрибуты doctype-system и doctype-public Декларация типа документа с внешними системными или публичными идентификаторами может быть использована в HTML точно так же, как в XML. Поскольку в объявлении типа документа после должно стоять имя корневого элемента, при методе вывода "html" этим именем будет "HTML" или "html" в зависимости от регистра символов имени корневого элемента документа. Атрибут media-type Атрибут media-type определяет медиа-тип содержимого выходящего документа. Для HTML-документов значением media-type по умолчанию будет "text/html" . Метод вывода "text" XSLT позволяет выводить результат преобразования как простой текст. При использовании method="text" результирующее дерево приводится к строке, то есть в этом случае результатом преобразования будет строковое сложение всех текстовых узлов дерева. Пример Входящий документ My heart's in the Highlands My heart is not here одним и тем же шаблоном: при использовании метода вывода "xml" будет преобразован к виду My heart's in the Highlands My heart is not here а при использовании метода "text" к виду My heart's in the Highlands My heart is not here Атрибут encoding Атрибут encoding указывает на предпочтительную кодировку вывода текста документа. Значение атрибута encoding по умолчанию зависит от программной платформы, на которой производится преобразование. В большинстве процессоров по умолчанию используются кодировки UTF-8, ASCII и ISO-8859-1. В случае если кодировка, используемая для вывода текста, не отображает некоторые символы документа, процессор может выдать ошибку. Атрибут media-type По умолчанию в качестве значения атрибута media-type , используемого для простого текста, указывается "text/plain" . Значение атрибута media-type может быть использовано сервером, преобразующим документ в качестве MIME-типа. Другие методы вывода Как уже было сказано раньше, спецификация XSLT позволяет помимо основных методов "xml" , "html" и "text" использовать также и другие методы, реализация которых будет зависеть от производителя того или иного процессора. Кажется вполне логичной и закономерной возможность использования, к примеру, такого метода, как "pdf" для создания документов в Adobe Portable Document Format (переносимом формате документов) или метода "bin" для создания двоичного потока данных. Однако, на данном этапе, процесс сериализации (создания физической сущности из логической модели) пока еще не определен в общем виде для произвольного метода. Возможно, в будущем, по аналогии с объектной моделью документа (DOM) будут созданы схожие интерфейсы для более легкого определения методов сериализации и интеграции преобразований в другие программы, но в настоящее время следует ограничиваться тремя основными методами. Отметим также, что спецификация языка XSLT определяет функциональность элемента xsl:output как возможную, но не обязательную. Процессоры обязаны манипулировать логическими моделями XML-документов, но при этом они не обязаны поддерживать сериализацию и уметь выводить преобразованный XML-документ как последовательность байт. Конечно же, абсолютное большинство процессоров поддерживает такую возможность, но при всем том она остается не более чем возможностью. Поэтому из соображений переносимости можно лишь только надеяться, что документ будет выведен так, как было задумано. Не следует исключать возможности, что в определённых условиях процессор не сможет контролировать процесс вывода документа. Типичным примером такой ситуации может быть использование процессора совместно с другими компонентами, которые обмениваются с процессором документами в виде DOM-структур, но сами загружают и выводят документы. В этом примере компоненты, занимающиеся выводом преобразованного документа, могут спокойным образом игнорировать все то, что было указано в элементе xsl:output или в атрибутах disable-output-escaping других элементов преобразования. Более того, они даже не будут знать, что было там указано, поскольку эти значения не касаются процесса преобразования как такового — они относятся к выводу, контролировать который процессор в данном случае не может. Отсюда следует однозначный вывод: не нужно чересчур злоупотреблять возможностями xsl:output и disable-output-escaping . Замена специальных символов Как мы уже знаем, в XML есть несколько специальных символов, которые, как правило, заменяются процессором при выводе документа на соответствующие символьные или встроенные сущности. К примеру, для того, чтобы вывод был корректным XML-документом, процессор обязан заменять символы " < " и "& " на встроенные (< и & ) или символьные (< и & ) сущности. Между тем довольно часто бывает необходимым выводить в выходящем документе символы разметки. Пример Пусть входящий документ содержит описание товара, заданное в секции CDATA: An elephant big and grey animal!]]> Если мы будем преобразовывать этот документ с использованием шаблона то в выходящем документе специальные символы будут заменены: An elephant This is a big and grey animal! Для того чтобы избежать замены, можно воспользоваться атрибутом disable-output-escaping (отменить замену символов) элементов xsl:value-of и xsl:text. Этот атрибут может принимать значения "yes" и "no" ("no" — значение по умолчанию). Значение "yes" означает, что процессор при выводе текста, создаваемого xsl:text или xsl:value-of не должен заменять специальные символы. Если бы в предыдущем примере мы использовали преобразование. Листинг 8.56. Преобразование, содержащее disable-output-escaping xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> то на выходе мы бы получили документ An elephant This is a big and grey animal! Атрибут disable-output-escaping налагает ряд ограничений на использование текстовых узлов, генерируемых элементами xsl:text и xsl:value-of : эти узлы не могут входить в качестве текстового содержимого в узлы атрибутов, комментариев или инструкций по обработке. Кроме того, дерево, содержащее текстовые узлы, для которых была отменена замена специальных символов, не может быть приведено к строке или числу. И в том и в другом случае процессор может либо выдать ошибку преобразования, либо проигнорировать отмену замены специальных символов. Атрибут disable-output-escaping имеет также и более концептуальное ограничение. Процессор сможет отменить замену символов только в том случае, когда он сам будет контролировать процесс вывода. Как мы уже обсуждали в предыдущем разделе, ситуации, когда процесс вывода не будет выполняться самим процессором, не такая уж и редкость. Поэтому следует использовать disable-output-escaping только в тех случаях, когда другой альтернативы нет или когда имеется полная уверенность, что этот метод будет работать. Атрибут disable-output-escaping работает с методами вывода "xml" и "html" , но не оказывает никакого влияния на метод "text" , поскольку при этом методе все специальные символы и так выводятся без замены. Кодировки в XSLT-преобразованиях Несмотря на то, что в логических деревьях, которыми манипулирует XSLT, текстовые узлы представляются в кодировке Unicode, очень часто в обрабатываемых документах бывает необходимо использовать также другие кодировки. К примеру, большинство русскоязычных документов хранятся в кодировках Windows-1251 и KOI8-R. Если внимательно присмотреться к преобразованиям, можно заметить, что, как правило, в них участвуют минимум три документа — входящий (преобразовываемый) документ, документ преобразования (преобразующий) и выходящий (преобразованный документ). Соответственно, каждый из них может иметь собственную кодировку. Кодировка входящего документа указывается в его xml-декларации. Например, документы в кодировке Windows-1251 должны иметь xml-декларацию вида Возможно, небольшим сюрпризом окажется то, что в соответствии со стандартом XML, имена тегов вовсе не обязаны состоять исключительно из латинских букв. В имени элемента можно использовать весь кириллический алфавит, а также множество других символов. Совершенно корректным будет документ <страница> <содержимое/> Аналогичным образом кириллицу, а также другие наборы символов и алфавиты можно использовать и в самих преобразованиях, поскольку те в свою очередь также являются XML-документами. Пример Листинг 8.57. Входящий документ <каждый> <охотник> <желает> <знать> <где> <сидит> <фазан/> Листинг 8.58. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <редкий> <рыболов> <может> <забыть> <как> <плавает> <щука> Листинг 8.59. Выходящий документ <редкий> <рыболов> <может> <забыть> <как> <плавает> <щука/> Напомним, что кодировка выходящего документа определяется атрибутом encoding элемента xsl:output и не зависит от кодировок преобразования и обрабатываемых документов. Например, можно легко создать преобразование, которое будет изменять кодировку входящего документа. Это будет идентичное преобразование с элементом xsl:output , определяющим целевой набор символов. Листинг 8.60. Преобразование, изменяющее кодировку документа на KOI8-R xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Как можно видеть, XSLT довольно гибко поддерживает кодировки — входящие и выходящие документы, а также сами преобразования могут иметь разные наборы символов. Единственным ограничением является множество кодировок, поддерживаемое самим процессором, вернее парсером, который он использует для разбора входящих документов, и сериализатором, который служит для создания физического экземпляра выходящего документа. Практически во всех процессорах поддерживаются кодировки UTF-8, US- ASCII и ISO-8859-1, но далеко не все могут работать с Windows-1251 или KOI8-R. Поэтому, создавая документы и преобразования в нестандартных кодировках, мы заведомо ограничиваем переносимость решений. В случаях, когда XML/XSLT приложения создаются под конкретный процессор с заведомо известными возможностями, это не является большой проблемой, однако в тех случаях, когда требуется универсальность или точно не известно, каким процессором будет производиться обработка, единственным выходом будет использовать UTF-8 — как во входящих документах, так и в самих преобразованиях. Случай нескольких входящих документов Базовая архитектура преобразования подразумевает один входящий документ. Несмотря на это, в преобразованиях можно использовать и обрабатывать информацию, хранящуюся в других, внешних документах. Доступ к этим документам можно получить при помощи функции document . Функция document Запись функции: node-set document(object, node-set?) Функция document позволяет обращаться к внешним документам по их URI, например скопирует в выходящий документ содержимое главной страницы Консорциума W3. Функция document возвращает множество узлов. В простейшем случае это множество будет состоять из корневого узла внешнего документа. Функцию document можно использовать в более сложных XPath-выражениях, например в выражениях фильтрации. Так функция скопирует все элементы а, находящиеся в теле ( /html/body ) внешнего документа. Базовый сценарий использования функции document очень прост: ей передается строка, содержащая URI внешнего ресурса, а результатом является множество узлов, состоящее из корня внешнего документа. Однако на этом возможности document не заканчиваются. Мы рассмотрим несколько вариантов вызова функции document с параметрами различного типа. Вызов document(string) В случае если функции document передана строка, возвращаемое множество будет состоять из корневого узла внешнего документа. URI этого документа как раз и сообщается строковым аргументом функции document . Интересной особенностью является возможность передать пустую строку: document('') В этом случае document возвратит корневой узел самого преобразования. При помощи document('') можно получать доступ к информации, хранящейся в самом преобразовании (оно ведь тоже является ХМL-документом). К сожалению, перед обращением к документу не существует способа проверить его существование. Процессор может либо выдать ошибку, либо возвратить пустое множество. Пример Листинг 8.61. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:user="urn:user-namespace"> 1 2 name="data" select="document('')/xsl:stylesheet/user:data"/> Листинг 8.62. Выходной документ xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:user="urn:user-namespace">1 xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:user="urn:user-namespace">2 Вызов document(node-set) Передавая функции document множество узлов, можно получить доступ к нескольким документам, URI которых являются строковыми значениями узлов множества. Это, в частности, позволяет обращаться к документам, URI которых указаны в узлах обрабатываемого документа. Например, в контексте элемента <а href="http://www.w3.org">... вполне корректным вызовом функции document будет document (@href) . Выражение @href — здесь возвращает множество, состоящее из единственного узла атрибута. Его строковое значение ("http://www.w3.org" ) будет использовано как URI внешнего документа. Результирующее множество узлов будет содержать единственный корневой узел документа, расположенного по адресу http://www.w3.org. Приведем еще один пример. XPath-выражение //a/@href возвращает множество всех атрибутов href элементов а текущего документа. Тогда множество document(//a/@href ) будет содержать корневые узлы всех документов, на которые ссылается посредством элементов а текущий документ. Вызов document(string, node-set) URI, которые передаются функции document , могут быть как абсолютными, так и относительными, например document('doc.xml') возвратит корень документа doc.xml , находящегося в том же каталоге, что и само преобразование. Функция document позволяет менять "точку отсчета" относительных URI. Если в качестве второго аргумента функции document передано множество узлов, то относительные идентификаторы ресурсов будут отсчитываться от базового адреса первого (в порядке просмотра документа) узла этого множества. Базовым URI узла дерева является: □ если элемент или инструкция по обработке принадлежит внешней сущности, базовым URI соответствующего узла будет URI внешней сущности; □ иначе базовым URI является URI документа; □ базовым URI текстового узла, узла атрибута, комментария или пространства имен является базовый URI родительского элемента. Поясним вышесказанное на примерах. Конструкция копирует в выходящий документ doc.xml , находящийся в одном каталоге вместе с преобразованием. Несмотря на то, что в следующем определении xsl:for-each меняет контекст, document('doc.xml') все равно возвращает корень документа doc.xml , находящегося в одном с преобразованием каталоге: В следующей конструкции document('doc.xml', /) копирует документ a/doc.xml, поскольку в качестве базового URI используется URI корня документа a/data.xml : Того же самого эффекта можно достичь следующим образом: В следующей конструкции за базовый URI опять принимается URI самого преобразования (вернее, его корневого узла): Протестируем теперь все это вместе в одном преобразовании. Листинг 8.63. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> Листинг 8.64. Документ doc.xml doc.xml Листинг 8.65. Документ a/doc.xml a/doc.xml Листинг 8.66. Выходящий документ doc.xml doc.xml a/doc.xml a/doc.xml doc.xml Вызов document(node-set, node-set) Если функции document передаются два множества узлов, то вычисление результата можно описать примерно следующим образом: □ каждый из узлов первого аргумента преобразуется в строковый вид; □ для каждого из полученных значений выполняется вызов типа document(string, node-set) ; □ результирующие множества объединяются. Иными словами, document(node-set, node-set) работает через document(string, node-set) точно так же, как document(node-set) работает через document(string) . Разница лишь в том, что в первом случае базовый URI будет изменен. Другие дополнительные функции XSLT Функция current Выражение для этой функции имеет вид: node-set current() Функция current возвращает множество, состоящее из текущего узла преобразования. Мы часто использовали термины текущий узел и узел контекста как синонимы: действительно, в большинстве случаев между ними нет никакой разницы, текущий узел преобразования совпадает с узлом контекста вычисления выражений. Однако бывают ситуации, когда они являются двумя различными узлами. Представим себе, что нам нужно выбрать элементы item со значением атрибута source , равным значению этого атрибута текущего узла. Очевидно, путь выборки будет выглядеть как item[предикат] , где предикат определяет условие равенства атрибутов текущего и выбираемого. Но как записать это условие? Предикат будет вычисляться в контексте проверяемого элемента item , значит, все относительные пути выборки типа @source или ./@source или self::item/@source будут отсчитываться именно от проверяемого элемента. В этом случае узел контекста и текущий узел преобразования — не одно и то же. Для того чтобы обратиться в предикате именно к текущему узлу, следует использовать функцию current : item[@source=current()/@source] Это выражение выберет все дочерние элементы item текущего узла, значение атрибута source которых будет таким же, как и у него. Функция unparsed-entity-uri Выражение для этой функции следующее: string unparsed-entity-uri(string) Функция unparsed-entity-uri возвращает уникальный идентификатор ресурса, который соответствует неразбираемой внешней сущности, имя которой передано как аргумент. Пример Описывая синтаксис XML, мы приводили пример документа, который использовал неразбираемые внешние сущности. Листинг 8.67. Входящий документ использующий неразбираемые внешние сущности image ENTITY #REQUIRED title CDATA #REQUIRED href CDATA #REQUIRED> ]> Для того чтобы вычислить местоположение графических файлов, соответствующих пунктам этого меню, нужно будет использовать функцию unparsed- entity-uri . Аргументом этой функции в данном случае будет значение атрибута image , ведь именно этот атрибут задает имя неразбираемой сущности, которая соответствует изображению пункта меню. Преобразование такого документа в HTML будет иметь приблизительно следующий вид. Листинг 8.68. Преобразование, использующее функцию unparsed-entity-uri version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> method="html" indent="yes"/> Результат преобразования приведен на следующем листинге. Листинг 8.69. Выходящий документ Остается только добавить, что unparsed-entity-uri — это единственная функция, которая позволяет работать с неразбираемыми сущностями. Никаких средств для обработки нотаций и вспомогательных приложений, которые им соответствуют, в XSLT нет. Сказывается тот факт, что неразбираемые сущности и нотации очень редко используются в документах, поэтому их поддержка в XSLT минимальна. Функция generate-id Синтаксическая конструкция этой функции: string generate-id(node-set?) Функция generate-id возвращает уникальный строковый идентификатор первого в порядке просмотра документа узла, передаваемого ей в виде аргумента. Если аргумент опущен, функция возвращает уникальный идентификатор контекстного узла. Если аргументом является пустое множество, функция должна возвращать пустую строку. Функция generate-id обладает следующими свойствами. □ Функция generate-id возвращает для двух узлов один и тот же идентификатор тогда и только тогда, когда эти два узла совпадают. Это означает, что во время выполнения одного преобразования функция generate-id будет возвращать один идентификатор для одного и того же узла, а для разных узлов generate-id обязательно возвратит разные идентификаторы. □ Возвращаемый идентификатор состоит только из цифр и букв ASCII и начинается буквой, то есть синтаксически является корректным XML-именем и может использоваться как имя элемента, атрибута, как значение ID-атрибута или в любом другом месте, где могут использоваться имена XML. Кроме этого спецификация оговаривает следующие важные положения, которые мы приведем ниже. □ Процессор не обязан генерировать один и тот же идентификатор при разных выполнениях преобразования одного и того же документа. Иными словами, если в понедельник процессор X при выполнении преобразования Y сгенерирует для узла Z документа D идентификатор I , то во вторник тот же процессор X при выполнении того же преобразования Y с тем же документом D может сгенерировать для того же самого узла Z совершенно другой, отличный от I идентификатор. □ Форма возвращаемого идентификатора может быть произвольной, но при этом она должна удовлетворять описанному выше синтаксису. Это означает, что каждый процессор может по-своему генерировать идентификатор. Спецификация не определяет никакого стандартного метода реализации функции generate-id . □ Генерируемый идентификатор может совпадать, а может и не совпадать со значениями уникальных атрибутов, то есть атрибутов, тип данных которых объявлен в блоке DTD как ID . Помимо очевидного применения, например, для явного задания уникального идентификатора в выходящем документе, функция generate-id совершено неожиданным образом облегчает задачи группировки. Подробнее об этом мы расскажем в главе 11. Пример Предположим, что в наших XML-документах изменилась логическая схема: теперь каждый элемент item должен обладать уникальным атрибутом id . Выполнить задачу конвертации может простое преобразование. Листинг 8.70. Преобразование version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> В выходящем документе элементы item будут иметь уникальные идентификаторы. Листинг 8.71. Выходящий документ ... Сразу оговоримся, что этот способ будет работать не всегда: generate-id создает идентификатор, который является уникальным среди всех остальных идентификаторов узлов, а не среди всех значений уникальных атрибутов документа. Так что если бы какой-либо элемент имел ID-атрибут со значением b1b1b4 , выходящий документ перестал бы быть правильным. Однако же, если в документе до преобразования вообще не было уникальных атрибутов, все будет в порядке. Функция system-property Синтаксис этой функции приведен ниже: object system-property(string) Функция system-property возвращает значение свойства, которое определяется ее строковым параметром. Аргумент этой функции должен представлять расширенное имя системного свойства. Если процессор не поддерживает свойство с таким именем, функция должна вернуть пустую строку. Эта функция предназначена для получения информации об окружении, в котором производится преобразование. В стандарте языка указано, что все процессоры в обязательном порядке должны поддерживать следующие системные свойства: □ xsl:version — это свойство должно возвращать номер версии языка XSLT, которую поддерживает данный процессор. □ xsl:vendor — это свойство должно возвращать текстовую информацию о производителе используемого процессора. □ xsl:vendor-uri — это свойство должно возвращать URL производителя — как правило, xsl:vendor-uri — это адрес Web-сайта производителя процессора. К сожалению, в первой версии языка XSLT процессоры обязаны поддерживать только эти свойства. Очень полезным, было бы, например, свойство, возвращающее имя преобразования или преобразовываемого файла. К сожалению, ничего подобного в стандарте не предусмотрено. Пример В качестве примера приведем небольшой шаблон, выводящий в виде комментария информацию о процессоре. Листинг 8.72. Шаблон, выводящий системную информацию | XSLT Version: select="format-number(system-property('xsl:version'), '0.0')"/> | XSLT Processor: | URL: + Процессор SAXON, написанный Майклом Кеем (Michael Kay), выводит следующий комментарий: Ожидается, что в будущих версиях XSLT набор системных свойств будет расширен. Кроме того, многие процессоры поддерживают дополнительные системные свойства, не оговоренные в спецификации. < Назад Далее >

Токен	Описание	Примеры
Токен	Преобразование
`1`	Форматирует номер в виде строкового представления десятичного числа	`1`	`1` → `'1'`
`1`	`2` → `'2'`
`1`	`10` → `'10'`
`1`	`999` → `'999'`
`1`	`1000` → `'1000'`
`0...01`	Форматирует номер в виде строкового представления десятичного числа; если получившая строка короче токена, она дополняется предшествующими нулями	`0001`	`1` → `'0001'`
`001`	`2` → `'002'`
`001`	`10` → `'010'`
`01`	`999` → `'999'`
`00001`	`1000` → `'01000'`
`A`	Форматирует номер в виде последовательности заглавных букв латинского алфавита	`A`	`1` → `'A'`
`A`	`2` → `'B'`
`A`	`10` → `'J'`
`A`	`27` → `'AA'`
`A`	`999` → `'ALK'`
`A`	`1000` → `'ALL'`
`a`	Форматирует номер в виде последовательности строчных букв латинского алфавита	`a`	`1` → `'a'`
`a`	`2` → `'b'`
`a`	`10` → `'j'`
`a`	`27` → `'aa'`
`a`	`999` → `'alk'`
`a`	`1000` → `'all'`
`I`	Форматирует номер заглавными римскими цифрами	`I`	`1` → `'I'`
`I`	`2` → `'II'`
`I`	`10` → `'X'`
`I`	`27` → `'XXVII'`
`I`	`999` → `'IM'`
`I`	`1000` → `'M'`
`i`	Форматирует номер строчными римскими цифрами	`i`	`1` → `'i'`
`i`	`2` → `'ii'`
`i`	`10` → `'x'`
`i`	`27` → `'xxvii'`
`i`	`999` → `'im'`
`i`	`1000` → `'m'`
Другой	Форматирует номер `k` как `k` -й член последовательности, начинающейся этим токеном. Если нумерация таким токеном не поддерживается, вместо него используется токен `1` .	Не поддерживающийся токен	`1` → `'1'`
`b`	`10` → `'k'`
`Б`	`2` → `'В'`
`Б`	`27` → `'Ы'`
`á`	`999` → `'ανψ'`
`å`	`1000` → `'βζο'`

ТЕЛЕГРАМ Канал с обзорами, анонсами новинок и книжными подборками Книжный Вестник Бот для удобного поиска книг (если не нашлось на сайте) Поиск книг Свежие любовные романы в удобных форматах Любовные романы О психологии, саморазвитии и личностном росте Саморазвитие Детективы и триллеры, все новинки Детективы Фантастика и фэнтези, все новинки Фантастика Отборные классические книги Классика ВКОНТАКТЕ Цитаты, афоризмы, стихи, книжные подборки, обсуждения и многое другое Книжный Вестник БИБЛИОТЕКИ Библиотека с любовными романами, которая наверняка придётся по вкусу женской части аудитории Любовные романы Библиотека с фантастикой и фэнтези, а также смежных жанров Фантастика Самые популярные книги в формате фб2 Топ фб2 книги

Оглавление ПожаловатьсяК описанию Предисловие О чем эта книга? Для кого эта книга? Как работать с книгой? Структура книги Глава 1. Введение в XML Глава 2. Введение в XSLT Глава 3. Идея и модель языка XSLT Глава 4. Структура преобразования Глава 5. Шаблонные правила Глава 6. XPath-выражения Глава 7. Основные элементы XSLT Глава 8. Дополнительные элементы и функции языка XSLT Глава 9. Использование XSLT совместно с другими языками программирования Глава 10. Расширения языка XSLT Глава 11. Готовые решения Глава 12. Развитие технологий Приложение 1. Обзор XSLT-процессоров Приложение 2. Краткий справочник элементов и атрибутов XSLT Приложение 3. Краткий справочник функций XSLT и XPath Приложение 4. Интернет-ресурсы, посвященные XSLT Соглашения Расширенная форма Бэкуса-Наура Обозначения Благодарности Глава 1 Введение в XML Что такое XML? Разметка документов XML снаружи и изнутри Конструкции XML Элемент Атрибут Инструкция по обработке Секции СDATA Комментарии (comments) Пространства имён Расширенные имена Структура XML-документа Декларация типа документа (DTD) Определение элемента Определение списка атрибутов Определение сущности Определение нотации Символьные данные в XML-документах Использование Unicode Коды некоторых символов Unicode Базовые продукции XML XML- документы с точки зрения спецификации Использование технологии XML SAX- парсеры DOM- парсеры Основные классы задач XML Создание новых языков Хранение данных Обмен данными и проекты интеграции Краткая история XML Глава 2 Введение в XSLT Документ = Данные + Структура XSLT как язык Отсутствие "побочных" эффектов Расширения Преобразования снаружи Области применения XSLT XSLT в архитектуре клиент-сервер XSLT на стороне сервера XSLT на стороне клиента XSLT в Web-решениях XSLT при обмене данными История XSLT Глава 3 Идея и модель языка XSLT Модель XML-документа Деревья Узлы дерева XML-документа Корневой узел Узлы элементов Узлы атрибутов Текстовые узлы Узлы пространств имен Узлы инструкций по обработке Узел комментария Сводная таблица характеристик узлов Ограничения модели XML-документа Порядок просмотра документа Типы данных Булевый тип (boolean) Численный тип (number) Строковый тип (string) Множество узлов (node-set) Результирующий фрагмент дерева (result tree fragment) Таблица преобразования типов Переменные Выражения Виды выражений Пути выборки Фильтрующие выражения Объединение множеств Арифметические операции Операции сравнения Логические операции Функции Контекст вычисления выражений Модель преобразования Контекст преобразования Выполнение преобразования Глава 4 Структура преобразования Пространство имен XSLT Корневые элементы преобразования Элементы xsl:stylesheet и xsl:transform Упрощенные преобразования Модульная организация преобразования Включение преобразований Элемент xsl:include Импорт преобразований Элемент xsl:import Порядок импорта Использование сущностей для разбивки на модули Совместное использование преобразований и XML-документов Ассоциация преобразования с XML-документом Объединение документа и преобразования Включение преобразования в документ Включение документа в преобразование Литеральные элементы результата Атрибуты языка XSLT в литеральных элементах Шаблоны значений атрибутов Глава 5 Шаблонные правила Преобразование как набор правил Определение шаблонного правила Элемент xsl:template Вызов шаблонных правил Элемент xsl:apply-templates Режимы Именованные шаблоны Элемент xsl:call-template Встроенные шаблоны Идентичное преобразование Разрешение конфликтов в шаблонах Элемент xsl:apply-imports Тело шаблона Переменные и параметры Элемент xsl:variable Область видимости переменных Использование переменных Параметры Элемент xsl:param Область видимости параметров Элемент xsl:with-param Глава 6 XPath- выражения Выражения для XML-документов Контекст вычисления выражений Пути выборки Шаги выборки Оси навигации Тесты узлов Предикаты Сокращенный синтаксис Примеры путей выборки Паттерны Семантика паттернов Примеры паттернов Выражения Переменные Операции с булевыми значениями Операции с числами Арифметические операции Операции сравнения Операции с множествами узлов Фильтрация Использование в выражениях путей выборки Объединение множеств Старшинство операций Функции Булевые функции Функция boolean Функция not Функции true и false Функция lang Числовые функции Функция number Функция sum Функции floor и ceiling Функция round Строковые функции Функция string Функция concat Функция starts-with Функция contains Функция substring-before Функция substring-after Функция substring Функция string-length Функция normalize-space Функция translate Функции множеств узлов Функции last и position Функция count Функции local-name , namespace-uri и name Функция id Базовые продукции XPath Разбор XPath-выражений Глава 7 Основные элементы XSLT Основные и дополнительные элементы Создание узлов элементов Элемент xsl:element Создание узлов атрибутов Элемент xsl:attribute Именованные наборы атрибутов Элемент xsl:attribute-set Атрибут xsl:use-attribute-sets Создание текстовых узлов Элемент xsl:text Элемент xsl:value-of Создание узлов комментариев и инструкций по обработке Элемент xsl:comment Элемент xsl:processing-instruction Копирование узлов Элемент xsl:copy Элемент xsl:copy-of Условная обработка Элемент xsl:if Элементы xsl:choose, xsl:when, xsl:otherwise Циклическая обработка Элемент xsl:for-each Глава 8 Дополнительные элементы и функции языка XSLT Дополнительные элементы и функции Обработка пробельных символов Элементы xsl:preserve-space и xsl:strip-space Сообщения процессора Элемент xsl:message Сортировка Элемент xsl:sort Псевдонимы пространств имен Элемент xsl:namespace-alias Ключи Элемент xsl:key Функция key Определение множества ключей Использование нескольких ключей в одном преобразовании Использование нескольких определений одного ключа Использование множеств узлов в функции key Использование ключей в нескольких документах Составные ключи Функция key в паттернах Нумерация Элемент xsl:number Вычисление номеров Форматирование номеров Форматирование чисел Функция format-number Элемент xsl:decimal-format Контроль вывода документа Элемент xsl:output Метод вывода "xml" Метод вывода "html" Метод вывода "text" Другие методы вывода Замена специальных символов Кодировки в XSLT-преобразованиях Случай нескольких входящих документов Функция document Вызов document(string) Вызов document(node-set) Вызов document(string, node-set) Вызов document(node-set, node-set) Другие дополнительные функции XSLT Функция current Функция unparsed-entity-uri Функция generate-id Функция system-property Глава 9 Совместное использование XSLT с другими языками программирования XSLT и другие языки Выполнение XSLT-преобразований в Object Pascal Импорт MSXML в Delphi Форма проекта Использование DOMDocument Выполнение XSLT-преобразований в C/C++ Настройка путей Использование класса XalanTransformer Выполнение XSLT-преобразований в PHP Страница гостевой книги Выполнение XSLT-преобразований в JavaScript Выполнение XSLT-преобразований в VBScript/ASP Выполнение XSLT-преобразований в Python Выполнение XSLT-преобразований в PL/SQL Выполнение XSLT-преобразований в Java Краткие выводы Глава 10 Расширения языка XSLT Что такое расширения? Функции расширения Функция function-available Функция расширения nodeset Элементы расширения Функция element-available Элемент xsl:fallback Инициатива EXSLT Глава 11 Готовые решения Группировка Перечисление узлов Именованный шаблон как функция Рекурсия Циклы Цикл while Цикл for Метод Пиза для for-цикла Операции над множествами Перенос строк и элементы BR Данные, разделенные запятыми (CSV) Глава 12 Развитие технологий Отличия XSLT 1.1 от XSLT 1.0 Отсутствие result tree fragment Несколько выходящих документов Дополнительные возможности по расширению " Внешние" типы данных Стандартные интерфейсы расширений Другие изменения Отличия XSLT 2.0 от XSLT 1.1 Изменения в XPath 2.0 Выбор шаблонов для элементов пространства имен, определенного по умолчанию Средства для форматирования даты и времени Функции id и key на внешних документах Включение неразбираемых внешних сущностей в виде текста Использование именованных сущностей вместо кодов символов Обращение ссылок по ID / IDREF Другие требования Приложение 1 Обзор XSLT-процессоров Популярность XSLT-процессоров Производительность XSLT-процессоров Библиотека Microsoft XML Parser Использование Расширения Процессор Xalan Использование Расширения Процессор Saxon Использование Расширения Библиотека Oracle XDK Использование Расширения Процессор Sablotron Использование Процессор xt Использование Расширения Библиотека libxslt Использование Расширения Приложение 2 Краткий справочник элементов и атрибутов XSLT Обозначения Элементы Атрибуты Приложение 3 Краткий справочник функций XSLT и XPath Обозначения Функции Приложение 4 Интернет-ресурсы, посвященные XSLT Зарубежные интернет-ресурсы по XSLT Русскоязычные ресурсы Технические рекомендации и стандарты Переводы стандартов на русский язык Другие ресурсы Списки рассылки Электронные конференции Список литературы Загрузка...

Глава 8 Дополнительные элементы и функции языка XSLT

Дополнительные элементы и функции

Обработка пробельных символов

Элементы xsl:preserve-space и xsl:strip-space

Сообщения процессора

Элемент xsl:message

Сортировка

Элемент xsl:sort

Псевдонимы пространств имен

Элемент xsl:namespace-alias

Ключи

Элемент xsl:key

Функция key

Определение множества ключей

Использование нескольких ключей в одном преобразовании

Использование нескольких определений одного ключа

Использование множеств узлов в функции key

Использование ключей в нескольких документах

Составные ключи

Функция key в паттернах

Нумерация

Элемент xsl:number

Вычисление номеров

Форматирование номеров

Форматирование чисел

Функция format-number

Элемент xsl:decimal-format

Контроль вывода документа

Элемент xsl:output

XSL Transformations (XSLT)Version 1.0

XSL Transformations (XSLT)Version 1.0

Метод вывода "xml"

Метод вывода "html"

Метод вывода "text"

Другие методы вывода

Замена специальных символов

Кодировки в XSLT-преобразованиях

Случай нескольких входящих документов

Функция document

Вызов document(string)

Вызов document(node-set)

Вызов document(string, node-set)

Вызов document(node-set, node-set)

Другие дополнительные функции XSLT

Функция current

Функция unparsed-entity-uri

Функция generate-id

Функция system-property

XSL Transformations (XSLT)
Version 1.0

XSL Transformations (XSLT)
Version 1.0