В главе 4 было объяснено, как создавать образцы выбора, которые можно использовать в атрибуте
match
таких элементов, как
. Образцы являются подмножеством полного языка XPath, и в этой главе будет рассмотрена полная версия XPath.
Выражения XPath применимы в XSLT не только в образцах выбора, но и во многих других приложениях: в атрибуте
select
элементов
,
,
,
,
,
,
и
, в шаблонах значений атрибутов, в атрибуте test
элементов
и
, атрибуте value
элемента
и в предикатах образцов выбора. На этот счет не может быть никаких сомнений: пока вы не знаете XPath, вы не знаете XSLT, и вся эта глава посвящена созданию выражений XPath и работе с ними.
Фактически мы работали с выражениями XPath начиная с главы 1, в которой мы впервые познакомились с атрибутом
select
в элементах
и
:
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
The Planets Table
The Planets Table
Name
Mass
Radius
Day
Хотя мы уже знаем, например, что для обращения к текущему узлу можно присвоить «.» атрибуту
select
, «.» не является допустимым образцом выбора: это сокращение XPath для self::node()
. Применение образцов выбора ограничено только двумя осями: ребенка и атрибута, но в XPath тринадцать осей, включая self
. В этой главе мы рассмотрим все эти оси и приемы работы с ними.
Говоря формально, XPath позволяет вам ссылаться на определенные разделы XML-документов — это язык, предназначенный для адресации различных частей таких документов. При помощи XPath вы указываете, с какой частью документа вы хотите работать. Вот что W3C говорит о XPath:
«Основная задача XPath — адресовать части документа XML. Для реализации этой первоочередной цели он также предоставляет основные средства оперирования строками, числами и логическими значениями. XPath обладает компактным, отличным от XML синтаксисом для облегчения его применения в идентификаторах URI и значениях атрибутов XML. XPath работает с абстрактной, логической структурой XML-документа, а не с его внешним синтаксисом. XPath получил свое имя благодаря тому, что для навигации по иерархической структуре XML-документа в нем используется нотация пути (path), как в идентификаторах URI».
Эта цитата взята из спецификации XPath 1.0. Заметьте, что, хотя основной целью XPath является адресация частей XML-документов, он также поддерживает синтаксис для работы со строками, числами и логическими (true/false) значениями, который, как мы увидим, сам по себе очень полезен.
В данный момент стандартом является XPath версии 1.0, но были выпущены требования для XPath 2.0. Пока еще нет рабочих проектов XPath 2.0, есть только список того, что W3C планирует туда включить. В конце главы будет приведен обзор этого списка. Первичные источники XPath вы найдете в двух местах:
• спецификация XPath 1.0. XPath применяется для поиска и указания определенных разделов и элементов в документах XML для дальнейшей работы с ними. www.w3.org/TR/xpath;
• требования XPath 2.0. XPath обновляется и в него включаются дополнительные средства поддержки XSLT 2.0 — в первую очередь поддержка схем XML. www.w3.org/TR/xpath20req.
Вас могут заинтересовать следующие руководства по XPath:
• http://www.zvon.org/xxl/XPathTutorial/General/examples.html;
• http://www.pro-solutions.com/tutorials/xpath/.
Рассмотренные нами до сих пор образцы выбора возвращали наборы узлов (node set), в которых можно было осуществить выбор или обработать набор в цикле, но XPath предоставляет более общие средства. Помимо наборов узлов, выражения XPath могут также возвращать числа, логические (true/false) значения и строки. Чтобы разобраться с XPath, необходимо разобраться с выражениями XPath. Только один вид выражения XPath (хотя и очень важный) возвращает наборы узлов, определяющие разделы документа. Как мы увидим, другие выражения XPath возвращают данные других видов.
Полный синтаксис выражений XPath описан в спецификации XPath, и я приведу его здесь для справки. Как и в случае образцов выбора, для формального определения выражений XPath W3C использует нотацию расширенных форм Бэкуса-Наура (РБНФ). (Описание этой грамматики вы можете найти по адресу www.w3.org/TR/REC-xml, раздел 6.) В следующем списке приведена нужная нам нотация РБНФ:
•
::=
означает «определяется как»;
•
+
означает «один или больше»,
•
*
означает «ноль или больше»;
•
|
означает «или»;
•
-
означает «не»;
•
?
означает «не обязательно»;
Также примите во внимание, что когда элемент заключен в одиночные кавычки, как
'ancestor'
или '::
', это значит, что элемент должен появиться в выражении буквально (как "ancestor::PLANET
"), — такие элементы называются литералами, literals
. Ниже приведено полное формальное определение выражения XPath (здесь оно называется Expr
):
Expr ::= OrExpr
OrExpr ::= AndExpr | OrExpr 'or' AndExpr
AndExpr ::= EqualityExpr | AndExpr 'and' EqualityExpr
EqualityExpr ::= Relational Expr | EqualityExpr '=' Relational Expr
| EqualityExpr '!=' RelationalExpr
RelationalExpr ::= AdditiveExpr | RelationalExpr '<' AdditiveExpr
| RelationalExpr '>' AdditiveExpr | RelationalExpr '<=' AdditiveExpr
| RelationalExpr '>=' AdditiveExpr
AdditiveExpr ::= MultiplicativeExpr | AdditiveExpr '+' MultiplicativeExpr
| AdditiveExpr '-' MultiplicativeExpr
MultiplicativeExpr ::= UnaryExpr
| MultiplicativeExpr
MultiplyOperator ::= UnaryExpr
| MultiplicativeExpr 'div' UnaryExpr | MultiplicativeExpr 'mod' UnaryExpr
UnaryExpr ::= UnionExpr | '-' UnaryExpr
MultiplyOperator ::= '*'
UnionExpr ::= PathExpr | UnionExpr '|' PathExpr
PathExpr ::= LocationPath | FilterExpr
| FilterExpr '/' RelativeLocationPath | FilterExpr '//' RelativeLocationPath
LocationPath ::= RelativeLocationPath | AbsoluteLocationPath
AbsoluteLocationPath ::= '/' RelativeLocationPath? | AbbreviatedAbsoluteLocationPath
RelativeLocationPath ::= Step | RelativeLocationPath '/' Step
| AbbreviatedRelativeLocationPath
AbbreviatedAbsoluteLocationPath ::= '//' RelativeLocationPath
AbbreviatedRelativeLocationPath ::= RelativeLocationPath '//' Step
Step ::= AxisSpecifier NodeTest Predicate* | AbbreviatedStep
AxisSpecifier ::= AxisName '::' | AbbreviatedAxisSpecifier
AxisName ::= 'ancestor' | 'ancestor-or-self' | 'attribute' | 'child' | 'descendant'
| 'descendant-or-self' | 'following' | 'following-sibling' | 'namespace'
| 'parent' | 'preceding' | 'preceding-sibling' | 'self'
AbbreviatedAxisSpecifier ::= '@'?
NodeTest ::= NameTest | NodeType '(' ')'
| 'processing-instruction' '(' Literal ')'
NameTest ::= '*' | NCName '*' | QName
NodeType ::= 'comment' | 'text' | 'processing-instruction' | 'node'
Predicate ::= '[' PredicateExpr ']'
PredicateExpr ::= Expr
FilterExpr ::= PrimaryExpr | FilterExpr Predicate
PrimaryExpr ::= VariableReference | '(' Expr ')'
| Literal | Number | FunctionCall
VariableReference ::= '$' QName
Number ::= Digits ('.' Digits?)? | Digits
Digits ::= [0-9]+
FunctionCall ::= FunctionName '(' ( Argument ( Argument )* )? ')'
FunctionName ::= QName - NodeType
Argument ::= Expr
AbbreviatedStep := '.' | '..'
Как видите, спецификация весьма объемна, она включает и обращения к функциям XPath (с которыми мы познакомимся в следующей главе). Лучший способ понять, как работают выражения XPath, — рассмотреть их по возвращаемым типам данных.
В XPath существует четыре типа данных, а не только тип набора узлов, который должны возвращать образцы выбора:
• наборы узлов;
• логические значения;
• числа;
• строки.
ФРАГМЕНТЫ РЕЗУЛЬТИРУЮЩЕГО ДЕРЕВА
В XSLT 1.0 к типам данных XPath добавляются фрагменты результирующего дерева. Как говорилось в главе 4, фрагменты результирующего дерева представляют собой просто фрагменты дерева, которые можно присваивать переменным XSLT. Их поддержка была удалена из рабочего проекта XSLT 1.1, поэтому, скорее всего, они не будут включены в XSLT 2.0. Фрагменты результирующего дерева можно рассматривать как типы данных при помощи
В следующих разделах мы по очереди рассмотрим эти типы данных.
Как следует из имени, набор узлов (node set) является просто совокупностью узлов. Набор узлов может включать несколько узлов, единственный узел или быть пустым. Поскольку главная задача XPath — определять место разделов документов, постольку возвращающие наборы узлов выражения XPath являются наиболее популярными типами выражений. Например, выражение XPath
child::PLANET
возвращает набор узлов из всех элементов
, дочерних для контекстного узла. Выражение child::PLANET/child::NAME
возвращает набор узлов из всех элементов
, дочерних для элементов
контекстного узла. Выражения XPath такого рода называются путями расположения, location path (W3C называет их «самой важной конструкцией» в XPath), и существенная часть этой главы будет посвящена разъяснению путей расположения.
Чтобы выбрать узел или узлы из набора узлов или обработать их, вы можете воспользоваться следующими функциями XPath для работы с наборами узлов, которые впервые встретились нам в главе 4 (и которые мы более подробно рассмотрим в следующей главе):
•
count(node-set)
. Эта функция возвращает количество узлов в наборе. Если опустить параметр «набор узлов», функция будет применена к контекстному узлу;
•
id(string ID)
. Эта функция возвращает набор узлов из элемента, чей ID удовлетворяет строке, переданной функции в качестве параметра, или пустой набор узлов, если ни у какого элемента нет указанного ID. Можно указать несколько идентификаторов, разделенных символами-разделителями, — в таком случае функция вернет набор узлов из элементов с этими идентификаторами;
•
last()
. Возвращает номер последнего узла в наборе;
•
local-name(node-set)
. Возвращает локальное имя первого узла в наборе. Если опустить параметр «набор узлов», функция будет применена к контекстному узлу;
•
name(node-set)
. Возвращает полностью определенное имя первого узла в наборе. Если опустить параметр «набор узлов», функция будет применена к контекстному узлу;
•
namespace-uri(node-set)
. Возвращает URI пространства имен первого узла в наборе. Если опустить параметр «набор узлов», функция будет применена к контекстному узлу;
•
position()
. Возвращает позицию контекстного узла в контекстном наборе узлов (начиная с 1).
В следующем примере (из главы 6) для подсчета количества узлов в наборе применяется функция
count
. В этом случае набор узлов состоит из всех элементов
в planets.xml
, и я получил его при помощи пути расположения «\\PLANET
» (который как путь расположения также является выражением XPath):
xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
Ниже показан результат; заметьте, что у каждого элемента
есть оба атрибута, number
и total
, и атрибут total
содержит общее число элементов
в документе:
Mercury
.0553
58.65
1516
.983
43.4
Venus
.815
116.75
3716
.943
66.8
Earth
1
1
2107
1
128.4
Среди функций для работы с наборами узлов в особенности обратите внимание на функции
name
и local-name
. С их помощью можно определить имя текущего элемента: например, если текущим элементом является
, local-name
вернет DAY
. Следующая таблица стилей демонстрирует, для чего это может понадобиться; в ней я использую такие теги, как
,
и
, в качестве элементов буквального результата:
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Однако в таком случае разметка трактуется как простой текст. Вместо этого можно создать новые элементы при помощи
, определяя имена контекстных узлов через local-name
:
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Ряд пишущих об XSLT авторов рассматривает выражения XSLT только как выражения, возвращающие наборы узлов. Но выражения XPath возвращают также логические значения, числа и строки, которые используются в элементах
,
,
,
, шаблонах значений атрибутов и предикатах путей расположения. В предыдущем примере для вставки в документ числа я присвоил атрибуту select
элемента
выражение XPath count(//PLANET)
, которое возвращает не набор узлов, а число. Сейчас мы как раз перейдем к обработке чисел при помощи выражений XPath.
В XPath числа хранятся в формате чисел с плавающей точкой двойной точности. В соответствии с формальным определением, числа XPath должны храниться в формате 64-разрядных чисел с плавающей точкой двойной точности IEEE 754, и все числа хранятся как числа с плавающей точкой двойной точности.
В XPath можно выполнять следующие операции над числами, как мы уже видели в главе 4 при обсуждении предикатов XPath:
•
+
сложение;
•
-
вычитание;
•
умножение;*
•
div
деление (символ /, соответствующий делению в других языках, в XML и XPath уже занят);
•
mod
возвращает значение деления по модулю двух чисел (остаток после деления первого числа на второе).
Например, элемент
вставит в выходной документ строку «90
». В следующем примере выбираются все планеты, чей день (измеренный в днях Земли), умноженный на расстояние планеты от Солнца (измеренное в миллионах миль), больше, чем 60 000:
XPath также поддерживает следующие функции работы с числами:
•
ceiling()
. Возвращает наименьшее целое, большее, чем переданное функции число;
•
floor()
. Возвращает наибольшее целое, меньшее, чем переданное функции число;
•
round()
. Округляет переданное число до ближайшего целого;
•
sum()
. Возвращает сумму переданных функции чисел.
Например, среднее расстояние от Солнца (в миллионах миль) планет в
planets.xml
можно найти таким способом:
xmlns.xsl="http://www.w3.org/1999/XSL/Transform">
The average planetary distance from the Sun is:
В XPath строки по умолчанию состоят из символов Unicode. Как мы уже видели в главе 4 при обсуждении выражений XPath в предикатах выбора, существует ряд функций, специально предназначенных для работы со строками (более подробно они будут изучаться в следующей главе):
•
concat(string string1, string string2,...)
. Возвращает конкатенацию (объединение) всех строк;
•
contains(string string1, string string2)
. Возвращает true
(истину), если первая строка содержит (contains) вторую строку;
•
format-number(number number1, string string2, string string3)
. Возвращает строку, содержащую число number1
в виде форматированной строки, используя string2
в качестве форматирующей строки (форматирующие строки создаются так же, как для метода Java java.text.DecimalFormat
) и string3
как возможную строку локализации;
•
normalize-space(string string1)
. Возвращает строку string1
после отбрасывания лидирующих и завершающих символов-разделителей и замены нескольких последовательных разделителей на один пробел;
•
starts-with(string string1, string string2)
. Возвращает истину, если первая строка начинается (starts with) со второй строки;
•
string-length(string string1)
. Возвращает количество символов в строке string1
;
•
substring(string string1, number offset number length)
. Возвращает length
символов из строки, начиная со смещения offset
;
•
substring-after(string string1, string string2)
. Возвращает часть строки string1
после первого вхождения string2
;
•
substring-before(string string1, string string2)
. Возвращает часть строки string1
до первого вхождения строки string2
;
•
translate(string string1, string string2, string string3)
. Возвращает строку string1
, в которой все вхождения символов в строке stri
ng2 заменены на соответствующие символы в строке string3
.
В листинге 7.1 я ищу слово «miles» во всех атрибутах, и если оно встречается, добавляю в результирующий документ текст «You should switch to kilometers.» (Нужно перевести в километры.).
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
The Planets Table
The Planets Table
Name
Mass
Radius
Day
Distance
You should switch to kilometers.
Вот результирующий документ:
The Planets Table
The Planets Table
Name
Mass
Radius
Day
Distance
Mercury
.0553 (Earth = 1)
1516 You should switch to kilometers.
58.65 days
43.4 You should switch to kilometers.
Venus
.815 (Earth = 1)
3716 You should switch to kilometers.
116.75 days
66.8 You should switch to kilometers.
Earth
1 (Earth = 1)
2107 You should switch to kilometers.
1 days
128.4 You should switch to kilometers.
Помимо работы с наборами узлов, числами и строками, можно работать и с логическими значениями (true/false).
Логические (Boolean) выражения XPath вычисляются либо в истину (true), либо в ложь (false), и обычно они используются только в предикатах. Для чисел ноль принимается за ложь, другие значения — за истину. Пустая строка, "", также считается ложью, все остальные строки — истиной.
Для генерации логических результатов true/false в XPath можно применять ряд логических операций, как мы видели в обзоре в главе 4:
•
!=
означает «не равно»;
•
<
означает «меньше, чем» (в документах XML используйте <
);
•
<=
означает «меньше или равно» (в документах XML используйте <=
);
•
=
означает «равно» (программисты на С, С++, Java и JavaScript, обратите внимание: эта операция пишется как один знак =, а не два);
•
>
означает «больше, чем»;
•
>=
означает «больше или равно».
Для связи логических выражений логическими операциями And и Or используются ключевые слова
and
и or
, слово not
инвертирует логический смысл выражения, как в следующем примере, где я выбираю все элементы
, кроме первого и последнего:
Следующий пример уже встречался нам в главе 5, он использует логическую операцию
not
и операции =
и !=
:
Each planet must have a name!
,
and
.
Кроме того, имеется функция
true
, всегда возвращающая истину, и функция false
, всегда возвращающая ложь. Есть также функция lang
, при помощи которой вы можете проверить язык, установленный в атрибуте документа xml:lang
: эта функция возвращает истину, если язык, который вы передали в эту функцию, такой же, как и установленный в документе язык.
Как вы видели, существуют все виды выражений XPath, в том числе возвращающие узлы, числа, строки и логические значения. Наиболее важным типом выражений XPath является путь расположения; для создания путей расположена XPath первоначально и задумывался, поэтому оставшаяся часть главы будет посвящена работе с ними.
Вы уже знакомы со взглядом на документы с позиции XPath; например, в XPath определено семь типов узлов документа:
• Корневой узел. Самое начало документа. Этот узел представляет в XPath весь документ;
• Узлы элементов. Представляют элементы в деревьях XPath, обозначенные открывающим и соответственным закрывающим тегами или единственным пустым тегом элемента;
• Узлы атрибутов. Значение атрибута после раскрытия ссылок на сущность и отбрасывания окружающих символов-разделителей;
• Узлы комментариев. Текст комментариев, не включая
;
• Узлы пространств имен. Объявление пространства имен. В XPath узел пространства имен добавляется во все элементы для каждого активного пространства имен, включая пространства имен по умолчанию;
• Узлы инструкций обработки. Содержат текст инструкции обработки, не включая
и ?>
;
• Текстовые узлы. Текст PCDATA. Текстовые узлы по умолчанию в XPath нормализованы, поэтому расположенные рядом текстовые узлы немедленно объединяются.
Для задания узла или набора узлов в XPath служит путь расположения (location path). Путь расположения, в свою очередь, состоит из одного или более шагов расположения (location step), также называемых просто шагами, разделенных / или //. Если путь расположения начинается с /, он называется абсолютным путем расположения, поскольку путь задается от корневого узла; иначе путь называется относительным, начинаясь от контекстного узла.
Шаги расположения, строительные блоки путей расположения, во многом похожи на образцы шага (step patterns), формирующие образцы выбора, которые мы видели в главе 4. В частности, шаг расположения образован из оси (axis), условия узла (node test) и предикатов (которых может и не быть) по такому образцу:
axis::nodetest[predicate]
. Например, в выражении ancestor::NAME[position() > 100]
, ancestor
— это имя оси, NAME
— условие узла и [position() >100]
— предикат. (Предикат сам содержит законченное выражение XPath, обычно возвращающее логическое значение.) Пути расположения создаются при помощи одного или более шагов расположения, таких как /descendant::PLANET/child::NAME
, который выбирает все элементы
с родителем
.
Шаги XPath похожи на образцы шага из главы 4, так как общий их вид одинаков —
axis::nodetest[predicate]
— но в данном случае нужно рассмотреть значительно больше материала. Например, осей теперь тринадцать, а не две.
В пути расположения
ancestor::NAME
, адресующем элемент
, который является предком контекстного узла, ancestor
выступает осью. XPath поддерживает много различных осей, ниже приведен полный список:
• ось
ancestor
содержит предков (ancestor) контекстного узла, то есть родителей контекстного узла, родителей этих родителей и т.д., вплоть до корневого узла (включая его);
• ось
ancestor-or-self
содержит контекстный узел и его предков;
• ось
attribute
содержит атрибуты контекстного узла;
• ось
child
содержит детей контекстного узла;
• ось
descendant
содержит потомков (descendant) контекстного узла, то есть его детей, детей этих детей и т.д.;
• ось
descendant-or-self
содержит контекстный узел и его потомков;
• ось
following
содержит все узлы в том же документе, такие же, как контекстный узел, встретившиеся после контекстного узла;
• ось
following-sibling
содержит всех последующих братьев контекстного узла. «Брат» — узел, расположенный на том же уровне, что и контекстный узел;
• ось
namespace
содержит узлы пространств имен контекстного узла;
• ось
parent
содержит родителя контекстного узла;
• ось
preceding
содержит все узлы до контекстного узла;
• ось
preceding-sibling
содержит всех предшествующих «братьев» контекстного узла;
• ось
self
содержит контекстный узел.
В следующем примере шаблона я воспользовался осью
descendant
для выбора потомков контекстного узла, куда входят дочерние узлы, узлы-внуки, узлы-правнуки и т.д.:
В этой главе мы рассмотрим все перечисленные оси. В данном примере осью является
descendant
, а имена элементов NAME
, MASS
и DAY
— это условия узлов.
При создании образцов в качестве условий узлов (node test) можно использовать имена узлов или символ подстановки * для выбора любого узла элемента. Например, выражение
child::*/child::NAME
выбирает все элементы
, являющиеся правнуками контекстного узла. В XPath кроме имен и символа подстановки можно также применять, как и в образцах выбора, следующие условия узлов:
• условие узла
comment()
выбирает узлы комментария;
• условие узла
node()
выбирает узел любого типа;
• условие узла
processing-instruction()
выбирает узел инструкции обработки. В скобках можно указать название выбираемой инструкции обработки;
• условие узла
text()
выбирает текстовый узел
Например, в листинге 7.2 таблица стилей находит в документе все комментарии при помощи условия узла
comment()
и создает для каждого комментария новый,
(Внимание! Найден комментарий!).
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Warning: comment found!
При применении этой таблицы стилей к
planets.xml
получается следующий документ:
Предикат в шаге расположения XPath сам содержит заключенное в скобки выражение XPath, которое вычисляется в истину или ложь. Когда результатом вычисления выражения является строка, XPath считает ее истиной, если строка не пуста. Когда результат — набор узлов, XPath считает его истиной, если он не пуст. Когда результат — число, то общий результат будет считаться истиной, если это число совпадает с контекстной позицией — например,
PLANET[3]
будет истиной тогда и только тогда, когда истиной будет PLANET[position()=3]
.
Предикаты содержат выражения XPath наподобие тех, которые встречались нам на протяжении этой главы: редко когда выражение возвращает набор узлов, главным образом возвращаются строки, числа или логические значения. Например, путь расположения
preceding-sibling::MASS[position()*4]
выбирает четыре предыдущих элемента-брата
для контекстного узла.
К этому моменту мы рассмотрели три части шагов расположения — ось, условие узла и предикат. Вы должны быть знакомы с этими элементами по проделанной нами работе с образцами выбора, но обратите внимание на ось в предыдущем примере —
preceding-sibling
. До сих пор мы видели только оси, выбиравшие образцы XSLT — оси child
и attribute
; теперь же мы рассмотрим новые оси, возможные в полных выражениях XPath, и начнем с оси ancestor
.
Ось
ancestor
(предок) содержит всех предков контекстного узла, включая родителей, дедушек, прадедушек и т.д. Эта ось всегда содержит корневой узел — если только контекстным узлом не является сам корневой узел.
Взгляните на листинг 7.3, в котором при помощи оси
ancestor
осуществляется поиск имен (хранимых в элементе
) всех предков элементов
.
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Вот результат применения этой таблицы стилей к
planets.xml
:
Mercury
Venus
Earth
Ось
ancestor-or-self
содержит всех предков контекстного узла, а также сам контекстный узел. Это означает, помимо прочего, что такая ось всегда содержит корневой узел.
В листинге 7.4 добавлены атрибуты
AUTHOR
со значением «Steve» в весь документ.
Mercury
.0553
58.65
1516
.983
43.4
Venus
.815
116.75
3716
.943
66.8
Earth
1
1
2107
1
128.4
Предположим теперь, что я хочу перечислить по имени всех предков элементов
, имеющих атрибут AUTHOR
, а также текущий элемент
, если у него есть атрибут AUTHOR
. Это можно сделать при помощи оси ancestor-or-self
и функции local-name
(листинг 7.5).
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Вот результат; показаны выбранные предки всех трех элементов
, включая сам элемент
, при условии, что у него имеется атрибут AUTHOR
:
PLANETS PLANET MASS
PLANETS PLANET
PLANETS
Ось
descendant
(потомок) содержит всех потомков контекстного узла. Заметьте, что сюда не входят атрибуты или узлы пространств имен, поскольку они не считаются дочерними узлами.
В следующем примере (листинг 7.6) демонстрируется работа с этой осью. На этот раз я хочу добавить примечание к элементу
Меркурия: Sorry, Mercury has blown up and is no longer available.
(Извините, но Меркурий взорвался и больше не доступен.). Чтобы найти Меркурий, мне достаточно только проверить, имеет ли какой-либо потомок элемента
строковое значение «Mercury
», что я сделаю при помощи выражения XPath внутри предиката выбора.
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Sorry. Mercury has blown up and is no longer available.
Вот результирующий документ, дополненный новым элементом
только для Меркурия:
Mercury
.0553
58.65
1516
.983
43.4
Sorry, Mercury has blown up and is no longer available.
Venus
.815
116.75
3716
.943
66.8
.
.
.
Ось
descendant-or-self
содержит всех потомков контекстного узла и сам контекстный узел. Заметьте, однако, что она не содержит атрибутов и узлов пространств имен.
В следующем примере (листинг 7.7) демонстрируется работа с осью. В этом случае я создал упрощенную таблицу стилей (подробнее об упрощенных таблицах стилей см. главу 2), которая обрабатывает все элементы с использованием потомков, генерируя уже знакомую нам HTML-таблицу данных о планетах.
The Planets Table
The Planets Table
Н1>
Name
Mass
Radius
Day
Вот и все. Я применил здесь упрощенную таблицу стилей, чтобы подчеркнуть, что при помощи таких осей потомков, как
descendant
или descendant-or-self
, вы можете автоматически обрабатывать все выбираемые узлы, во многом аналогично тому, как это делают элементы
или
.
Ось following (следующий) содержит все узлы, расположенные после контекстного узла в соответствии с установленным в документе порядком (другими словами, в порядке, в котором они появляются в документе, начиная с его начала), исключая всех потомков контекстного узла, а также исключая узлы атрибутов и пространств имен.
В этом примере (листинг 7.8) я выбираю каждый элемент
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
Далее показан результат. Обратите внимание на то, что, когда этот шаблон выбирает элемент
Меркурия, он копирует все последующие элементы — то есть Венеру, затем всех потомков Венеры, далее Землю и затем всех потомков Земли. После этого он выбирает элемент
Венеры и копирует все следующие элементы, то есть Землю и всех потомков Земли:
Venus
.815
116.75
3716
.943
66.8
Venus
.815
116.75
3716
.943
66.8
Earth
1
1
2107
1
128.4
Earth
1
1
2107
1
128.4
Earth
1
1
2107
1
128.4
Earth
1
1
2107
1
128.4
С другой стороны, при использовании оси
following-sibling
в результирующий документ будут скопированы только следующие братья, то есть только элементы
, как мы увидим в следующем разделе.
Ось
following-sibling
содержит всех последующих братьев контекстного узла.
Например, я могу выбрать каждый элемент
и скопировать в результирующий документ все узлы в оси following-sibling
следующим образом (листинг 7.9).
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
При этом сначала копируются два узла-брата, следующие за Меркурием (Венера и Земля), затем копируется следующий узел-брат Венеры, Земля. У самой Земли нет следующих за ней братьев, поэтому результат выглядит так:
Venus
.815
116.75
3716
.943
66.8
Earth
1
1
2107
1
128.4
Earth
1
1
2107
1
128.4
Ось
namespace
содержит узлы пространств имен контекстного узла. Заметьте, что эта ось пуста, если контекстным узлом не является элемент. У элемента присутствует узел пространства имен для:
• каждого атрибута элемента, чье имя начинается с «xmlns:»;
• каждого атрибута элемента-предка, чье имя начинается с «xmlns:» (конечно, если сам элемент или ближайший предок не объявит пространство имен заново);
• атрибута
xmlns
, если элемент или предок имеет атрибут xmlns
.
В следующем примере (листинг 7.10) я хочу отобразить пространство имен элемента
в результирующем документе, и в исходном документе я присвоил пространству имен значение «http://www.starpowder.com».
Mercury
.0553
58.65
1516
.983
43.4
.
.
.
Вот таблица стилей (листинг 7.11), в которой я проверяю пространства имен, используемые в элементе
.
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
А вот результирующий документ (заметьте, что вид документа может меняться в зависимости от процессора XSLT):
http://www.starpowder.com
Ось parent (родитель) содержит родителя (и только родителя) контекстного узла, если таковой имеется.
Предположим, что я хочу изменить содержимое элемента Земли
на «The mass of Earth is set to 1.>> (Масса Земли принимается за 1). В следующем шаблоне (листинг 7.12) для этого проверяется, содержит ли родитель
элемента
элемент
со строковым значением «Earth».
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
The mass of Earth is set to 1.
И вот результат:
Mercury
.0553
58.65
1516
.983
43.4
Venus
.815
116.75
3716
.943
66.8
Earth
The mass of Earth is set to 1.
1
2107
1
128.4
Ось
preceding
содержит все узлы, расположенные перед контекстным узлом в соответствии с установленным в документе порядком, исключая всех предков контекстного узла, а также исключая узлы атрибутов и узлы пространств имен.
Пусть, например, мне нужно задать для содержимого элемента
текст «This planet is farther from the Sun than Mercury.» (Эта планета расположена дальше от Солнца, чем Меркурий.), если рассматриваемая планета действительно дальше от Солнца, чем Меркурий. Один из способов сделать это — проверить, расположен ли Меркурий перед рассматриваемой планетой в соответствии с установленным в документе порядком, при помощи оси preceding
(листинг 7.13).
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
This planet is farther from the Sun than Mercury.
Если текущая планета расположена после Меркурия, я могу вставить сообщение в ее элемент
. Результат следующий:
Mercury
.0553
58.65
1516
.983
43.4
Venus
.815
116.75
3716
.943
This planet is farther from the Sun than Mercury.
Earth
1
1
2107
1
This planet is farther from the Sun than Mercury.
Ось
preceding-sibling
содержит всех предшествующих братьев контекстного узла. Заметьте, что если контекстным узлом является узел атрибута или узел пространства имен, ось preceding-sibling
будет пуста.
Что, если, например, вам нужно создать шаблон, который будет выбирать только элементы
в элементе
Меркурия? Для этого можно проверить, существуют ли братья, предшествующие элементу
, которые являются элементами
со строковым значением «Mercury
». Если применить ось preceding-sibling
(листинг 7.14), поиск будет ограничен текущим элементом
, что означает, что Меркурий не будет выбран, если вы только не находитесь в нужном элементе
.
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
This is the planet Mercury, closest to the Sun.
А вот результат:
Mercury
.0553
58.65
1516
.983
This is the planet Mercury, closest to the Sun.
Venus
.815
116.75
3716
.943
66.8
Earth
1
1
2107
1
128.4
Ось
self
содержит только контекстный узел. В соответствии с одним из сокращений XPath, как мы увидим дальше, вместо «self::node()
» можно использовать «.».
Эту ось полезно иметь в виду, поскольку, как вы помните из главы 4, если не задать ось, осью по умолчанию будет
child::
, а в некоторых случаях вам может понадобиться обратиться к действующему узлу. Например, [self::PLANET]
примет значение истины только если контекстным узлом будет элемент
.
В следующем примере я объединяю шаблоны для элементов
и
в один шаблон. Поскольку у этих элементов разный формат, я должен обращаться с ними по-разному внутри одного и того же шаблона (что можно сделать проверкой значений оси self::NAME
, которая возвращает непустой набор узлов, если контекстным, узлом является элемент
, и self::MASS
, возвращающей непустой набор узлов, если контекстным узлом является элемент
):
.
.
.
На этом мы завершаем рассмотрение новых осей XPath. Давайте перейдем к примерам.
Мы изучили достаточно теории путей расположения. Но, понятно, лучше всего осваивать этот материал на примерах, поэтому я привожу следующий список примеров путей расположения (сокращенные варианты рассматриваются после этого списка):
•
child::PLANЕТ
. Возвращает дочерние элементы
контекстного узла;
•
child::text()
. Возвращает все дочерние текстовые узлы контекстного узла;
•
child::node()
. Возвращает всех детей контекстного узла;
•
attribute::UNIT
. Возвращает атрибут UNIT
контекстного узла;
•
descendant::PLANET
. Возвращает все элементы-потомки
контекстного узла;
•
ancestor::PLANET
. Возвращает всех предков
контекстного узла;
•
ancestor-or-self::PLANET
. Возвращает предков
контекстного узла. Если контекстным узлом тоже является
, возвращает также контекстный узел;
•
descendant-or-self::PLANET
. Возвращает элементы-потомки
контекстного узла. Если контекстным узлом тоже является
, возвращает также контекстный узел;
•
self::PLANET
. Возвращает контекстный узел, если им является элемент
;
•
child::PLANET/descendant::NAME
. Возвращает элементы-потомки
дочерних элементов
контекстного узла;
•
child::*/child::PLANET
. Возвращает всех внуков
контекстного узла;
•
/
. Возвращает корневой узел;
•
/descendant::PLANET
. Возвращает все элементы
в документе;
•
/descendant::PLANET/child::NAME
. Возвращает все элементы
с родителем
в документе;
•
child::PLANET[position()=3]
. Возвращает третьего ребенка
контекстного узла;
•
child::PLANET[position()=last()]
. Возвращает последнего ребенка
контекстного узла;
•
/descendant::PLANET[position() = 3]
. Возвращает третий элемент
в документе;
•
child::PLANETS/child::PLANET[position()=4]/child::NAME[position()=3]
. Возвращает третий элемент
четвертого элемента
элемента
;
•
child::PLANET[position()>3]
. Возвращает всех детей
контекстного узла после первых трех;
•
preceding-sibling::NAME[position()=2]
. Возвращает второй предыдущий элемент-брат
контекстного узла;
•
child::*[self::NAME or self::MASS]
. Возвращает детей
и
контекстного узла.
•
child::*[self::NAME or self::MASS][position()=last()]
. Возвращает последнего ребенка
или
контекстного узла.
Как видите, синтаксис некоторых выражений достаточно запутан, и набирать их также довольно долго. Но, как и для образцов, существует сокращенная форма синтаксиса XPath.
Сокращения синтаксиса XPath могут быть весьма удобными. Ниже приведены правила:
•
self::node()
может быть сокращено как .
;
•
parent::node()
может быть сокращено как ..
;
•
child::childname
может быть сокращено как childname
;
•
attribute::childname
может быть сокращено как @childname
;
•
/descendant-or-self::node()/
может быть сокращено как //
.
Например, путь расположения
.//PLANET
— сокращение для self::node()/descendant-or-self::node()/child::PLANET
. Можно также сократить выражение предиката [position()=3]
как [3]
, [position()=last()]
как [last()]
и т.д. Работать с путями расположения XPath при помощи сокращенного синтаксиса значительно проще. В следующем списке перечислен ряд примеров путей расположения с использованием сокращенного синтаксиса:
•
PLANET
возвращает дочерние элементы
контекстного узла;
•
*
возвращает все дочерние элементы контекстного узла;
•
text()
возвращает все дочерние текстовые узлы контекстного узла;
•
@UNITS
возвращает атрибут UNITS
контекстного узла;
•
@*
возвращает все атрибуты контекстного узла;
•
PLANET[3]
возвращает третьего ребенка
контекстного узла;
•
PLANET[last()]
возвращает последнего ребенка
контекстного узла;
•
*/PLANET
возвращает всех внуков
контекстного узла;
•
/PLANETS/PLANET[3]/NAME[2]
возвращает второй элемент
третьего элемента
элемента
;
•
//PLANET
возвращает всех потомков
корня документа;
•
PLANETS//PLANET
возвращает элементы-потомки
дочерних элементов
контекстного узла;
•
//PLANET/NAME
возвращает все элементы
, у которых есть родитель
;
•
.
возвращает сам контекстный узел;
•
.//PLANET
возвращает элементы-потомки
контекстного узла;
•
..
возвращает родителя контекстного узла;
•
../@UNITS
возвращает атрибут UNITS
родителя контекстного узла;
•
.//..
возвращает всех родителей потомка контекстного узла и родителя контекстного узла;
•
PLANET[NAME]
возвращает детей
контекстного узла, у которых есть дети
;
•
PLANET[NAME="Venus"]
возвращает детей
контекстного узла, у которых есть дети
с текстом, равным «Venus»;
•
PLANET[@UNITS="days"]
возвращает всех детей
контекстного узла, у которых есть атрибут UNITS
со значением «days
»;
•
PLANET[6][@UNITS="days"]
возвращает шестого ребенка
контекстного узла, только если у этого ребенка есть атрибут UNITS
со значением «days». Можно также написать PLANET[@UNITS="days"][6]
;
•
PLANET[@COLOR and @UNITS]
возвращает всех детей
контекстного узла, у которых есть атрибут COLOR
и атрибут UNITS
;
• "
//PLANET[not(.=preceding::PLANET)]
" выбирает все элементы
, значение которых отлично от значения любого предшествующего элемента
;
•
*[1][self::NAME]
выбирает любой элемент
, который является первым ребенком своего родителя;
•
*[position() < 5][@UNITS]
выбирает первых пятерых детей контекстного узла, у которых есть атрибут UNITS
.
В пакет Xalan входит удобная программа-пример, ApplyXPath.java, позволяющая применить выражение XPath к документу и посмотреть на результат, что очень помогает при тестировании. Для запуска этого примера вам нужно будет скомпилировать
ApplyXPath.java
в ApplyXPath.class
при помощи утилиты java.exe, входящей в поставку Java.
В качестве примера я применю выражение XPath «
PLANET/NAME
» к planets.xml
при помощи ApplyXPath.class
. Ниже показан результат, отображающий все элементы
, дочерние по отношению к элементам
(теги
добавлены программой ApplyXPath):
%java ApplyXPath planets.xml PLANET/NAME
Mercury Venus Earth
XPath находится в стадии обновления, и в него включаются средства поддержки XSLT 2.0 (см. www.w3.org/TR/xpath20req). Задачи XPath 2.0 следующие:
• упрощение операций с содержимым типов, поддерживаемых схемой XML;
• упрощение операций со строковым содержимым;
• поддержка соответствующих стандартов XML;
• улучшение удобства использования;
• улучшение функциональной совместимости;
• улучшение поддержки международных языковых средств;
• сохранение обратной совместимости;
• повышенная эффективность процессора.
Следующий список дает обзор требований XPath. Главные пункты — поддержка схемы XML и регулярных выражений, что дает средства работы со строками и поиска в строках. (Дополнительную информацию о регулярных выражениях можно почерпнуть по адресу http://www.perldoc.com/perl5.6/pod/perlre.html.) В соответствии с W3C, XPath 2.0:
• должен поддерживать архитектуру XML W3C, хорошо взаимодействуя с другими стандартами в семействе XML;
• должен выражать свою модель данных в терминах информационного множества (infoset) XML;
• должен предоставлять общий ключевой синтаксис для XSLT 2.0 и XML Query language 1.0;
• должен поддерживать явное сравнение «
for any
» или «for all
» и синтаксис равенства;
• должен расширять множество функций агрегации (например, пользователи XSLT часто требовали добавить функции
min()
и max()
);
• должен сохранять обратную совместимость с XPath 1.0;
• должен предоставлять функции пересечения и разности то есть — XPath 1.0 поддерживает объединение двух наборов узлов, и к этому должны быть добавлены функции пересечения и разности;
• должен поддерживать операцию унарного плюса (поскольку в схеме XML у десятичных чисел может присутствовать лидирующий плюс);
• должен улучшать удобство использования;
• должен снизить ограничения на шаги расположения;
• должен реализовывать условную операцию, оперирующую тремя выражениями — выражением 1 (логическая операция), выражением 2 и выражением 3. Если выражение 1 принимает значение «истина», должно вычисляться выражение 2, а если выражение 1 принимает значение «ложь», должно вычисляться выражение 3;
• должен определять последовательный синтаксис для подвыражений, обрабатывающих коллекции элементов;
• должен поддерживать дополнительные строковые функции. Например, W3C рассматривает вопрос добавления средств для замены в строках, заполнения символами и преобразований регистра;
• должен поддерживать функции агрегации при применении к коллекциям. Например, некоторым пользователям XPath 1.0 требовалось применить такую функцию агрегации, как
sum
, к значениям выражений, примененных к наборам узлов;
• должен поддерживать регулярные выражения для поиска в строках с использованием нотации регулярных выражений, установленной в схеме XML;
• должен поддерживать элементарные типы данных схемы XML. То есть в дополнение к типам, поддерживаемым моделью данных XPath 1.0, — строке, числу, логическому значению и набору узлов — модель данных XPath 2.0 должна поддерживать элементарные типы данных схемы XML;
• должен поддерживать представления чисел с плавающей точкой одинарной и двойной точности, поддерживаемые схемой XML, которая использует научную нотацию;
• должен определять подходящий набор функций для работы пользователя с элементарными типами данных схемы XML;
• должен добавлять в XPath тип данных «список» (поскольку схема XML позволяет определять простые типы, унаследованные от списка);
• должен поддерживать доступ к значениям простых типов элементов и атрибутов. Поскольку схемы XML представляют много новых типов, XPath 2.0 должен поддерживать доступ к собственному, простого типа, значению элемента или атрибута;
• должен определять поведение операторов для нулевых аргументов;
• должен иметь средства для выбора элементов или атрибутов на основе явного типа схемы XML;
• должен иметь средства для выбора элементов или атрибутов на основе иерархии типов схемы XML;
• должен иметь средства для выбора элементов на основе групп подстановки схемы XML;
• должен поддерживать средства поиска, основанные на уникальных ограничениях и ключах схемы.
Хотя мы подошли к концу главы, о XPath сказано еще не все. Тема будет продолжена в следующей главе, в которой мы более внимательно рассмотрим доступные в XPath функции и функции, уже встроенные в XSLT.