4. Ускорение Arduino

В этой главе рассказывается, как определить производительность платы Arduino и как выжать из нее дополнительную мощность, когда это необходимо.


Как определить производительность Arduino?

Прежде чем заняться изучением приемов увеличения скорости работы скетчей, потратим немного времени на тестирование Arduino, чтобы просто понять, насколько ее производительность сопоставима с производительностью компьютеров, начав с таких понятий, как мегагерц и гигагерц.

Тактовый генератор на плате Arduino Uno имеет частоту 16 МГц. Большинство инструкций (сложения или сохранения значения в переменной) выполняется за один такт. То есть Uno может выполнять до 16 млн элементарных операций в секунду. Вроде бы неплохо, не так ли? Однако все не так просто, потому что инструкции на языке C, которые вы пишете в скетчах, разворачиваются в множество машинных инструкций.

Теперь сравним плату с моим стареньким ноутбуком Mac, имеющим два процессора, работающих с тактовой частотой 2,5 ГГц. Тактовая частота моего ноутбука более чем в 150 раз выше тактовой частоты Arduino. И хотя для выполнения каждой инструкции процессору требуется несколько тактов, он все же оказывается намного быстрее.

Попробуем выполнить следующую тестовую программу на Arduino и немного измененную ее версию — на моем Mac:

// sketch 04_01_benchmark

void setup()

{

Serial.begin(9600);

Serial.println("Starting Test");

long startTime = millis();

// Далее следует код тестирования

long i = 0;

long j = 0;

for (i = 0; i < 20000000; i ++)

{

j = i + i * 10;

if (j > 10) j = 0;

}

// конец кода, выполняющего тестирование

long endTime = millis();

Serial.println(j); // чтобы предотвратить оптимизацию цикла компилятором

Serial.println("Finished Test");

Serial.print("Seconds taken: ");

Serial.println((endTime — startTime) / 1000l);

}

void loop()

{

}


ПРИМЕЧАНИЕ

Версию программы на C для компьютера можно найти в разделе загрузки примеров на веб-сайте книги.

Вот какие результаты получились: на MacBook Pro с процессором 2,5 ГГц тестовая программа выполнялась 0,068 с, тогда как на Arduino Uno ей понадобилось 28 с. Плата Arduino оказалась примерно в 400 раз медленнее при решении данной задачи.


Сравнение плат Arduino

В табл. 4.1 показаны результаты выполнения этого теста в нескольких разных моделях платы Arduino.


Таблица 4.1. Результаты тестирования быстродействия Arduino

Модель Время выполнения теста, с
Uno 28
Leonardo 29
Arduino Mini Pro 28
Mega2560 28
Due 2

Как видите, большинство моделей имеют схожую производительность, и только Due показала внушительный результат — она оказалась более чем в 10 раз быстрее остальных моделей.


Скорость арифметических операций

Для дальнейших исследований изменим только что использованный тест и вместо арифметики с длинными целыми протестируем быстродействие арифметики с вещественными числами. И те и другие занимают в памяти 32 бита, поэтому можно было бы ожидать, что время работы примера останется сопоставимым. В следующем тесте используем Arduino Uno.

// sketch 04_02_benchmark_float

void setup()

{

Serial.begin(9600);

while (! Serial) {};

Serial.println("Starting Test");

long startTime = millis();

// Далее следует код тестирования

long i = 0;

float j = 0.0;

for (i = 0; i < 20000000; i ++)

{

j = i + i * 10.0;

if (j > 10) j = 0.0;

}

// конец кода, выполняющего тестирование

long endTime = millis();

Serial.println(j); // чтобы предотвратить оптимизацию цикла компилятором

Serial.println("Finished Test");

Serial.print("Seconds taken: ");

Serial.println((endTime — startTime) / 1000l);

}

void loop()

{

}

К сожалению, с использованием вещественных чисел этот скетч выполняется намного дольше. Этот пример выполнялся в Arduino около 467 с вместо 28 с. То есть простая замена длинных целых чисел вещественными уменьшила скорость выполнения более чем в 16 раз. Справедливости ради следует заметить, что отчасти ухудшение обусловлено дополнительными операциями преобразования между значениями вещественных и целочисленных типов, которые также обходятся недешево в смысле времени выполнения.


Нужны ли вещественные числа в действительности?

Многие ошибочно полагают, что если измеряется такая характеристика, как температура, ее значение обязательно следует хранить в виде вещественного числа, потому что оно часто будет выражаться дробным числом, таким как 23,5. Вещественное число действительно может понадобиться, чтобы отобразить температуру, но ее необязательно хранить именно в таком виде.

Значения, прочитанные с аналоговых входов, имеют тип int, и на самом деле значимыми являются только 12 бит, что соответствует целым числам в диапазоне между 0 и 1023. При желании можно, конечно, сохранить эти 12 бит в 32-битном вещественном числе, но это никак не отразится на точности данных.

Значение, читаемое с датчика, может соответствовать, например, температуре в градусах Цельсия. Широко известный температурный датчик (TMP36) выводит напряжение, пропорциональное температуре. В скетчах, как показано далее, часто можно увидеть вычисления, преобразующие значение в диапазоне 0…1023, прочитанное с аналогового входа, в температуру в градусах Цельсия:

int raw = analogRead(sensePin);

float volts = raw / 205.0;

float tempC = 100.0 * volts — 50;

Но в действительности температура в виде вещественного числа нужна только тогда, когда требуется отобразить ее на экране. Другие операции с температурой, такие как сравнение или усреднение при нескольких попытках чтения, вполне можно выполнять с непреобразованным значением типа int, и при этом они будут выполняться значительно быстрее.


Поиск против вычисления

Как вы уже поняли, в скетчах вещественных чисел лучше избегать. Но как быть, если понадобится сгенерировать на аналоговом выходе сигнал синусоидальной формы, для чего, как можно догадаться, потребуется вычислять синус вызовом функции sin? Чтобы сформировать синусоидальный сигнал на аналоговом выходе, нужно обойти диапазон значений угла от 0 до 2 и вывести на аналоговый выход значение синуса этого угла. На самом деле все немного сложнее, потому что синусоиду нужно привести к диапазону значений, которые можно вывести на аналоговый выход.

Следующий пример генерирует синусоиду, разбивая каждый цикл на 64 шага, и выводит сигнал на аналоговый выход DAC0 платы Arduino Due. Имейте в виду, что для данного эксперимента годятся только платы Arduino с истинными аналоговыми выходами, такие как Due.

// sketch_-4_03_sin

void setup()

{

}

float angle = 0.0;

float angleStep = PI / 32.0;

void loop()

{

int x = (int)(sin(angle) * 127) + 127;

analogWrite(DAC0, x);

angle += angleStep;

if (angle > 2 * PI)

{

angle = 0.0;

}

}

Измерение на выходе показывает, что данный скетч действительно производит сигнал замечательной синусоидальной формы, но с частотой всего 310 Гц. Процессор на плате Arduino Due работает с тактовой частотой 80 МГц, поэтому можно было бы ожидать увидеть сигнал с большей частотой. Проблема в том, что здесь скетч снова и снова повторяет одни и те же вычисления. Но поскольку каждый раз получаются одни и те же результаты, почему бы просто не рассчитать их все сразу и не сохранить в массиве?

Следующий пример также генерирует синусоиду, разбивая цикл на 64 шага, но использует прием поиска по таблице заранее подготовленных значений, которые выводит непосредственно в цифроаналоговый преобразователь (ЦАП).

byte sin64[] = {127, 139, 151, 163, 175, 186, 197,

207, 216, 225, 232, 239, 244, 248, 251, 253, 254,

253, 251, 248, 244, 239, 232, 225, 216, 207, 197, 186,

175, 163, 151, 139, 126, 114, 102, 90, 78, 67, 56, 46,

37, 28, 21, 14, 9, 5, 2, 0, 0, 0, 2, 5, 9, 14, 21, 28,

37, 46, 56, 67, 78, 90, 102, 114, 126};

void setup()

{

}

void loop()

{

for (byte i = 0; i < 64; i++)

{

analogWrite(DAC0, sin64[i]);

}

}

Этот пример генерирует точно такой же сигнал в форме синусоиды, но уже с частотой 4,38 кГц, то есть работает более чем в 14 раз быстрее.

Таблицу синусов можно рассчитать разными способами. Можно сгенерировать числа по обычной формуле в электронной таблице или написать скетч, который будет выводить числа в монитор последовательного порта, откуда их можно скопировать и вставить в другой скетч. Далее приводится версия скетча sketch_04_03_sin, которая выводит значения один раз в монитор последовательного порта:

// sketch_-4_05_sin_print

float angle = 0.0;

float angleStep = PI / 32.0;

void setup()

{

Serial.begin(9600);

Serial.print("byte sin64[] = {");

while (angle < 2 * PI)

{

int x = (int)(sin(angle) * 127) + 127;

Serial.print(x);

angle += angleStep;

if (angle < 2 * PI)

{

Serial.print(", ");

}

}

Serial.println("};");

}

void loop()

{

}

Открыв окно монитора порта, вы увидите сгенерированную последовательность чисел (рис. 4.1).


Рис. 4.1. Использование скетча для получения массива чисел


Быстрый ввод/вывод

В этом разделе мы посмотрим, как увеличить скорость включения и выключения цифровых выходов. Мы увеличим максимальную частоту с 73 кГц почти до 4 МГц.


Простая оптимизация кода

Начнем с простого кода, включающего и выключающего цифровой выход с помощью digitalWrite:

// sketch_04_05_square

int outPin = 10;

int state = 0;

void setup()

{

pinMode(outPin, OUTPUT);

}

void loop()

{

digitalWrite(outPin, state);

state = ! state;

}

Если запустить этот скетч и подключить осциллограф или частотомер к цифровому контакту 10, вы получите частоту чуть выше 73 кГц (мой осциллограф показал 73,26 кГц).

Прежде чем сделать большой шаг в направлении непосредственного управления портом, можно попробовать немного оптимизировать программный код скетча. Прежде всего, ни одна из переменных не обязана иметь тип int, их вполне можно объявить с типом byte. Это изменение увеличит частоту до 77,17 кГц. Далее переменную с номером контакта можно сделать константой, добавив слово const перед объявлением переменной. Это изменение увеличит частоту до 77,92 кГц.

В главе 2 вы узнали, что функция loop — это не просто цикл while, так как дополнительно проверяет наличие входящих данных в последовательном порте. То есть следующим шагом в направлении увеличения производительности может стать отказ от функции loop и перенос кода в setup. Скетч, в котором выполнены все описанные изменения, приводится ниже:

// sketch_04_08_no_loop

const byte outPin = 10;

byte state = 0;

void setup()

{

pinMode(outPin, OUTPUT);

while (true)

{

digitalWrite(outPin, state);

state = ! state;

}

}

void loop()

{

}

В результате всего этого мы получили увеличение максимальной частоты до 86,39 кГц.

В табл. 4.2 перечислены все улучшения, которые можно выполнить для увеличения производительности простого программного кода, прежде чем сделать последний шаг и заменить digitalWrite чем-нибудь более быстрым.


Таблица 4.2. Увеличение производительности простого программного кода

Действие Скетч Частота, кГц
Исходная версия 04_05 72,26
Объявление с типом byte вместо int 04_06 77,17
Использование константы с номером контакта вместо переменной 04_07 77,92
Перенос содержимого loop в setup 04_08 86,39

Байты и биты

Прежде чем переходить к непосредственному управлению портами ввода/вывода, нужно сначала разобраться с двоичным представлением, битами, байтами и целыми числами.

На рис. 4.2 показано, как связаны биты и байты.


Рис. 4.2. Биты и байты


Бит (в английском языке bit, происходит от binary digit — двоичная цифра) может иметь одно из двух значений — 0 или 1. Байт — это коллекция из 8 битов. Так как каждый из битов в байте может иметь значение 1 или 0, всего возможно 256 разных комбинаций битов в байте. Байт можно использовать для представления любых чисел в диапазоне от 0 до 255.

Каждый бит можно использовать также для обозначения состояния «включено» или «выключено». То есть, чтобы включить или выключить подачу напряжения на какой-то контакт, нужно установить или сбросить некоторый бит.


Порты в ATmega328

На рис. 4.3 изображены порты в микроконтроллере ATmega328 и то, как они связаны с контактами на плате Arduino Uno.


Рис. 4.3. Порты в ATmega328


Каждый порт не случайно имеет по 8 бит (байт), хотя в портах B и C используется только по 6 бит. Каждый порт управляется тремя регистрами. Регистр можно считать специальной переменной, позволяющей присваивать ей значения и читать значение из нее. На рис. 4.4 изображены регистры для порта D.


Рис. 4.4. Регистры для порта D


Регистр DDRD (Data Direction Register D — регистр D направления передачи данных) имеет 8 бит, каждый из которых определяет режим работы соответствующего контакта — вход или выход. Если бит установлен в значение 1, контакт работает как выход, в противном случае — как вход. Этим регистром управляет функция pinMode. Регистр PORTD используется для установки выходного напряжения на выходе, то есть digitalWrite устанавливает соответствующий бит, 1 или 0, чтобы установить на указанном контакте уровень напряжения HIGH или LOW.

Последний регистр называется PIND (Port Input D — вход порта D). Читая содержимое этого регистра, можно определить, на какие контакты подано напряжение HIGH, а на какие — LOW.

Каждый из трех портов имеет свои три регистра, для порта B они называются DDRB, PORTB и PINB, а для порта C — DDRC, PORTC и PINC.


Очень быстрый вывод цифровых сигналов

Следующий скетч обращается к портам напрямую, без применения pinMode и digitalWrite:

// sketch_04_09_square_ports

byte state = 0;

void setup()

{

DDRB = B00000100;

while (true)

{

PORTB = B00000100;

PORTB = B00000000;

}

}

void loop()

{

}

Скетч должен переключать контакт D10, который связан с портом B, поэтому вначале контакт настраивается на работу в режиме выхода, для чего третий бит справа в регистре DDRB устанавливается в 1. Обратите внимание на то, что B00000100 — это двоичная константа. В главном цикле мы сначала устанавливаем тот же бит в 1, а затем сбрасываем его в 0. Установка бита производится как простое присваивание значения регистру PORTB, как если бы это была обычная переменная.

Этот скетч способен генерировать сигнал с частотой 3,97 МГц (рис. 4.5) — почти 4 млн импульсов в секунду, что почти в 46 раз быстрее, чем с использованием digitalWrite.


Рис. 4.5. Сигнал с частотой 4 МГц, сгенерированный платой Arduino


Сигнал далек от прямоугольной формы из-за переходных процессов, которые вполне ожидаемы на такой частоте.

Еще одно преимущество непосредственного использования регистров порта — возможность вывода сигналов сразу на восемь контактов, что может пригодиться для вывода данных в параллельную шину данных.


Быстрый ввод цифровых сигналов

Тот же прием непосредственного доступа к регистрам можно использовать для увеличения скорости ввода цифровых сигналов. Хотя, если вы предполагаете таким способом определять моменты появления очень коротких импульсов, подумайте о возможности использования прерываний, они являются лучшим решением этой задачи (см. главу 3).

Прямой доступ к порту может пригодиться, например, когда требуется прочитать состояние сразу нескольких контактов. Следующий скетч читает все контакты, связанные с портом B (с D8 по D13), и выводит результат в монитор последовательного порта в виде двоичного числа (рис. 4.6).


Рис. 4.6. Чтение состояния сразу восьми контактов


// sketch_04_010_direct_read

byte state = 0;

void setup()

{

DDRB = B00000000; // все контакты на ввод

Serial.begin(9600);

}

void loop()

{

Serial.println(PINB, 2);

delay(1000);

}

Сбросом всех битов в регистре DDRB в 0 соответствующие контакты на плате настраиваются на работу в режиме входов. В цикле вызывается функция Serial.println, которая посылает число в монитор последовательного порта. Чтобы число посылалось в двоичной форме, а не в десятичной, как обычно, передается дополнительный аргумент 2.


Увеличение скорости ввода аналоговых сигналов

Давайте изменим скетч, который выполняет хронометраж, чтобы узнать, как долго работает analogRead, а потом попробуем ее ускорить:

// sketch 04_11_analog

void setup()

{

Serial.begin(9600);

while (! Serial) {};

Serial.println("Starting Test");

long startTime = millis();

// Далее следует код тестирования

long i = 0;

for (i = 0; i < 1000000; i ++)

{

analogRead(A0);

}

// конец кода, выполняющего тестирование

long endTime = millis();

Serial.println("Finished Test");

Serial.print("Seconds taken: ");

Serial.println((endTime — startTime) / 1000l);

}

void loop()

{

}

На плате Arduino Uno этот скетч выполняется 112 с. То есть Uno выполняет в секунду около 9000 операций чтения аналоговых сигналов.

Функция analogRead использует АЦП, имеющийся в микроконтроллере на плате Arduino. В Arduino используется тип АЦП, который называют АЦП с последовательной аппроксимацией. Он действует методом постепенного приближения, сравнивая аналоговый сигнал с опорным напряжением. АЦП управляется таймером, поэтому есть возможность ускорить преобразование, увеличив частоту.

Следующий скетч увеличивает частоту АЦП со 128 кГц до 1 МГц, что должно увеличить скорость чтения в восемь раз:

// sketch 04_11_analog_fast

const byte PS_128 = (1 << ADPS2) | (1 << ADPS1) | (1 << ADPS0);

const byte PS_16 = (1 << ADPS2);

void setup()

{

ADCSRA &= ~PS_128; // сбросить масштаб 128

ADCSRA |= PS_16; // добавить масштаб 16 (1 МГц)

Serial.begin(9600);

while (! Serial) {};

Serial.println(PS_128, 2);

Serial.println(PS_16, 2);

Serial.println("Starting Test");

long startTime = millis();

// Далее следует код тестирования

long i = 0;

for (i = 0; i < 1000000; i ++)

{

analogRead(A0);

}

// конец кода, выполняющего тестирование

long endTime = millis();

Serial.println("Finished Test");

Serial.print("Seconds taken: ");

Serial.println((endTime — startTime) / 1000l);

}

void loop()

{

}

Теперь скетч выполняется всего 17 с, то есть, грубо, в 6,5 раза быстрее, а скорость измерений увеличилась до 58 000 в секунду. Этого вполне достаточно для оцифровки аудиосигнала, хотя при наличии всего 2 Кбайт ОЗУ вы не сможете записать большой фрагмент!

Если первоначальный вариант скетча sketch_04_11_analog запустить в Arduino Due, он справится с работой за 39 с. Однако в модели Due не получится использовать трюк с регистрами портов, так как она имеет совсем другую архитектуру.


В заключение

В этой главе мы попытались выжать все до последней капли из наших скудных 16 МГц. В следующей главе переключим внимание на снижение потребления электроэнергии платой Arduino, что очень важно для проектов, где плату предполагается питать от аккумуляторов или солнечных батарей.


Загрузка...