Белых А.А., Гревцев А.М., Тюрин С.Ф., Харитонов В.А.,
г. Пермь

УДК 681.142, 517.987

ПОВЫШЕНИЕ ОТКАЗОСБОЕУСТОЙЧИВОСТИ ЦИФРОВЫХ ЭЛЕМЕНТОВ
И УЗЛОВ НА ОСНОВЕ АДАПТАЦИИ К ФУНКЦИОНАЛЬНЫМ ОТКАЗАМ

(презентация)

В статье предлагается новый подход к обеспечению отказа сбоеустойчивости цифровых элементов и узлов на основе адаптации к функциональным отказам путём реализации соответствующими программируемыми логическими устройствами в катастрофических ситуациях заданного множества функций с пониженной производительностью.

Повышение отказосбоеустойчивости цифровых элементов и узлов (ЦУ) и цифровой аппаратуры (ЦА) управления сложных технических комплексов, работающих в реальном масштабе времени, является одним из аспектов проблемы надежности и качества ее функционирования. Актуальность этой задачи возрастает по мере развития элементной базы, усложнения самой цифровой аппаратуры управления и внедрения ее во все отрасли национального хозяйства (авиацию, космонавтику, атомную энергетику и т.п.).

Существующие методы обеспечения отказосбоеустойчивости цифровой аппаратуры (ЦА) информационно-технологических систем, как правило, основаны на структурном резервировании, являющемся своего рода "внешним" для каждого из резервированных каналов и заключающемся во введении дополнительных копий ЦА, что обеспечивает с определенной вероятностью сохранение исходных функций. Это более чем в 3 раза увеличивает стоимость, массогабаритные показатели, энергопотребление. Кроме того, резервы сами "провоцируют" отказы, и такие методы эффективны на относительно небольшом временном интервале работы аппаратуры.

В последние годы поставлена задача разработки компьютеров высокой надежности, в которых рабочие, контрольные и восстановительные процессы составляют единое целое, которые могут функционировать без технического обслуживания и ремонта в течение всего срока эксплуатации, обладать способностью самовосстановления, адаптации к отказам и повреждениям, например, путем отключения пораженных участков и реализации требуемых функций на оставшемся количестве элементов с возможным допустимым замедлением скорости. Тем более что уже созданы технологические предпосылки для создания таких высоконадежных "живучих" систем.

Так, в связи с широким распространением универсальных программируемых логических устройств (ПЛУ), которые могут реконфигурироваться, т.е. изменять функции элементов и связи между ними, в процессе эксплуатации возникают новые возможности для построения отказоустойчивых цифровых автоматов как элементной базы этих новых систем. Предлагается создавать "живучие" информационно-технологические системы путем сохранения хотя бы базисных функций для заданной модели отказов, позволяющих вычислять исходные за большее время после соответствующей реконфигурации.

С целью обеспечения сбоеустойчивости, особенно актуальной при повышении уровня интеграции микросхем, наиболее целесообразным представляется сохранение резервированных (например, троированных) структур при отказах резервов в катастрофических ситуациях путем перестройки их на основе сохранения универсальности технических комплексов, работающей в реальном масштабе времени, является одним из аспектов проблемы надежности и качества ее функционирования.

Существующие методы пассивной отказоустойчивости, использующие мажоритирование (выбор "два из трех", "три из пяти" и т.д.) обеспечивают повышение вероятности безотказной работы, например, в соответствие со следующим выражениям:

, (1)

где р2из3х – вероятность безотказной работы цифрового узла (ЦУ) с выбором "два из трех", р1 – вероятность безотказной работы одного канала ЦУ.

Выражение (1) учитывает допущение о безотказности средств восстановления (мажоритарных органов). При реализации (1) время адаптации равно нулю, аппаратура "не замечает" отказы в одном канале, одновременно устраняются и сбои в одном из каналов. Такую адаптацию к функциональным отказам можно оценить предлагаемым показателем – коэффициентом адаптации

, (2)

который представляет собой отношение вероятности адаптации, т.е. вероятности возникновения отказов пригодного для адаптации вида к вероятности любых отказов.

Некоторые системы имеют возможность фиксации отказов в одном из каналов с перестройкой в двухканальный режим, позволяющий фиксировать отказы (сбои) с последующей возможной перестройкой в одноканальный режим. В ряде случаев для этого необходима уже активная отказоустойчивость, дополнительное время для диагностирования. Вероятность безотказной работы такой системы с выбором одного канала из трех описывается выражением

р1из3х = 1-(1-р1)3, (3)

а коэффициент адаптации

. (4)

Избежать дополнительных временных затрат и повысить вероятность безотказной работы ЦУ позволяет так называемое "глубокое мажоритирование", обеспечивающее выбор "два из трех" каждой троированной функции каждого узла, содержащего определенное количество микросхем:

, (5)

где ргм – вероятность безотказной работы глубоко мажоритированной аппаратуры; рфji – вероятность безотказной работы аппаратуры вычисления i-ой функции j-го узла; nj - число функций в j-ом узле; r - число узлов.

Тогда коэффициент адаптации имеет вид:

 . (6)

Исследования показывают предпочтительность глубокого мажоритирования даже перед системами с выбором "один из трех" при высокой вероятности отказов. При относительно низкой вероятности отказов р1из3х и ка1из3х становятся выше значений ргм и каг.м. Однако, при очень высокой вероятности отказов в катастрофических ситуациях вероятность сохранения трехканальной структуры становятся неудовлетворительной. Предлагается ее восстановление на основе так называемого замещения аппаратуры, аналогичной замещению отказавших процессоров работоспособными в многопроцессорных системах (транспьютерах) с активной отказоустойчивостью. Таковое замещение может быть внешним с коэффициентом адаптации в одном узле вида:

, (7)

где π – число функций, ω – показатель степени деления аппаратуры при замещении, – число перестановок из ω по j.

Поскольку организация замещения требует дополнительных аппаратурных затрат, то должна быть учтена и ее вероятность безотказной работы, например, в виде вероятности рдоп.

В качестве альтернативного подхода можно предложить внутреннее замещение для каждой функции, т.е. реализация ее на части собственной аппаратуры с коэффициентом адаптации вида:

 . (8)

В этом случае числители выражений (7), (8) представляют собой прирост вероятности безотказной работы для схемы с адаптацией. Как показывает анализ литературы, в настоящее время научно-методический аппарат синтеза ЦУ, обладающей способностью предложенной адаптации, отсутствует. В рамках методов структурного резервирования увеличение вероятности безотказной работы возможно путем увеличения вероятности безотказной работы каждого канала и количества резервов (переход к структуре "три из пяти"), что все равно не обеспечивает работоспособность при отказах всех каналов или требуемого для мажоритирования количества каналов.

Преодоление этого противоречия заключается в разработке цифровой аппаратуры, способной адаптироваться к функциональным отказам и сохранять резервированную структуру.

Предложенная выше адаптация к отказам предполагает работу ЦУ в одном режиме, поэтому задачей может считаться максимизация вероятности безотказной работы при заданных ограничениях и условиях эксплуатации. В случае работы ЦУ в нескольких режимах с возможным восстановлением ее состояние описывается марковской (полумарковской) моделью, и в качестве показателя должен использоваться коэффициент готовности:

 . (9)

В выражении (9) μ0 – интенсивность восстановления из состояния отказа в состояние исходной готовности ЦУ; λ0 – интенсивность перехода в состояние отказа; λ1 интенсивность перехода в состояние дополнительной готовности ЦУ с пониженной производительностью; λ2 – интенсивность перехода из состояния дополнительной готовности в состояние отказа.

Выражение (9) может использоваться для ориентировочной оценки изменений кг при синтезе адаптируемой к функциональным отказам цифровой аппаратуры

Предложим модифицированный граф изменения состояний одноканального ЦУ с учетом возможности деградации в случае отказов (см. рисунок).

Здесь Рi.1 – состояние отсутствия сбоев, встроенные средства контроля не фиксируют их наличие; Рi.2 – состояние наличия сбоя, когда и встроенные средства контроля их фиксируют; Pi.3 – состояние скрытого сбоя, то есть незафиксированного средствами контроля; mБ – интенсивность восстановления; lсб – интенсивность сбоев; l – полнота контроля; i – уровень деградации производительности ЦУ, адаптируемого к функциональным отказам.

При этом принимаются следующие допущения, соответствующие положениям теории
надежности:

Очевидно, что система может находится только в одном из состояний.

Для повышения вероятности выполнения ЦУ этапов работы необходимо обеспечить максимальную достоверность функционирования:

, (10)

где Hi – нормировочные вероятности нахождения ЦУ на i-м уровне деградации, 1 – исходный уровень с исходной производительностью, ; Р1 – состояние отсутствия сбоев, Р2 – состояние обнаруженного сбоя.

Достижение этой цели будем стремиться путем увеличения полноты контроля l , что позволяет быстрее обнаружить сбой, приведший к нарушению передачи управления, а, значит, и увеличить интенсивность восстановления mв.

В свою очередь, увеличение полноты контроля l может привести к увеличению интенсивности отказов l (т.е. ускорить деградацию) и сбоев за счет введения дополнительной аппаратуры, увеличивает объем памяти и время выполнения команд, а процедуры восстановления не должны превышать заданных временных ограничений.

Возможны следующие варианты контроля по типу модификации системного программного обеспечения.

1. Использование одного типа программ – с контролем, тогда затраты памяти равны W+Wk, где W – исходный объем памяти, Wk – дополнительный объем памяти контрольных процедур, временные затраты, например, по максимальной длительности выполнения программы Т+Тk, где Т – исходная длительность, Тk – дополнительное время для контрольных процедур.

2. Использование программы без контроля в резервированной структуре и программ с контролем при работе в одноканальном варианте: 2W+Wk, Т, Т+Тk.

3. Использование компиляции для введения контроля в случае перехода в одноканальную структуру с затратами памяти:

Wкомп, W, W+Wкомп+Wk, Т, Ткомп, Т+Тконтр.

В случае аппаратной реализации контроля необходимо учесть дополнительные аппаратурные затраты А. Кроме того, учитываются стоимостные ограничения С.

Достоверность функционирования системы, описываемой графом (рис.1), является функцией параметров графа:

D = f(l,lсбi(t),mвi(t)). (11)

Непосредственную связь D, T, A, W в некотором одном выражении найти не представляется возможным, поэтому целесообразен вариантный синтез средств контроля с последующим Парето (Pareto) оптимизацией при заданных ограничениях Тдоп, Адоп, Wдоп, Сдоп:

Pareto (D, DT, DA, DW),

lсбi(t) = j(A+DW), mвi(t) = y(T+DT),

. (12)

Литература

  1. Тюрин С.Ф., Харченко В.С., Тимонькин Г.Н., Мельников В.А. Программно-аппаратная реализация логических алгоритмов в микропроцессорных системах // Зарубежная радиоэлектроника. – 1992. – № 2. – С. 24 – 36.
  2. Тюрин С.Ф., Тимонькин Г.Н., Харченко В.С. Методы аппаратной поддержки логических алгоритмов в микропроцессорных системах // Управляющие системы и машины. – 1993. – № 1. – С.55 – 63.
  3. Тюрин С.Ф. Функционально-полные толерантные булевы функции // Наука и технология в России. – 1998. – № 4. – С. 7 – 10.
  4. Тюрин С.Ф. Синтез адаптируемой к отказам цифровой аппаратуры с резервированием базисных функций // Приборостроение. – 1999. – № 1. – С. 36 – 39.
  5. Тюрин С.Ф. Адаптация к отказам одновыходных схем на генераторах функций с функционально-полными толерантными элементами // Приборостроение. – 1999. – № 7. – С. 32 – 34.
  6. Тюрин С.Ф. Проблема сохранения функциональной полноты булевых функций при «отказах» аргументов // Автоматика и телемеханика. – 1999. – № 9. – С.176 – 186.
  7. Тюрин С.Ф., Несмелов В.А., Харитонов В.А. и другие. Программируемое логическое устройство. – Патент РФ № 2146840. Опубл. БИ № 8, 2000 г.
  8. Тюрин С.Ф. и другие. Система для программного управления технологическим оборудованием. – Патент РФ №2189623. Опубл. БИ № 26, 2002 г.
  9. Харитонов В.А. Основы теории живучести функционально избыточных систем. Препринт № 170. РАН.- Санкт-Петербург, 1993.– С.60.