Белых А.А., Гревцев А.М., Тюрин С.Ф., Харитонов В.А.,
г. Пермь
УДК 681.142, 517.987
ПОВЫШЕНИЕ ОТКАЗОСБОЕУСТОЙЧИВОСТИ ЦИФРОВЫХ ЭЛЕМЕНТОВ
И УЗЛОВ НА ОСНОВЕ АДАПТАЦИИ К ФУНКЦИОНАЛЬНЫМ ОТКАЗАМ
В статье предлагается новый подход к обеспечению отказа сбоеустойчивости цифровых элементов и узлов на основе адаптации к функциональным отказам путём реализации соответствующими программируемыми логическими устройствами в катастрофических ситуациях заданного множества функций с пониженной производительностью.
Повышение отказосбоеустойчивости цифровых элементов и узлов (ЦУ) и цифровой аппаратуры (ЦА) управления сложных технических комплексов, работающих в реальном масштабе времени, является одним из аспектов проблемы надежности и качества ее функционирования. Актуальность этой задачи возрастает по мере развития элементной базы, усложнения самой цифровой аппаратуры управления и внедрения ее во все отрасли национального хозяйства (авиацию, космонавтику, атомную энергетику и т.п.).
Существующие методы обеспечения отказосбоеустойчивости цифровой аппаратуры (ЦА) информационно-технологических систем, как правило, основаны на структурном резервировании, являющемся своего рода "внешним" для каждого из резервированных каналов и заключающемся во введении дополнительных копий ЦА, что обеспечивает с определенной вероятностью сохранение исходных функций. Это более чем в 3 раза увеличивает стоимость, массогабаритные показатели, энергопотребление. Кроме того, резервы сами "провоцируют" отказы, и такие методы эффективны на относительно небольшом временном интервале работы аппаратуры.
В последние годы поставлена задача разработки компьютеров высокой надежности, в которых рабочие, контрольные и восстановительные процессы составляют единое целое, которые могут функционировать без технического обслуживания и ремонта в течение всего срока эксплуатации, обладать способностью самовосстановления, адаптации к отказам и повреждениям, например, путем отключения пораженных участков и реализации требуемых функций на оставшемся количестве элементов с возможным допустимым замедлением скорости. Тем более что уже созданы технологические предпосылки для создания таких высоконадежных "живучих" систем.
Так, в связи с широким распространением универсальных программируемых логических устройств (ПЛУ), которые могут реконфигурироваться, т.е. изменять функции элементов и связи между ними, в процессе эксплуатации возникают новые возможности для построения отказоустойчивых цифровых автоматов как элементной базы этих новых систем. Предлагается создавать "живучие" информационно-технологические системы путем сохранения хотя бы базисных функций для заданной модели отказов, позволяющих вычислять исходные за большее время после соответствующей реконфигурации.
С целью обеспечения сбоеустойчивости, особенно актуальной при повышении уровня интеграции микросхем, наиболее целесообразным представляется сохранение резервированных (например, троированных) структур при отказах резервов в катастрофических ситуациях путем перестройки их на основе сохранения универсальности технических комплексов, работающей в реальном масштабе времени, является одним из аспектов проблемы надежности и качества ее функционирования.
Существующие методы пассивной отказоустойчивости, использующие мажоритирование (выбор "два из трех", "три из пяти" и т.д.) обеспечивают повышение вероятности безотказной работы, например, в соответствие со следующим выражениям:
, (1)
где р2из3х – вероятность безотказной работы цифрового узла (ЦУ) с выбором "два из трех", р1 – вероятность безотказной работы одного канала ЦУ.
Выражение (1) учитывает допущение о безотказности средств восстановления (мажоритарных органов). При реализации (1) время адаптации равно нулю, аппаратура "не замечает" отказы в одном канале, одновременно устраняются и сбои в одном из каналов. Такую адаптацию к функциональным отказам можно оценить предлагаемым показателем – коэффициентом адаптации
, (2)
который представляет собой отношение вероятности адаптации, т.е. вероятности возникновения отказов пригодного для адаптации вида к вероятности любых отказов.
Некоторые системы имеют возможность фиксации отказов в одном из каналов с перестройкой в двухканальный режим, позволяющий фиксировать отказы (сбои) с последующей возможной перестройкой в одноканальный режим. В ряде случаев для этого необходима уже активная отказоустойчивость, дополнительное время для диагностирования. Вероятность безотказной работы такой системы с выбором одного канала из трех описывается выражением
р1из3х = 1-(1-р1)3, (3)
а коэффициент адаптации
. (4)
Избежать дополнительных временных затрат и повысить вероятность безотказной работы ЦУ позволяет так называемое "глубокое мажоритирование", обеспечивающее выбор "два из трех" каждой троированной функции каждого узла, содержащего определенное количество микросхем:
, (5)
где ргм – вероятность безотказной работы глубоко мажоритированной аппаратуры; рфji – вероятность безотказной работы аппаратуры вычисления i-ой функции j-го узла; nj - число функций в j-ом узле; r - число узлов.
Тогда коэффициент адаптации имеет вид:
. (6)
Исследования показывают предпочтительность глубокого мажоритирования даже перед системами с выбором "один из трех" при высокой вероятности отказов. При относительно низкой вероятности отказов р1из3х и ка1из3х становятся выше значений ргм и каг.м. Однако, при очень высокой вероятности отказов в катастрофических ситуациях вероятность сохранения трехканальной структуры становятся неудовлетворительной. Предлагается ее восстановление на основе так называемого замещения аппаратуры, аналогичной замещению отказавших процессоров работоспособными в многопроцессорных системах (транспьютерах) с активной отказоустойчивостью. Таковое замещение может быть внешним с коэффициентом адаптации в одном узле вида:
, (7)
где π – число функций, ω – показатель степени деления аппаратуры
при замещении,
– число перестановок из ω по j.
Поскольку организация замещения требует дополнительных аппаратурных затрат, то должна быть учтена и ее вероятность безотказной работы, например, в виде вероятности рдоп.
В качестве альтернативного подхода можно предложить внутреннее замещение для каждой функции, т.е. реализация ее на части собственной аппаратуры с коэффициентом адаптации вида:
. (8)
В этом случае числители выражений (7), (8) представляют собой прирост вероятности безотказной работы для схемы с адаптацией. Как показывает анализ литературы, в настоящее время научно-методический аппарат синтеза ЦУ, обладающей способностью предложенной адаптации, отсутствует. В рамках методов структурного резервирования увеличение вероятности безотказной работы возможно путем увеличения вероятности безотказной работы каждого канала и количества резервов (переход к структуре "три из пяти"), что все равно не обеспечивает работоспособность при отказах всех каналов или требуемого для мажоритирования количества каналов.
Преодоление этого противоречия заключается в разработке цифровой аппаратуры, способной адаптироваться к функциональным отказам и сохранять резервированную структуру.
Предложенная выше адаптация к отказам предполагает работу ЦУ в одном режиме, поэтому задачей может считаться максимизация вероятности безотказной работы при заданных ограничениях и условиях эксплуатации. В случае работы ЦУ в нескольких режимах с возможным восстановлением ее состояние описывается марковской (полумарковской) моделью, и в качестве показателя должен использоваться коэффициент готовности:
. (9)
В выражении (9) μ0 – интенсивность восстановления из состояния отказа в состояние исходной готовности ЦУ; λ0 – интенсивность перехода в состояние отказа; λ1 – интенсивность перехода в состояние дополнительной готовности ЦУ с пониженной производительностью; λ2 – интенсивность перехода из состояния дополнительной готовности в состояние отказа.
Выражение (9) может использоваться для ориентировочной оценки изменений кг при синтезе адаптируемой к функциональным отказам цифровой аппаратуры
Предложим модифицированный граф изменения состояний одноканального ЦУ с учетом возможности деградации в случае отказов (см. рисунок).
Здесь Рi.1 – состояние отсутствия сбоев, встроенные средства контроля не фиксируют их наличие; Рi.2 – состояние наличия сбоя, когда и встроенные средства контроля их фиксируют; Pi.3 – состояние скрытого сбоя, то есть незафиксированного средствами контроля; mБ – интенсивность восстановления; lсб – интенсивность сбоев; l – полнота контроля; i – уровень деградации производительности ЦУ, адаптируемого к функциональным отказам.
При этом принимаются следующие допущения, соответствующие положениям
теории
надежности:
Очевидно, что система может находится только в одном из состояний.
Для повышения вероятности выполнения ЦУ этапов работы необходимо обеспечить максимальную достоверность функционирования:
, (10)
где Hi – нормировочные вероятности нахождения ЦУ на i-м уровне
деградации, 1 – исходный уровень с исходной производительностью,
; Р1 – состояние отсутствия сбоев, Р2 – состояние
обнаруженного сбоя.
Достижение этой цели будем стремиться путем увеличения полноты контроля l , что позволяет быстрее обнаружить сбой, приведший к нарушению передачи управления, а, значит, и увеличить интенсивность восстановления mв.
В свою очередь, увеличение полноты контроля l может привести к увеличению интенсивности отказов l (т.е. ускорить деградацию) и сбоев за счет введения дополнительной аппаратуры, увеличивает объем памяти и время выполнения команд, а процедуры восстановления не должны превышать заданных временных ограничений.
Возможны следующие варианты контроля по типу модификации системного программного обеспечения.
1. Использование одного типа программ – с контролем, тогда затраты памяти равны W+Wk, где W – исходный объем памяти, Wk – дополнительный объем памяти контрольных процедур, временные затраты, например, по максимальной длительности выполнения программы Т+Тk, где Т – исходная длительность, Тk – дополнительное время для контрольных процедур.
2. Использование программы без контроля в резервированной структуре и программ с контролем при работе в одноканальном варианте: 2W+Wk, Т, Т+Тk.
3. Использование компиляции для введения контроля в случае перехода в одноканальную структуру с затратами памяти:
Wкомп, W, W+Wкомп+Wk, Т, Ткомп, Т+Тконтр.
В случае аппаратной реализации контроля необходимо учесть дополнительные аппаратурные затраты А. Кроме того, учитываются стоимостные ограничения С.
Достоверность функционирования системы, описываемой графом (рис.1), является функцией параметров графа:
D = f(l,lсбi(t),mвi(t)). (11)
Непосредственную связь D, T, A, W в некотором одном выражении найти не представляется возможным, поэтому целесообразен вариантный синтез средств контроля с последующим Парето (Pareto) оптимизацией при заданных ограничениях Тдоп, Адоп, Wдоп, Сдоп:
Pareto (D, DT, DA, DW),
lсбi(t) = j(A+DW), mвi(t) = y(T+DT),
. (12)
Литература