ISO26262中对硬件安全性的定性和定量评估
硬件随机失效概率度量的存在原因
ISO26262中一种评估ASIL B级以上硬件安全功能的定性和定量的方法,即硬件架构度量,这是一种用于评估硬件架构对安全相关的随机失效探测和控制能力的评估。
从其单位来看,硬件架构度量是一种比例含义,即硬件架构能够解决安全相关故障的比例,而非绝对值。这显然是一种片面的评估:若硬件失效率极高,即使被测试方采用了多种手段,使故障的探测和控制比例达到了ASIL等级要求,但残余和潜伏故障率还是较高,这个评估结果依然无法满足用户对日常汽车安全的要求。
因此ISO26262中对相关项的硬件失效率水平也给出了评估方法,这就是“硬件随机失效概率度量(Probabilistic Metric of for random Hardware Failures-PMHF)”。
PMHF是用于评估硬件随机故障导致违背安全目标的残余风险足够低的方法之一,描述为相关项整个运行生命周期内每小时的平均概率,因此PMHF的单位与故障率单位一致,均为FIT,1FIT=10-9/h。
随机硬件失效概率度量的评估
随机硬件失效概率度量的评估数据来源于硬件架构度量的评估,即测试方需要明确:硬件随机失效的类别,失效机制的诊断和控制的覆盖率,最终计算出相应的硬件失效率。
需要说明的是,虽然随机硬件失效概率度量也是失效率的单位,但是和真实的硬件失效率有区别:真实的硬件失效率是用来衡量硬件本身的失效行为,具有很重要的物理意义,而PHMF值不具备绝对意义,其本身是在一系列假设和预设下进行的换算,但是其来源于硬件失效率。PMHF只是用于评估硬件故障造成违背安全目标的大和小,可以评估硬件架构的安全等级,以及用来衡量新设计与现有设计在实现安全目标能力上的差异。
以2阶故障的随机硬件失效率为例:假设故障A的失效率为λA(瞬时失效率),故障B的失效率为λB(瞬时失效率)。2阶故障意味着,只有当A和B故障同时发生时才会违背安全目标,那么2阶故障的失效概率如何计算呢?
根据失效概率的定义Prob(t≤Tlifetime)≌λxTlifetime,则对于A故障其在整个整车寿命时间Tlifetime内的发生概率为ProbA(t≤Tlifetime)≌λAxTlifetime,同理B故障其在整个整车寿命时间Tlifetime内的发生概率为ProbB(t≤Tlifetime)≌λBxTlifetime,则2阶故障发生概率为ProbA(t≤Tlifetime) xProbB(t≤Tlifetime)≌λAxλBxTlifetime2,按照PMHF定义,单位时间内2阶发生的概率为ProbA(t≤Tlifetime) xProbB(t≤Tlifetime)/Tlifetime=λAxλBxTlifetime。
通过上述推到过程可见,对于单点故障,其PMHFSPF等于硬件单点故障率λSPF,同理对于残余故障,其PMHFRF等于残余故障率λRF。
了解随机硬件故障度量方法后,我们就可以利用硬件架构度量的数据,获得待评估的硬件架构违背安全目标的残余风险的大小。
对计算获得的随机失效概率度量与ASIL定义的个目标值进行比较,评估硬件违背安全目标的残余或潜在风险是否足够低,如下表所示,该表内的目标值是标准给出的推荐值,评估时也可采用现场数据,其他的定量分析数据。
随机硬件失效目标值
| ASIL B | ASIL C | ASIL D |
PMHF | <100FIT | <100FIT | <10FIT |
我们通过对硬件架构度量的分析可以得出,ISO26262对单点故障和残余故障的容忍度是极低的,如对于残余故障的诊断率要达到90%以上,几乎不允许存在单点故障,即没有任何安全机制监控和控制的故障。那么真实情况下,对某个硬件架构分析时确实出现:
a.存在单点故障
b.残余故障度量低于90%,即甚至无法满足ASILB的最低要求
ISO26262指出需要进行“对违背安全目标的每个原因进行评估(Evaluation of Each Cause of safety goal violation-EEC)”,目的是分析:
a.单点故障的失效率等级是否低于ASIL等级规定的失效率等级
b.残余故障的失效率等级和故障覆盖率分析是否符合ASIL等级的要求
c.双点故障的故障率等级和相应的诊断覆盖率是否符合ASIL等级的要求
对于某些ASIL等级,及时故障失效率和故障覆盖率达到相应的要求,也要采取必要的措施对单点故障和残余故障进行控制,称为“专用措施”,专用措施包括:
a.优化设计,比如采用冗余,隔离等技术;
b.对来料强化质量一致性控制,如采用破坏性物理分析(抽样),抽样测试等手段,降低物料潜在缺陷对失效率的贡献;
c.老化测试,通过24-96小时的动态老化测试,保证早期失效产品能够得到充分的暴露和筛除,提升产品批次性可靠性;
d.其他特殊的控制方法
e.重新分配安全相关特性
单点故障的硬件元器件失效率等级目标
| ASIL B | ASIL C | ASIL D |
失效率等级 | 0.1 FIT 或 1 FIT | 0.1 FIT 或 采用专用措施下可放宽到1 FIT | 0.1 FIT 同时要有相应的专用措施 |
当给定硬件元器件残余故障诊断覆盖率时,要求的最大失效率等级。
| ASIL B | ASIL C | ASIL D |
≥99.9% | 1000 FIT | 1000 FIT | 100 FIT |
≥99% | 100 FIT | 100 FIT | 10 FIT |
≥90% | 10 FIT | 10 FIT | 1 FIT |
<90% | 1 FIT | 1 FIT 同时要有相应的专用措施 | 0.1 FIT 同时要有相应的专用措施 |
对双点故障的硬件元器件失效率等级和覆盖率的目标
| ASIL C | ASIL D |
≥99% | 1000 FIT | 100 FIT |
≥90% | 100 FIT | 10 FIT |
<90% | 10 FIT | 1 FIT |
当通过EEC评估,发现硬件失效不满足相应ASIL等级要求时,需要通过增加或改善安全机制提升诊断覆盖度,或者通过提升硬件质量水平而降低硬件失效率。