在项目管理中,我们经常需要进行不确定性分析,概率分析是通常使用的重要的方法。概率分析的一个重要的问题就是抽样问题。 抽样用来在一个概率分析模拟中从概率分布函数中生成可能的值,然后用这些可能值的集合去评估对象。因此,抽样是概率分析对于工作对象模拟所做的成百上千次的“如果… 就..”的方案计算的基础。每个样本集合代表了可能发生的输入值的可能组合。选定一种抽样方法既关系到结果质量,也影响到模拟所需要的时间长度。 项目管理者联盟什么是抽样?项目管理者联盟 抽样就是从输入概率分布中随机地提取值的过程。在概率分析中概率分布是用概率分布函数表示的,而抽样是由概率分析程序执行的。在一个模拟中抽样反复进行,每次迭代从每个输入概率分布中提取一个样本。通过足够次数的迭代,为一个概率分布抽样的值变成分布性的,众所周知的输入概率分布。抽样分布的统计量(均值,标准偏差和高次动差)接近于对于分布真实的输入统计量,抽样分布图也像一个真实输入分布的图。talent.mypm.net 统计学家和实践家为提取随机样本已开发了各种技术。当评价抽样技术时,要考查的重要的因素是通过抽样正确地再现一个输入分布所需要的迭代次数。模拟输出分布的正确结果依赖于输入分布的完整抽样。如果一种抽样方法比另一种方法需要更多的迭代次数和更长的模拟运行时间才能近似于输入分布,它就是效率差的方法。 项目管理者联盟 在概率分析中可以使用两种抽样方法—— 蒙托卡罗抽样和拉丁海波库比抽样。这两种抽样方法在抽样的值集合近似于输入分布真实分布时所要求的迭代次数是不同的。蒙托卡罗抽样经常要求大量的抽样才能近似于一个输入真实分布,特别是如果输入分布是高度偏斜或具有某些低概率的结果时。拉丁 海波库比抽样是在概率分析中使用的新的抽样技术,它集中在更接近于输入真实分布的样本上,使输入分布的抽样统计量上更快逼近于输入真实统计量。项目管理者联盟 概率累积数分布项目管理者联盟 当考察不同的采集方法时,首先了解一个概率累积数分布是有帮助的,任何概率分布都可以用累积形式表示。一个累积曲线在y轴上的典型的刻度为0到1,y轴的值代表相应于x轴值的累积分布。 在累积曲线上方,0.5累积值是50%累积概率的点(0.5=50%)。一个分布中有百分之五十的值落在这个中值之下,另百分之五十落在其上。0累积值是最小值(0%的值落在这一点之下)。1.0累积值是最大值(100%的值将落在这点之下) 项目管理者联盟 为什么这个概率累积曲线对于理解抽样是那样重要呢?累积曲线的标尺0到1是在抽样期间产生可能的随机数的范围。在典型的蒙托卡罗抽样中,计算机将生成一个0到1之间任何的一个数都具有同等发生的可能性的随机数。然后,用这个随机数从累积曲线中选出一个值。例如,上例中,如果一个0.5随机数在抽样期间产生出来,分布中取样值会是X1。因为累积曲线的形状是基于输入概率分布的形状的,它的结果是什么样,则采集的样本就是什么样。比较多的结果在累积曲线急剧变化的范围内。 蒙托卡罗抽样 蒙托卡罗抽样指的是从一个概率分布中使用随机数或伪随机数抽样的传统技术。术语蒙托卡罗是在二次世界大战期间研究自动炸弹相关的模拟的代码名字而引入的。如今,蒙托卡罗技术被应用到了有随机发生的情况的各种复杂问题上。现在有很多算法从不同类型的概率分布中产生随机样本。 蒙托卡罗抽样技术是完全随机的——即任一个给定的样本可能落入到输入分布范围内的任何地方。当然,更多的样本是提取自具有比较高发生概率的分布区域内。在早些时候所述的累积分布中,每个蒙托卡罗样本使用一个0到1之间的新随机数。经过足够次的迭代,蒙托卡罗抽样技术通过抽样重新生成输入分布。但是,当执行少量的迭代时一个堆聚问题就可能显示出来。如果抽样5次的话,可能5个样本都落入在分布的中部。分布外围的值在样本中没有表示出来,因此,他们对结果的影响也就没有包括在的模拟输出中。项目管理者联盟 当一个分布包括对结果会有重要影响的低概率结果时,堆聚就变得特别需要关注。包括这些低概率结果是很重要的。为此,必须为这些结果抽样。但是,如果他们的概率太低的话,少量的蒙托卡罗迭代采不到满足这些结果的数量的样本去正确地代表他们的概率。这个问题导致了开发一种像在概率分析使用的拉丁·海波库比那类的分层抽样技术。项目管理者联盟 拉丁·海波库比抽样 service.mypm.net 拉丁·海波库比抽样是最近新开发的抽样技术,它试图同蒙托卡罗相比以较少的迭代次数通过抽样正确地重新生成输入真实分布。拉丁·海波库比抽样的关键是输入概率分布的分层化。分层就是把累积曲线在累积概率标尺(0到1)上划分为相等的间隔。这样,一个样本就随机地取自输入分布的每个间隔或分层。抽样被强制为要代表在每个间隔中的值,因此,也就强制它重新产生输入概率真实分布。 bbs.mypm.net 在上述的例子中,累积曲线被划分为5个间隔。在抽样过程中,从每个间隔中取出一个样本,将它和使用蒙托卡罗方法提取的堆聚的5个样本比较一下,用拉丁·海波库比抽样方法,样本集能更正确地反映输入概率分布中的值的分布。 项目管理者联盟 在拉丁·海波库比抽样期间使用的技术是“无替换抽样”。累积分布的分层数等于执行的迭代次数。在上述例子中迭代次数为5,因此把累积分布划分为5个层次。从每个层次中取一个样本,并且,一旦一个样本从一个层次中取出来,就不再从这个层次中再取样本——它的值已在抽样的集合中了。 项目经理博客 在一个给定的层中是怎样抽样的呢?实际上,概率分析为抽样先选出一个分层,然后,在选定的分层内随机选出一个值。 pmp.mypm.net 当使用拉丁·海波库比从多个变数中抽样时,重要的是维持变数之间的独立性。为一个变数取样的值需要独立于为另一个变数取样的值(当然,除非明确地想让它们相关)。这种独立性是通过随机地选择间隔为每个变数提取一个样本而维护的。在一次给定的迭代中,变数1可能从分层#4抽样,变数2可能从分层#22抽样,等等,这就维持着随机性和独立性,并且避免变数之间的不希望的相关。 项目管理者联盟 拉丁·海波库比和低概率分布抽样结果 training.mypm.net 作为一个比较有效的抽样方法,就提高抽样效率和加快运行时间(比较少的迭代)而言,拉丁·海波库比提供了巨大的优越性。这些优越性在一个基于PC的模拟环境中(如概率分析)是特别引人注意的。拉丁·海波库比也帮助分析概率分布中描述有低概率结果的情况,通过强制模拟的抽样去包括远离中心的事件,拉丁海波库比抽样保证在模拟输出中它们正确地描述了输入分布。 项目管理者联盟 当低概率结果非常重要时,它经常帮助去运行一个模拟低概率事件对输出分布的贡献。在这种情况下,模型模拟低概率结果的发生机会,通过这种方法可以隔离这些输出,并且直接地研究他们生成的结果。 pmp.mypm.net 测试这些技术 收敛概念被用来测试一种抽样方法。在收敛点,输出分布是稳定的(附加的迭代并不明显地改变抽样分布的形状和统计量)。抽样均值和实际均值比较是一种典型的收敛测试方法,但是也常用偏斜度、百分位数概率和其他统计量。项目管理者联盟 概率分析提供了一个很好的环境测试两个可用的抽样技术在一个输入分布上的收敛速度。当为一个模拟输出选择一个输入分布函数时,每种抽样技术运行一个同等迭代次数数。使用概率分析里内置的收敛监视功能,查看运行多少次迭代使百分位数、均值和标准偏差稳定。这应当证明拉丁海波库比抽样收敛比蒙托卡罗在真分布上收敛更快。项目管理者联盟 项目管理者联盟
|