吴新林:有限理性下秘书问题的一类满意解策略及仿真论文

【摘要】经典秘书问题中以完全理性假设为前提的最优解策略在现实应用中缺乏实际操作性。对经典秘书问题的理性假设进行了弱化,以决策者的有限理性为前提通过假定决策者不能对所有选项进行排序提出了解决秘书问题的一类满意解策略,并推导了获取满意选项的概率计算公式。最后,结合计算机仿真实验研究了获取满意选项的概率与截止阈值间的关系。研究结果可为经典秘书问题的扩展提供一定的理论参考。

关键词：有限理性;秘书问题;满意解;仿真

现实生活中,决策者在作决策之前往往不可能在同一时间段内事先评估所有的备选方案。相反,决策者一般是在决策过程中按一定顺序不断地分析和选择方案,换言之,备选方案是以一定的次序(时间或空间顺序)来逐一展现在决策者面前。因此,在有限的时间内决策者决定选择某个方案的同时,也可能正失去选择最优方案的机会。例如某位经理想招聘一名秘书,有n个人应聘。假定这n位应聘者的优劣次序互不相同,经理将逐一地对他们进行面试并立即作出选择。假定面试顺序是随机的,通常经理在面试完r位应聘者后就可以轻易排出他们的相对名次。这里,假定经理对每次面试的应聘者必须作出录用或不录用的决策。如果决定录用某位面试者,则整个面试过程立即结束,也不用考虑尚未面试的应聘者;如果决定不录用某位面试者,则他会立即离去,且不会再重新召回他,然后面试继续进行。经理的目标是希望录用到这n位应聘者中最好的一个,经理该如何选择?与此类似的决策情境还有灾难救治问题、采纳新技术问题、搜索最低价问题以及嫁资问题等[1]。这种关于何时停止观察与选择,以及与此情境相关的某些序贯决策[2],统称为秘书问题(Secretary Problem,SP)。

文献[3-6]中最早研究了秘书问题,取得了一批有影响力的研究成果。他们借助概率论与动态规划理论,提出了解决秘书问题的一个最优解策略。尽管最优解策略从理论上论证了解决秘书问题的一般方法,但实验研究表明,现实中的人们在面临此类决策情境时通常没有依据最优解策略来选择[7]。由于受理性限制和搜索成本等因素的影响,现实中的决策者产生了过早停止搜索选项的倾向,导致其更多地选择了令自己相对较满意的选项。研究秘书问题的一个热点是结合行为决策理论探讨决策者的选择行为是否遵循最优解策略,其中以文献[8-9]中的研究最具有代表性。他们认为现实中决策者的理性是有限的,通过设计行为实验在不同条件下提出了截止阈法则、数候补者法则和数连续非候补者法则等启发式策略来研究秘书问题。刘庆顺[10]在文献[8-9]的基础上,基于有限理性假设,借助计算机仿真实验进一步讨论了松弛6个基本假设条件的秘书问题情境。同时,对选项值的统计特征、序次特征、选项集规模以及选项值类型等“噪声信息”与搜索行为之间的关系进行了实证研究。杨城等[11]认为秘书问题的最优解在现实中难以实现,提出了一种基于苏格拉底“三分决策法”的简化策略。

近期,Szajowski等[12]提出了秘书问题的一类时值问题,决策目标是对所拥有相对最好和次好方案的时间最大化,证明了在这类时值问题中的一些截止阈值能满足最优策略。Ma等[13]研究了一类具有次模估值函数的拟阵秘书问题,通过假定估值函数的非负性与单调不减性提出了解决此类秘书问题的一种遗传算法。Feldman等[14]研究了具有任意非负单调性且满足一般拟阵约束的估值函数的一类秘书问题,提出的算法对于一致性拟阵约束的特殊情形可以提供更好的估计。本文以现实中决策者的一类有限理性特征,即“偏好的不完备性”为前提,提出了解决秘书问题的一种满意策略。

1 秘书问题的最优解策略

经典秘书问题中,经理无论何时做选择都很难保证选到最优秀的秘书。如过早选择可能会错过后面更优秀的秘书,过晚选择也可能与最优秀的秘书失之交臂。通常,经理首先会取样面试一部分应聘者以了解其真实水平(如先取15位面试者),然后只要遇到比这些“样本”更好的应聘者,就可以考虑录用他。如果一直未能遇到相对更好的应聘者就只能录用最后一个。但是,有两种情况可能让经理选不到最好的应聘者：①这前15位刚好是所有应聘者中最差的,且排在倒数第16位的应聘者刚好在下一个面试,结果经理选择了他;②最好的应聘者恰好就在这前15个“样本”中,这导致经理给自己设置了一个永远也无法达到的标杆。当然,经理可以通过增加样本数量来获取更准确的信息。尽管增加样本数量有助于他更准确地选择,但最好的应聘者仍有可能在“样本”中被“牺牲”掉。易知,研究“备选项”优劣分布与到达的不确定性信息间的关系是秘书问题研究的本质。决策者获取这些不确定信息的同时也意味着会增加决策成本和错失最优选择机会。反之,若不获取这些信息就意味着决策是盲目的,进而实现最优选择的机会也更低。这是一个两难权衡的问题,换言之,停止取样观察选项的时机是研究序贯观察与选择问题的关键。

文献[2]中最早对经典秘书问题的最优解策略进行了求解与论证。大体而言,运用该策略决策者应该在取样观察选项第r*-1项截止(r*是迄今为止已经观察过的选项数量);而且,拒绝前面观察过的全部r*-1个选项,选择此后出现的、第1个大于前面已拒绝选项中最大值的那个选项。通过理论推导证明,依该策略能够保证选中最优选项的概率最大。最优阈值与对应的概率求解过程：设决策过程每一时段的状态可用两个整数(r,s)表示,r为迄今为止已经观察过的选项数量,s为刚观察过的第r个选项的相对排序值,同时设选项的数量为n。如果s=1,则第r个选项在n中正好是最优的概率,为r/n。首先定义判断函数

(1)取n个数1,2,…,n-k,n,…,n,在Matlab环境下对这n个数字进行随机排列,并取前r个数的集合为样本空间。

当n→∞时。此时,最优截止阈值,选中最优选项的概率约为1/e。

2 秘书问题的一类满意解策略

秘书问题的最优解策略主要将决策过程分为两个阶段：①确定截止阈值,即取样观察的选项数量与全部备选项数量的百分比;②搜索第1个优于阈值前所有选项的那个选项。一方面,确定最优截止阈值需要决策者具备很强的计算能力;另一方面,搜索相对最优选项需要决策者的偏好具有非循环性与完备性。从某种意义上讲,决策者要实最优解策略必须具备很强的理性(或者完全理性)特征。简言之,最优解策略基于完全理性假设,为人们以最大可能性选中最优选项提供了一套理论与方法。

易知：

2.1 满意解策略的建模

本研究选取了四川省A桥梁工程为研究对象，该工程为非对称外倾拱桥，桥梁全长218m，主跨长113m，其布置于半径为523m的曲线上。拱桥两侧的拱肋均独立倾斜于平面上，其倾斜度分别为27°和20°，拱肋的主要构成包括连续钢梁拱肋段和混凝土，并相交于主墩承台。

按k个满意选项出现的位置进行如下划分：令B1表示事件“k个满意选项均不出现在前r-1项中”,B2表示事件“k个满意选项不全(至少有1个)出现在前r-1项中”,B3表示事件“k个满意选项均出现在前r-1项中”。显然,B1～B3构成一个完备事件组,即两两互不相容,且它们的和是样本空间。令A表示事件“从第r个选项开始,首次遇到的满意选项被选择”。根据全概率公式,有

以培养专业群通用能力为目标，改造综合控制实验室、嵌入式系统开发实验室，新建物联网创新成果展示实验室，整合现有的电子综合实训室，打造群平台通用能力技术实训中心。以培养专业能力为目标，新建无线传感网络实训室、大数据分析实验室、软件测试实训室，并升级移动应用开发实验室。

可以看出,秘书问题的最优解策略是以完全理性为假设前提,即决策者通过对所有选项进行排序,从而找到比最大值标杆更优的选项。然而,现实中决策者的选择行为更多地表现出一种“有限理性”特征,决策者追求的是一种满意策略[15]。基于此,本文假定决策者的偏好不满足完备性,即决策者不能对所有选项进行排序,并据此探讨决策者获取满意选项的过程。

式(2)～(4)分别表示满意选项出现在样本选项中的可能性大小。下面分别探讨满意选项出现在不同位置时,决策者首次获取某个满意选项的可能性大小。

当B2发生时,决策者只有遇到满意选项才会停止搜索并选择,故P(A/B2)=1。当B3发生时,决策者选不到满意选项,故P(A/B3)=0。下面具体分析B1发生时的情形,令B*j(j=1,2,…,nk+1)表示事件“首次遇到的满意选项排在第j位”,显然,B*1,B*2,…,构成一个完备事件组,易知,

大力支持民营企业发展，关键是要出实招而不是做做表面文章。司法部已要求各地司法行政机关和律师协会抓紧组建律师服务团队，律师服务团队要深入重点民营企业“一对一”提供“法治体检”服务，了解企业生产经营和依法治理情况，分析企业法律需求和风险点，帮助查找制度漏洞和薄弱环节，健全法律风险预警防范和矛盾化解机制。这次民营企业“法治体检”专项活动，是一次公益性的免费服务活动，更是为民营企业发展营造良好法治环境的实招。今后不妨多推出一些类似“法治体检”实实在在的举措。

从第r项开始,决策者为了能选到首次出现在第j位的满意选项,则前j-1项中相对最好的选项只能出现在前r-1项中。因此,

图1(a)、(b)分别所示为备选项目数量为1 000和500且备选项中存在2个满意选项时,决策者获取满意选项的概率与截止阈值间的关系。图1(a)、(b)的结果表明,概率随着截止阈值的增加先增大后减小,在截止阈值为0.37时最大(为0.74)。图1(c)、(d)分别所示为备选项目数量为1 000和500且备选项中存在3个满意选项时,决策者获取满意选项的概率与截止阈值间的关系。图1(c)、(d)的结果表明,概率随着截止阈值的增加先增大后减小,在截止阈值为0.39时最大(为0.89)。

式(8)给出了在给定的选择规则下决策者获取满意选项的具体计算公式,也是本节满意决策模型的主要公式。易知,当k=1时,式(8)退化为经典秘书问题的最优决策模型,即

我很气恼，觉得真是倒霉透顶，那个时候我仿佛是没有一点办法了，甚至片刻之间，我差点产生了要放弃它的念头。我的这些羊，那可是我的全部啊，失去一只，我会心疼几天的。

2.2 仿真实验与结果分析

下面探讨与分析决策者何时获取满意选项的概率最大,即当k固定,r与n的比值(截止阈值)如何变化时,式(8)中的概率最大。从理论上探讨式(8)的最值问题并不容易,这里借助Matlab软件,采用随机模拟的方法对式(8)的概率进行估计。为便于计算机编程上的操作,特作如下记号：将n个选项用1,2,…,n中的数字代替,其中k个满意选项均用数字n代替,其余的n-k个选项分别用数字1,2,…,n-k代替,数字的大小表示选项之间的优劣程度,即表示某选项的数字越大,对于决策者而言该选项越优。仿真步骤如下：

(3)改变样本空间元素数量r,转(1)。记录总搜索次数m和搜索到数字n(满意解)时的总次数m0,则m0/m即为获取满意选项的概率估计值。

在状态为(r,1)时的最优决策为：若ar＜1,则停止搜索;若ar＞1,则继续搜索。如果ar-1≥1＞ar,则决策者在n个选项中选择最优选项的概率为

图1 概率随截止阈值变化的关系图

(2)设样本空间中的最大数为t0,对剩余的n-r个数进行搜索,记t为搜索到的数字。当t≥t0时,本次搜索结束,否则认为找不到满意解;当t=n时,记搜索到满意解的次数为1。

设有n个选项依次随机地呈现在决策者面前,假定对于该决策者而言,有k个选项都要优于其他选项,但这k个选项之间的优劣是不可比的,或者说,决策者认为这k个选项是满意的;决策者的目标是要选择这k个满意选项中的任一个。这里,决策者的选择遵循如下规则：取前r-1个选项为样本,从第r个选项开始,一旦遇到第1个相对满意的选项(即不劣于前面出现的所有选项)就停止搜索而直接选择该选项。如果一直未能搜索到满意选项,决策者就选择最后一个选项。下面分析与计算决策者选到满意选项的可能性。

Patients presenting with atrophic gastritis, metaplasia, or dysplasia are routinely subjected to eradication therapy targeting the underlying infection; however, eradication is only partly effective at reversing atrophy and often fails to treat metaplasia and dysplasia[63].

应用全概率公式,得

6）输出 alphabet[int（string[n]）]，其中 string[n]为标签（要转化为整形值）。

按地下水赋存特征及含水层性质，区内地下水类型分为松散岩类孔隙含水岩组、碎屑岩类孔隙裂隙含水岩组、碳酸岩类岩溶裂隙含水岩组和基岩裂隙含水岩组。

最后,为验证上述仿真结果的准确性,下面利用式(8)对图1～4中的最大概率值进行估算,结果如下：当k=2,n=500,r=185,即r/n=0.37时,P=0.737 0;当k=2,n=1 000,r=370,即r/n=0.37时,P=0.736 4;当k=3,n=500,r=195,即r/n=0.39时,P=0.885 3;当k=3,n=1 000,r=390,即r/n=0.39时,P=0.884 6。

由上述结果可以看出,由仿真模拟得到的结果与由式(8)计算出的结果非常接近,其相对误差均控制在±1‰内。

3 结论

现有研究主要基于“决策者停止搜索信息太早或搜索量太少”等有限理性假设提出了解决秘书问题的一些启发式策略,并结合计算机仿真实验进行了验证。与现有研究不同,本文基于决策者偏好的不完备性等有限理性特征,建立了秘书问题的一类满意决策模型,并结合仿真实验对结果进行了验证。得到如下结论：

(1)当备选项中存在2个满意选项时,决策者在一定条件下获取满意选项的最大概率约为最优策略下的两倍。当备选项中存在3个满意选项时,决策者获取满意选项的最大概率为88%。可以预见,当备选项中随着满意选项数量的增多,决策者获取满意选项的最大概率也会不断增加,但增加的速度会不断地减小。

(2)当备选项中存在2个(或3个)满意选项时,决策者获取满意选项的概率随截止阈值的增加先变大后变小,在截止阈值为0.37(或0.39)时其概率最大。此外,满意策略下决策者以最大概率获取满意选项时的截止阈值与最优策略下基本一致。

加强水文行业管理和基础工作，完成流域水文设计成果修订和水文应急机动监测能力建设项目，加快流域统一高程系统项目建设。完善各类监测方案，提高应急机动监测能力，拓宽服务领域，提高支撑能力。

本文基于决策者的偏好特征将有限理性与秘书问题相结合,对经典秘书问题进行了扩展。本文提出的满意策略本质上是一类概率优化模型,本文仅仅给出了该模型的一种近似可行解,从理论上进一步探讨该模型的满意解是后续需要研究的工作。

参考文献：

[1]刘庆顺,王渊,王刊良.秘书问题研究综述：何时停止搜索信息[J].数理统计与管理,2009,28(1)：69-81.

[2]詹才成,徐晓燕,孙燕红.两企业序贯进入市场时的最优进入时间及定价分析[J].系统管理学报,2012,21(2)：145-154.

[3]Lindley D V.Dynamic programming and decision theory[J].Applied Statistics,1961,34(10)：39-51.

[4]Gilbert J,Mosteller F.Recognizing the maximum of a sequence[J].Journal of the American Statistical Association,1966,61(1)：35-73.

[5]Rapoport A,Tversky A.Choice behavior in an optimal stopping task[J].Organizational Behavior and Human Performance,1970,5(2)：105-120.

[6]Freeman P R.The secretary problem and its extensions：A review[J].International Statistical Review,1983,51(2)：189-206.

[7]Seale D A,Rapoport A.Sequential decision making with relative ranks：An experimental investigation of the“secretary problem”[J].Organizational Behavior and Human Decision Processes,1997,69(3)：221-236.

[8]Seale D A,Rapoport A.Optimal stopping behavior with relative ranks：The secretary problem with unknown population size[J].Journal of Behavioral Decision Making,2000,13(4)：391-411.

[9]Zwick R,Rapoport A,Lo A K C,et al.Consumer sequential search：Not enough or too much?[J].Marketing Science,2003,22(4)：503-519.

[10]刘庆顺.秘书问题与行为决策[M].北京：北京理工大学出版社,2013.

[11]杨城,罗旭斌,陈斌.秘书问题的一种实用策略[J].系统工程理论与实践,2012,32(7)：1525-1530.

[12]Szajowski K,Tamaki M.Shelf life of candidates in the generalized secretary problem[J].Operations Research Letters,2016,44(4)：498-502.

[13]Ma T,Tang B,Wang Y.The simulated greedy algorithm for several submodular matroid secretary problems[J].Theory of Computing Systems,2016,58(4)：681-706.

[14]Feldman M,Izsak R.Building a good team：Secretary problems and the supermodular degree[C]//Twenty-Eighth Acm-Siam Symposium on Discrete Algorithms.Society for Industrial and Applied Mathematics,2017：1651-1670.

[15]Simon H A.A behavioral model of rational choice[J].Quarterly Journal of Economics,1955,69(1)：99-118.

Simulation and Satisfying Policy of Secretary Problem in Bounded Rationality

WU Xinlin1,TU Huonian2
(1.School of Mathematics and Economics,Hubei University of Education,Wuhan 430205,China;2.School of Information and Statistics,Guangxi University of Finance and Economics,Nanning 530003,China)

【Abstract】The optimal policies of the standard secretary problem are based on the hypothesis of complete rationality,which ignores the actual operability in reality.In this paper,the rationality hypothesis of the standard secretary problem was weakened,and a satisfying policy based on the hypothesis of bounded rationality was proposed.Besides,based on the premise of the bounded rationality of the decision maker,a kind of satisfactory solution strategy for solving secretarial problems was proposed by assuming that the decision maker cannot rank all the options,and the probability formula for obtaining satisfactory options was deduced.Moreover,the formula of probability calculation of the decision-maker to choose the satisfactory item was derived.Furthermore,the relationships between the probability of choosing the satisfactory item and the cutoff threshold were studied by conducting computer simulation experiments.

Key words：bounded rationality;secretary problem;satisfying solution;simulation

中图分类号：C 934

文献标志码：A

DOI：10.3969/j.issn.1005-2542.2019.05.017

收稿日期：2017-03-16 修订日期：2017-07-31

基金项目：湖北省教育厅科学技术研究资助项目(Q20153002);湖北省自然科学基金资助项目(2015CFC883)

作者简介：吴新林(1981-),男,博士,副教授。研究方向为决策理论与方法。E-mail：stxywxl966@163.com

文章编号：1005-2542(2019)05-0941-05

标签：选项论文; 决策者论文; 满意论文; 秘书论文; 最优论文; 社会科学总论论文; 管理学论文; 决策学论文; 《系统管理学报》2019年第5期论文; 湖北省教育厅科学技术研究资助项目(Q20153002)湖北省自然科学基金资助项目(2015CFC883)论文; 湖北第二师范学院数学与经济学院论文; 广西财经学院信息与统计学院论文;