在线评价信息是指购买并使用过某种产品的消费者根据亲身体验在社交网站或电子商务平台上给出的评价信息,评价信息通常涉及到消费者关注的多个产品指标(即属性)且以评分或等级的形式存在。消费者在选择购买某一产品前,尤其是针对价值较高且尚未有过使用经历的产品的购买,通常会广泛地获取并参考其他消费者针对各备选产品给出的评价信息来辅助决策[1]。随着互联网的飞速发展,在线获取产品的评价信息已经成为消费者获取产品评价信息的主要途径。如何合理有效地运用数据规模庞大的在线评价信息实现产品选择进而辅助消费者进行购买决策,有关这方面的研究具有实际意义。
近年来,关于基于在线评价信息的产品选择或排序方法的研究已引起了部分学者们的关注。Li等[2]运用社会网络分析理论构建了一个综合评价模型,并将其用于在线商品的等级评价,以获取在线商品的等级和排序结果,进而辅助商品的选择。Peng等[3]针对产品排序问题,提出了一种基于产品的在线顾客评价信息的多属性决策方法,通过对在线评论信息进行挖掘获取产品的关键属性,运用模糊PROMETHEE的方法计算得到产品排序结果。Najmi等[4]针对如何从繁杂的评论中提取相关有用信息进而对在线产品进行排序的问题,提出一个产品排序系统,对评论信息进行情感分析和有用性评估,将不同的产品功能和特征赋权为相似产品排序,最终为每个产品生成一个统一的排序,辅助产品的选择。Chen等[5]针对市场结构可视化问题,提出了一个将主题建模方法、TOPSIS方法和多维标度方法加以整合的方法,通过移动电话的在线评论信息说明该方法可以用于市场中产品的定位和排序。习扬等[6]针对产品排序问题,提出了一种使用在线评价信息的决策方法,将在线评价信息描述为离散型概率分布函数的形式,通过构建并求解优化模型确定属性权重,进而实现对方案的排序。梁霞等[7]提出了一种基于在线评论的产品选择方法,通过对在线评论信息的分析确定产品属性权重及顾客针对产品属性取值的评价值,进而确定备选产品的排序结果。尤天慧等[8]提出了一种基于在线评价信息和消费者期望的产品选择方法,通过计算商品各属性的评价值相对于消费者给出的属性评价期望的损益值,确定产品各属性的评价结果分布情况,进而实现对备选产品的排序。Liu等[9]针对产品排序问题,提出了一种基于在线评论的决策方法,运用情感分析技术将顾客在线评论转化为直觉模糊数,在此基础上依据直觉模糊集理论实现对产品的排序。
已有研究成果为解决基于在线评价信息的产品选择问题提供了较好的思路和支撑,但在实际中,针对某产品各属性的在线评价信息大多是数据规模庞大且呈离散型随机分布的形式,针对某产品指标的在线评价信息可视为离散型随机变量,而已有的基于在线评价信息的产品选择方法中所使用的在线评价信息大多没有考虑其为离散型随机变量的情形。基于此,本文提出了一种基于离散型随机变量的在线评价信息的产品选择方法。
下面的符号用来描述基于在线评价信息的产品选择问题中所涉及的集和量。
(1) A={A1,A2,…,Am}:备选的产品集合。其中Ai表示第i个备选产品,i∈M,M={1,2,…,m}。
(2) C={C1,C2,…,Cn}:指标集合,各指标是加性独立的。其中Cj表示第j个指标,j∈N,N={1,2,…,n}。
(3) W=(w1,w2,…,wn):指标的权重。其中wj表示指标Cj的权重或重要性程度,通常,指标权重可由决策者直接给出或通过AHP等方法确定。
(4) 决策矩阵。其中表示产品Ai对应于指标Cj的结果或指标值,i∈M,j∈N。这里考虑是区间[aj,bj]上的一个离散型随机变量,其分布律为可用脉冲函数定义其概率密度函数为,对应的累计分布函数为数学期望为式中:表示产品对应于指标Cj的离散值;qj表示指标Cj的离散值个数;表示离散值的概率,满足且随机变量的概率分布情况可通过对在线评价信息的统计获得。
本文要解决的问题是,依据决策信息A、C、W和X,如何通过可行的决策分析方法来选择最优的产品。
(1) 获取在线评价信息。针对电子商务平台上的某一产品,有过购买经历的消费者会根据自身的使用经历对该产品的各个指标给出评分,进而形成数据规模庞大的在线评价信息。消费者在选择产品前,为了能够更加客观准确地了解该产品的各方面性能,通常会参考在线评价信息。由于在线评价信息数据规模庞大,因此,有必要对其进行采集和处理,以形成具有参考价值的评价信息。针对在线评价信息的采集,可以通过数据采集软件(如八爪鱼采集器、Heritrix、jcrawl等)进行。对采集到的数据进行整理,可进一步得到各备选产品对应于各指标的离散型随机变量情形的在线评价结果,进而得到决策矩阵。
(2) 构建两两产品比较的随机占优关系矩阵。产品的每一个指标的在线评价结果都是一个离散型的随机变量,均对应一个分布函数,某一指标两两产品比较的优劣关系可以通过产品指标在线评价结果所对应的分布函数之间的随机占优关系进行判断[10]。记SD为两个分布函数(即两个产品针对某一指标的在线评价结果)比较得到的随机占优关系,依据随机占优准则[11]判断分布函数之间的随机占优关系。记为随机占优关系矩阵,其中表示产品Ai与产品As针对指标Cj的在线评价结果之间比较得到的随机占优关系,即
(1)
(i,s∈M且i≠s;j∈N)
式中:表示随机占优于即针对指标Cj的在线评价结果产品Ai随机占优于产品As,记为若与之间不存在随机占优关系,记为
(3) 计算有序产品对的优序度。对于指标Cj的在线评价结果,任意两个产品Ai与As之间存在三种关系。产品Ai严格占优于产品As,表示为且产品Ai弱占优于产品As,表示为且产品Ai不占优于产品As,不存在其中,εj表示关于指标Cj的在线评价结果的偏好阀值,与两两产品关于指标Cj的在线评价结果的期望差值有关,本文取针对指标Cj的在线评价结果的两两产品期望的差值的平均值为偏好阀值εj[12],计算公式为
(2)
其中,表示产品Ai与产品As针对指标Cj的在线评价结果期望的绝对差值,计算公式为
(i,s∈M且i≠s;j∈N)
(3)
构造有序产品对的优序度函数,记gj(Ai,As)为有序产品对(Ai,As)针对指标Cj的在线评价结果的优序度,计算公式为
(4)
(i,s∈M且i≠s;j∈N)
其中,gj(Ai,As)∈[0,1]。gj(Ai,As)的值越接近0,表明针对指标Cj的在线评价结果产品Ai占优于产品As的程度越小;当gj(Ai,As)=0时,表明针对指标Cj的在线评价结果产品Ai不占优于产品As。gj(Ai,As)的值越接近1,表明针对指标Cj的在线评价结果产品Ai占优于产品As的程度越大;当gj(Ai,As)=1时,表明针对指标Cj的在线评价结果产品Ai严格占优于产品As。
依据简单加权方法,建立两两产品比较的总体优序度矩阵G=[g(Ai,As)]m×m,其中g(Ai,As)为有序产品对(Ai,As)的总体优序度,计算公式为
(5)
其中,g(Ai,As)可被视为产品Ai优于产品As的可信度,g(Ai,As)∈[0,1],且g(Ai,As)越大表示产品Ai占优于产品As的程度越大。
(4) 依据PROMETHEE II方法[13-14]对产品进行排序。依据两两产品比较的总体优序度矩阵,令和分别表示产品Ai的出流和入流,计算公式分别为
(6)
(7)
式中:表示产品Ai优于其他所有产品的总可信度,越大表示产品Ai越好;表示其他所有产品优于产品Ai的总可信度,即产品Ai劣于其他所有产品的总可信度,越小表示产品Ai越好。
(5) 依据计算得到的和进一步计算产品Ai的排序值oi,计算公式为
(8)
可见,oi越大,产品Ai越好。依据oi值的大小,可对所有产品进行排序和优选。
某家庭拟选购一辆价格在12万左右的家用轿车,经过对市场上在售的多款轿车进行了解与比较,初步选定了4款轿车作为备选产品。即A1:上海通用别克英朗(2016款15N自动精英型);A2:一汽大众速腾(2015款1.6L自动舒适型);A3:一汽丰田卡罗拉(2014款1.6LCVTGL-i真皮版);A4:长安马自达-3Axela昂克赛拉(2016款三厢1.5L自动豪华型)。选取8个评价指标,即C1:空间;C2:动力;C3:操控;C4:油耗;C5:舒适性;C6:外观;C7:内饰;C8:性价比。指标权重w=(0.1,0.1,0.2,0.15,0.15,0.05,0.05,0.2)。
(1) 运用数据采集软件收集来自汽车之家汽车评论网站上4款备选轿车的全部车主针对8个评价指标给出的真实评分数据,经过整理得到4款备选轿车8个指标的在线评分分布情况,具体如表1~4所示。
表1 产品A1各指标在线评分分布情况
产品指标人数标度1标度2标度3标度4标度5百分比/%标度1标度2标度3标度4标度5C1015151805750.001.911.9122.9373.25C2045285395600.005.7336.3150.327.64C3150602854251.910.007.6436.3154.14C41501801953951.910.0022.9324.8450.32C5030903952700.003.8211.4650.3234.40C60002855000.000.000.0036.3163.69C715301504401501.913.8219.1156.0519.11C800602105150.000.007.6426.7565.61
表2 产品A2各指标在线评分分布情况
产品指标人数标度1标度2标度3标度4标度5百分比/%标度1标度2标度3标度4标度5C100151955160.000.002.0726.8671.07C2630315300750.834.1343.3941.3210.33C3015302614200.002.074.1335.9557.85C41515813602552.072.0711.1649.5935.11C515151053212702.072.0714.4644.2137.19C6015901414800.002.0712.4019.4266.11C7015153063900.002.072.0742.1553.71C830361203601804.134.9616.5349.5924.79
表3 产品A3各指标在线评分分布情况
产品指标人数标度1标度2标度3标度4标度5百分比/%标度1标度2标度3标度4标度5C10015158400.000.001.721.7296.55C2001054653000.000.0012.0753.4534.48C3001054053600.000.0012.0746.5541.38C43015601805853.451.726.9020.6967.24C515152552553301.721.7229.3129.3137.93C600452855400.000.005.1732.7662.07C7015904203450.001.7210.3448.2839.66C81501202554801.720.0013.7929.3155.17
表4 产品A4各指标在线评分分布情况
产品指标人数标度1标度2标度3标度4标度5百分比/%标度1标度2标度3标度4标度5C1045133210450.0010.3930.7248.5010.39C2150602381203.460.0013.8654.9727.71C301515603430.003.463.4613.8679.21C415015753283.460.003.4617.3275.75C500165208600.000.0038.1148.0413.86C60030603430.000.006.9313.8679.21C71515751631653.463.4617.3237.6438.11C800752231350.000.0017.3251.5031.18
(2) 产品各指标的评分是离散型随机变量,依据整理后的数据,可得到产品各指标评分对应的分布律和累积分布函数。例如,产品A1各指标评分对应的分布律和累积分布函数如下:
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
的分布律和累积分布函数分别为
限于篇幅,其他产品各指标评分对应的分布律和累积分布函数不再一一列出。
(3) 依据随机占有准则,判断针对各指标评分的两两产品比较的随机占优关系,构建随机占优关系矩阵,即
(4) 依据式(2)、(3),计算各指标的偏好阀值,计算结果分别为ε1=0.682,ε2=0.404,ε3=0.212,ε4=0.283、ε5=0.218,ε6=0.125,ε7=0.342,ε8=0.397。依据式(4)、(5),计算两两产品比较的总体优序度,进而建立总体优序度矩阵,即
(5) 运用式(6)~(8),计算各产品的出流、入流和排序值,计算结果如表5所示。由表5可知,产品A3为最优产品,故该家庭可以考虑购买一汽丰田卡罗拉(2014款1.6LCVTGL-i真皮版)这款轿车。
表5 各产品的和oi计算结果
产品o+io-ioiA11.1210.966 0.155A20.7431.460-0.717A31.2810.9890.292A41.4621.1920.270
本文给出了一种基于数据规模庞大且呈离散型随机分布形式的在线评价信息进行产品选择的方法,具有可操作性和实用性,为消费者有效利用在线评价信息辅助产品选择提供了方法与技术支撑,为解决现实中的产品选择问题提供了一种新的途径。
[1] Wang W,Wang H,Song Y.Ranking product aspects through sentiment analysis of online reviews [J].Journal of Experimental & Theoretical Artificial Intelligence,2016(1):1-20.
[2] Li Y,Wu C,Luo P.Rating online commodities by considering consumers’ purchasing networks [J].Management Decision,2014,52(10):2002-2020.
[3] Peng Y,Kou G,Li J.A fuzzy promethee approach for mining customer reviews in Chinese [J].Arabian Journal for Science and Engineering,2014,39(6):5245-5252.
[4] Najmi E,Hashmi K,Malik Z,et al.CAPRA:a comprehensive approach to product ranking using customer reviews [J].Computing,2015,97(8):843-867.
[5] Chen K,Kou G,Shang J,et al.Visualizing market structure through online product reviews:integrate to-pic modeling,TOPSIS,and multi-dimensional scaling approaches [J].Electronic Commerce Research and Applications,2015,14(1):58-74.
[6] 习扬,樊治平.使用在线评价信息的属性权重确定及方案排序方法 [J].控制与决策,2016,31(11):1998-2004.
[7] 梁霞,姜艳萍,高梦.基于在线评论的产品选择方法 [J].东北大学学报(自然科学版),2017,38(1):143-147.
[8] 尤天慧,张瑾,樊治平.基于在线评价信息和消费者期望的商品选择方法 [J].中国管理科学,2017(11):94-102.
[9] Liu Y,Bi J W,Fan Z P.Ranking products through online reviews:a method based on sentiment analysis technique and intuitionistic fuzzy set theory [J].Information Fusion,2017,36(1):149-161.
[10] 樊治平,姜广田,张尧,等.一种基于随机占优的多种信息形式的MADM方法 [J].运筹与管理,2010,19(1):37-42.
[11] Levy H.Stochastic dominance:investment decision making under uncertainty [M].2nd edition.New York:Springer,2006.
[12] 张晓,樊治平.一种基于前景随机占优准则的随机多属性决策方法 [J].控制与决策,2010,25(12):1875-1879.
[13] Vincke J P,Brans P.A preference ranking organization method:the PROMETHEE method for MCDM [J].Management Science,1985,31(6):641-656.
[14] Brans J P,Mareschal B.Multiple criteria decision analysis:state of the art surveys [M].New York:Springer,2005.