《测绘地理信息》
1 引言
随着物联网和大数据等技术的发展,滴滴出行、UBER等网约车平台不仅为司机提供了在线预订服务,还记录了司机的使用记录和出租车的行驶轨迹等信息.系统通过挖掘这些数据中相关有价值的信息,可以为司机提供更好的推荐服务.而载客区域推荐[1]能够帮助司机有效提高寻找乘客的效率,减少空载巡游带来的能耗和尾气排放.
与传统的推荐系统相比,出租车载客区域推荐面临新的挑战.首先,不断增长的出租车轨迹数据会耗费大量存储资源并降低推荐效率[2].其次,很多城市不断新建或翻新道路,如果使用过多历史轨迹数据,反而引入噪声数据,导致推荐性能下降.因此,如果使用短时间内能反映司机的载客选择规律的轨迹数据,则能大幅度减少噪声数据.然而,出租车每天到达的载客区域非常有限,使得该方法将面临数据稀疏性的问题[3].此外,真实地理环境中客观存在的地理信息,如POI(Point Of Interest)数量、类型等,也是司机关注的内容,但随着不同地理位置的变化,司机感兴趣的载客区域也会动态变化[4].
为应对上述问题,本文提出基于稀疏轨迹数据的出租车载客区域推荐方法,其主要贡献在于:
(1) 提出一种融合地理信息的隐语义模型.隐语义模型具有抗稀疏能力,而地理信息隐含载客需求变化,所以该方法既能有效应对数据稀疏性,又能提升推荐性能.
(2) 改进了基于当前位置信息的出租车载客推荐方案.定义了基于高斯分布的网格可达度,优化了载客区域推荐结果,能够为不同司机提供位置服务(LBS).
(3) 在短期且真实的数据上,通过多组以平均绝对误差与均方根误差作为评价指标的对比实验,证明我们的方法具有较好效果.
2 相关工作
近年,基于轨迹数据的出租车载客区域推荐系统已成为国内外的研究热点.
其中,有一些研究是定量分析出租车载客点的空间分布情况,可以为司机推荐载客区域.Kong等人[1]提出了一种结合时空信息的出租车服务推荐模型.该模型通过网格划分的方式将研究区域分割为较小的网格,然后使用高斯过程回归模型和相应的统计方法预测各网格中的乘客分布.Liu等人[5]使用改进的密度聚类算法,从历史载客点中提取出租车的候选载客点,然后根据候选点的位置、附近载客点数量等信息,并使用概率优化模型为用户提供推荐结果.Wang等人[6]提出使用线密度探测模型对出租车上下客事件进行探测和分析,以获取出租车上下客的时空分布规律.Yang等人[7]基于大规模的出租车轨迹数据,分析城市不同功能区的潜在乘客分布,以为出租车司机推荐载客效益高的区域.Yuan等人[8]分别从出租车司机与乘客的角度计算利润较高的区域,然后根据出租车司机当前的时空上下文进行推荐.
另外一些研究是定量分析出租车司机对载客点的偏好情况,以为其提供载客区域的个性化推荐.Ren等人[9]分别从地理、兴趣、社会等方面量化用户对候选区域的偏好程度,然后结合概率矩阵分解模型(PMF)为用户进行区域推荐.Liu等人[10]使用网格划分城市区域,然后分析网格的载客率及载客热度等,以发现司机的寻客偏好.Jiang等人[11]通过出租车司机的偏好信息,如:寻客策略、载客策略等构造司机的服务策略,然后通过服务策略预测各自的收益情况.Zhang等人[12]通过比较不同司机的寻客策略、载客策略以及各自的服务范围,挖掘司机的偏好.
上述方法对大规模出租车轨迹数据具有良好的推荐效果.但是,目前仍缺乏短期内,较少数据量情况下可用数据高度稀疏的解决方案.本文结合前期研究成果,兼顾出租车历史载客点分布与司机对载客点的偏好,在应对数据稀疏的情况下,使用融合地理信息的隐语义模型,并基于司机当前的位置,为不同司机提供优良的个性化推荐服务.
3 出租车载客区域推荐框架
3.1 相关定义
定义1轨迹出租车在运营过程中,由GPS记录仪按照固定频率记录其行驶的路径信息.每条GPS信息log所包含的字段有:司机的标识(id)、时间(t)、经纬度(lot,lat)、海拔(alt)和状态(sta)等.
图1描述了出租车轨迹中的状态变化过程[13].图中P表示载客点,D表示下客点.出租车在空载时,其轨迹点中的状态为 “0”;在载客情况下,其轨迹点中的状态为“1”.本文中我们提取所有下客点“D”与载客点“P”进行分析.
定义2 网格为了增强系统的并行性,减少计算量,我们将出租车的载客区域划分为同等大小的正方形区域[1].整个区域由多个小正方形网格所覆盖,即为网格集合GridSet={g1,g2,g3,…,gn}.
上一篇:大数据技术运用政府投资审计中初探
下一篇:没有了