当前位置: 首页 > 奇闻趣事 > 正文内容

旅游大数据清单之:旅游UGC大数据的破题

作者: 益阳新闻网   来源益阳新闻网    发布时间2019-05-16

众口铄金,这个成语早在2500多年前就出现了,先人生动形象地描绘了“众口”的力量可以“铄金”——熔化金属。形象是形象,这只是一种感觉感受,没有量化的表现。2500年后,我们终于可以不但能够记录下“众口”的每一“口”,而且还能够计算出“铄金”的“温度”。这就是UGC(User Generated Content用户生成内容)大数据分析。

旅游是一个很容易激发网民“吐槽”的兴趣话题,各类网络传播形式充斥着大量关于旅游的网民生成内容,除了传统意义上UGC应用形式如社交网络、视频分享、博客微博以外,还有各个旅游线上服务商的点评信息如携程、艺龙等OTA以及国内这几年兴起的UGC型旅游网站如蚂蜂窝、穷游网、百度旅游、到到网、一起游、游多多旅行网等。目前来看,旅游UGC的大数据分析刚刚破题,“众口”是有了,“铄金”的计量刚刚开始。

QQ及QQ空间数据。依据现有对外披露的信息来看,今年腾讯曾经两次通过大数据分析方法出具涉及旅游的分析报告。一次是依据手机QQ相关数据分析关于2014年春节旅游的《春节都去哪儿了》,还有一次是依据QQ空间数据分析的五一假期旅游的《中国玩货报告》。现在腾讯QQ月活跃帐户数达到8亿,最高同时在线帐户数达到2.2亿,其中QQ智能终端(手机QQ)月活跃账户达到5.21亿。这个用户规模可以覆盖旅游者相当大的部分,由于不清楚所依据数据的内容(估计手机QQ少不了LBS数据)和算法,加之公开报告比较粗略,限制了价值发挥,比如“福建人春节爱逛寺庙”的旅游行为数据分析很少。基于腾讯手机QQ庞大的用户基数和海量的大数据内容,腾讯完全可以攒出一个与百度城市预测相媲美甚至有价值的旅游大数据应用模式来,更进一步如果对巨量的用户信息和聊天对话内容进行语义分析和量化,将会对旅游者属性信息、行为信息、旅游者信息行为等一网打尽,对旅游业的价值更是不可限量。

QQ空间的五一假期癫痫发作具体表现有什么《中国玩货报告》是国内第一个通过分析用户上传照片来进行旅游大数据分析的案例,尽管对在没有注明拍摄地点的前提下,腾讯的大数据分析团队能否通过图像识别技术来辨别用户照片是在什么景区拍摄的而有很大疑问,也很感叹腾讯团队基于UGC大数据分析的突破和尝试。QQ空间月活跃帐户数是6.44亿,QQ空间用户群的注册年龄主要为18-25岁,身份多为学生和年轻打工者。五一期间QQ空间的照片单日上传量突破5.1亿,QQ空间就是基于用户行为和旅游相册大数据来进行旅游者属性和行为分析的。其分析数据表明:“2014年五一期间出游的女性占总体旅游人数的54.8%,80后比例高达48.8%。大学生群体比例是23.6%。”因而得出结论:“女性、80后、大学生是旅游生力军!”这里就有点问题,准确地说应该是:“QQ空间用户中女性、80后、大学生是旅游生力军。”一般来说,“用户生成内容”中的“用户”和旅游者在构成上是有偏差的,有时这种偏差会很大程度地扭曲分析结果。如果旅游同行参考类似的UGC大数据分析结果,应首先搞清楚内容产生者的详细构成数据,并把着重点放在旅游者行为信息数据分析上。另外,还要注意UGC的产生时间,时间要素也会干扰分析数据的准确性。比如五一假期刚刚结束后的5月5日,QQ空间就公布了这些分析结果。是不是有很多旅游者回到常住地甚至更长时间以后再向QQ空间倒腾旅途中的照片呢?!QQ空间还据此排列了国内旅游十大目的地和十大客源地,这对研究年轻旅游者的旅游偏好有一定价值。当然,每逢假期和年末百度、腾讯以及大大小小的旅游网站都会搞出号称基于大数据的目的地热度排行榜来,模样虽然都长的大差不差,但绝对都不一样。虽然都叫“大数据”,但大部分总能发现“皮袍下的小”来,都带有自家平台网站的用户特征,还不如直接称之为:“XX用户旅游数据分析”!

微博微信数据。新浪微博现在虽有虎落平川的味道,可依然是旅游UGC庞然大物。现在新浪微博月活跃访问用户1.6亿人,日活跃用户邢台羊癫疯早期如何治疗数6700万,需要特别指出的是这些用户大部分是通过手机来刷微博的。微博的媒体属性决定了,无论是“屌丝”们在旅途的自娱自乐,还是“大V”们的景色感叹,极易在微博上进行传播。新浪微博涉及旅游的数据分析主要集中在对微博内容“热议词”上,就是网民在微博上议论了哪些目的地,通过对这些目的地名称词语的频次分析,得出目的地的传播热度来。依据这些分析数据,新浪微博还常设了一个栏目“旅游热议词风云榜”(新浪微博最近改版,把这个栏目藏在犄角旮旯里)。虽然在微博内容中识别目的地名称不难,也能大体反映微博用户的偏好,但困难在于如何把带有目的地“旅游色彩”的名称识别出来?这个度如何把握?例如:“青岛海鲜真不错。”这个是带有旅游色彩吗?还真不好说。在旅游UGC的大数据分析中,语义识别是个很大的“坎”,新浪微博热议词榜里把目的地城市和旅游景区掺合在一起,一般情况下,微博内容里涉及城市相关词就比景区多不少,比如“黄山”和“黄山市”那可是二个截然不同的热词范围。目前基于UGC大数据分析的一些旅游目的地热度排行分析就经常把景区和城市搅在一起,影响了分析结果的准确度。记得今年蚂蜂窝和新浪微博合作搞了个目的地热度排名,结合不同来源的UGC内容进行数据分析,是很不错的尝试。可惜,现在找不见了。

新浪微博还尝试着对微博营销活动进行大数据分析,比如第三季“带着微博去旅行”活动,号称两个半月的时间里,共有超过9800万人次的微博网友参与,话题阅读数更是超过297亿次。照例是排出出游客源地和旅游目的地,理论上来说,微博内容分析可以得出很多关于旅游者的行为数据甚至信息行为数据,单就旅游者属性信息分析来说并不突出。深度分析这些数据,起码可以极大地优化“带着微博去旅行”这样的微博营销活动模式,而不是现在这样高举轻打,一拳打在沙滩上。另外出于娱乐或者商业目的,国内一些公司机构在出具大数据分析报告时,经常拿着结果去寻找分析结果,提前设定,寻找依据,比如多少比例的网民在旅途中用微癫痫怎么治效果最好博、看点评、瞅视频等等。新浪微博在分析数据就得出:“天生喜欢浪漫和优雅的天秤座,最喜欢利用旅游来缓解日常工作生活中带来的压力,在参与活动的微博网友中,就有将近10%的网友来自天秤座,排名第一位,而狮子座和天蝎座则排在活动参与人数的第二、三位,都超过9%。白羊座则成为参与人数最少的星座,仅占总量的7%。”说不定按照属相生辰八字又是另外的结果。

微信一直忙着狂飙突进,没听说在涉及旅游的大数据分析上有什么动作。不过集旅游者通讯、社交、公共号传播和服务于一身,假以时日,不可小觑,说不定哪天就闷出个雷子来。

网络点评数据。最近中国饭店协会和慧评网联合发布的,无疑为旅游大数据分析“点”了一个大“炮”。旅游点评的“大牛”Tripadviso经常利用自家的海量点评数据来对旅游者、旅游设施服务、目的地等进行各种数据分析,看过几次报告,印象非常深刻,当然免不了捎带脚吹嘘一下单个Tripadvisor上的旅游信息对旅游者的影响力。这几年随着国内旅游点评信息和点评网站的兴起,众多渠道积累的点评信息已经达到一个很大的海量级别,同时各个OTA和点评网站普遍采取的“五档评价规则”为量化分析评价信息奠定了基础。但是单个OTA或者点评网站出具这样的分析报告总觉腰板硬不起来,市场占有率搁在那里。这回号称是:“抓取了2013年度国内外18大主流点评网站收录的60534家境内酒店的6623941条点评,网站主要包括携程等OTA、去哪儿等元搜索网站及大众点评等点评网站几大类。”整个报告可圈可点,对行业有很大的参考价值。如果按照省级和市级目的地拆分数据,会对目的地行业管理、服务质量提升乃至产业布局都有很大的帮助。窃以为,随着住宿饭店点评数据分析模式的成熟和完善,可以部分代替国内饭店星评机制,众口铸“星”是也。

报告中儿童继发性癫痫提到:“201年休闲旅客中,家庭亲子游的点评分享占到了近一半,并以1.6的增长率高速增长,其次是情侣出游和朋友出游”这里就引申了一个话题,UGC的数据分析来源是否涵盖旅游者的主体部分。受到内容生成对象的限制,很多时候我们对UGC的数据分析,实际上是对某一类别群体的分析,很难得出对整个群体对象的特征描述,尤其是对参与旅游这种精神物质消费交叉的活动群体而言。现在家庭旅游已经成为旅游人群中重要组成部分,对于这些扯家带口甚至抱猫牵狗的群体旅游行为分析尤为重要,什么时候OTA点评中出现很多点赞儿童娱乐设施甚至抱怨宠物不能进饭店,旅游攻略网站上出现很多家庭旅游攻略甚至单亲家庭旅游攻略那数据分析就很有意思了。

一直以为,相比较西方人,中国人的民族特质里不大那么“显摆”,或者是“炫耀”,或者是“分享”,国内旅游点评产生的土壤里,“抱怨”的成分会更多一些,所谓“好事不出门,坏事传千里”。前文说过,UGC信息分析的一个大坎是语义分析,中国文字语言中的语气情感、夸张反讽甚至冷嘲热讽、指桑骂槐,加之旅游又是一个带有强烈个人情感的行为,想想都头大。除了量化的点评评分分析外,不知道这次的分析是如何区分在饭店的睡床上“如同躺在云彩上”和“简直是躺在石板上”这两句点评的。众口铄金之外,还有一个相关的成语是“众口难调”,很说明这个意思。

山东省旅游局信息中心主任,特邀评论员、专栏作者。研究方向:目的地数字系统建设、信息传播、网络营销、应用、旅游电子商务等旅游目的地系统营销。微信:cn12301,山东省旅游局微信:sdta12301。

 

栏目热点