世界杯期间,电视屏幕不断循环播放一则广告,西装革履的黄轩和旁边的唐僧犹如说相声一般,不断重复地说:“旅游之前,为什么要先上马蜂窝?”
这次马蜂窝又被刷屏了。10月21日,自媒体人丁子荃在《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》文章中,指责马蜂窝作为头部旅游UCG平台,大量充斥虚假数据,严重涉嫌内容抄袭,而且存在水军刷单行为。
人民创投在调查中发现,网络刷单是一种普遍现象,职业刷单人每单回报6元,甚至提供300元包月服务。一名刷单人月收入可达三万元。
10月22日,马蜂窝对此发表声明,称对全站游记、攻略、嗡嗡(旅行故事)、问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处,其中点评只占总体数据量的2.9%,虚假点评用户占比微乎其微。
对于马蜂窝涉嫌通过爬虫技术抓取内容,丁子荃认为,业内人士都说抓取爬虫不算抄,但这是行业潜规则。就拿马蜂窝来说,把别人东西搬过来,连简明英汉词典都不删掉,语句也不通,如此低劣的抄袭,他很少见到。
但是,华为资深技术工程师邵民却认为,互联网公司通过爬虫技术,从其他平台抓取内容的行为较常见。如果公司因此承担法律责任,更多是在行为层面,而非是技术,“技术是无罪的。”
不过,正在马蜂窝融资的关键时期,抄袭事件突然被曝出,这到底是巧合还是有人故意而为之,让人浮想联翩。
炮火不断
10月21日,丁子荃发表文章称,乎睿数据在对虚假账号进行跟踪调查时发现,马蜂窝共有大约7454个抄袭账号,合计抄袭572万条餐饮点评、1221万条酒店点评,占到马蜂窝平台的总点评数85%。
丁子荃对人民创投说,乎睿数据对马蜂窝的评论用户画像后发现,国内一家知名外卖平台的用户评论量,活跃时间段在周末及午、晚饭时间。同一时间段,马蜂窝的用户评论活跃度正好相反。滑稽的是,这群人能在地球不同地方同时出现,并且反复切换性别。
文章发表两小时后,马蜂窝在微信公号上投诉:“文章作者及该文章捏造并散布虚伪事实,对马蜂窝的经济能力、信用状况等给予不实的社会评价,损害马蜂窝商业信誉和商业声誉,这给马蜂窝的权益造成重大损失和伤害!”
除马蜂窝在微信公众号的投诉外,丁子荃还发现曝光的抄袭账号所发布文章和点评全部消失了,原内容只能在web archive上搜到。
22日,马蜂窝正式发表声明,称对全站游记、攻略、嗡嗡(旅行故事)、问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处,其中点评只占总体数据量的2.9%,虚假点评用户占比微乎其微。
“我们看来非常可笑。”丁子荃说,马蜂窝的首页有2100万条真实点评,如果2.9%指的是数量,那么马蜂窝有7亿条点评和攻略,这不可能。如果指的是数据,那么马蜂窝在偷换概念,文字同图片或视频的数据量相比,相差上千甚至上万倍。
不过,马蜂窝也对此解释,自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据严重不符,针对自媒体文中歪曲事实的言论和已被查证的有组织攻击行为,将采取法律手段维护自身权益。
10月23日,马蜂窝联合创始人兼CEO陈罡在新闻发布会上表示,平台已认真进行了自查,在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大,对相关问题已开始进行整改,并重新梳理工作流程,堵住漏洞。
发布会上,陈罡还表示,在丁子荃发表的文章中,相关表述中涉及大量明显"抹黑"行为,将交由法律判定。
涉嫌侵权?
“我们把马蜂窝的虚假数据曝光,这对马蜂窝并不是坏事。”用丁子荃的话来说,他希望马蜂窝能够把重点放在改善自己的排序机制、竞争机制以及反作弊系统,而不是把矛头对准外部的批评者。
“如果马蜂窝执意在舆论上采取这种态度,我们不会屈服。”丁子荃说,他们会继续拿出详实数据,直到他们改正为止。
针对丁子荃和马蜂窝各执一词,北京志霖律师事务所副主任、中国政法大学知识产权中心研究员赵占领对人民创投表示,在马蜂窝和乎睿数据事件中,三个行为涉嫌违法。一是乎睿数据和丁子荃涉嫌名誉侵权行为;二是马蜂窝涉嫌抄袭行为,三是马蜂窝的商家涉嫌恶意刷单行为。
从名誉侵权角度看,如若马蜂窝起诉乎睿数据和丁子荃涉嫌侵犯其名誉,乎睿数据和丁子荃就应该自证清白,证明自己所有数据和文章内容属实。在这个过程中,他们仅仅有截图并不够,这需要公证机构对文章的内容进行公证。
从马蜂窝涉嫌抄袭的行为来看,首先判定内容是否有版权。对于大多数评论而言,它们并不具备版权,针对这类没有版权的评论,假如马蜂窝随意搬用,违反了《中华人民共和国反不正当竞争法》的诚信原则和商业道德,因为这些评论能够为用户的旅游提供参考,可以视为马蜂窝的核心竞争力之一;针对有版权的评论,因为评论的版权在用户手中,那么随意搬用行为涉嫌侵犯用户权益。
从马蜂窝平台的商户涉嫌刷单行为来看,马蜂窝作为内容平台,如果用户恶意刷单,马蜂窝并没有直接责任。因为刷单行为取证困难,行为隐蔽,主要由工商部门予以查处,但这还需要有人举报并提供线索,才能进一步调查,处罚案例较少。
赵占领透露,在他印象中,只有上海一家刷单公司因非法经营罪而受到处罚。
包月刷单
在丁子荃的文章中,除评论抄袭外,马蜂窝平台上营销账号批量发布“假”游记和大批水军刷单。
职业刷单人王启对人民创投表示,刷单分为两种,一种是简单刷,不购物,另外一种是精品刷,但这需要要购物。
据王启介绍,多数刷单人员是兼职刷单,没有固定上班地点,所有人聚集在一个群里,信息也在群里随时发布。
“一单大概能挣六元。”王启说,刷单人购买商品是真实的,商家在收到购物款后,商家会给刷单人快递两毛钱一包的纸巾,并将货款退给刷单人。这笔交易就算完成。
王启说,靠自己刷单非常辛苦,你要不断的更换登录账号。即使你是勤奋的人,一天也刷不了五、六十单,很难月薪过万。
王启说,如果你想获得更高收入,那就必须依靠下线。在管理平台上,王启分享八层下线收益,这笔收益在他总收入中占据大头。
王启对人民创投出示一张收入明细:“2018年3月,月收入2457.55元;2018年6月,月收入14679.92元;2018年8月,月收入接近三万元。”
王启认为,对于新商家而言,开店就想盈利不切实际,刷单是必须做的事情,否则没有流量。商家通过刷单,商店能在关键字搜索中排到前五页,这才意味实现稳定收入。
如今,在靠流量排名的互联网商业规则中,商家没有流量就意味着被忽视,而高流量就意味着高价值。
刷单业务员陈亚对人民创投说,除了给淘宝、拼多多、京东等商家刷单外,她还有其它刷单方式。比如视频刷单,公众号刷单,评论刷流量等。
据陈亚介绍,一些刷单是按流量收费,多一个流量就多收一笔钱。不过,她还提供刷单包月制,比如商家给她300元包月费,她每天为商家提供100个访客,10个收藏和5个加购。
有组织攻击?
马蜂窝由陈罡和吕刚创立于2006年,这与陈罡热爱旅游息息相关。
对于喜好旅游的人而言,与同伴分享游玩照片是一种享受。当时互联网没有旅游爱好者开办的社区,这让陈罡的分享体验十分不佳。随后,他找到好友吕刚,两人交流后,打算开办一家旅游爱好者社区。
陈罡和吕刚本来就在互联网公司工作,陈罡负责技术,吕刚负责商务,两人一拍即合,马蜂窝社区很快建立起来。
2017年,陈罡就曾表示,马蜂窝已接近盈亏平衡,“可以说未来三年左右时间,马蜂窝完全能有独立IPO的计划和能力”。
今年8月,路透社曝出马蜂窝有望获得新一轮3亿美元融资的消息,并称其有可能在这轮融资中达到20至25亿美元的估值。
10月24日,据36氪报道,本次领投方为腾讯,投后估值20亿美元,高鹄资本担任融资顾问。一名接近交易的人士称,马蜂窝本轮融资“基本close,只是spa协议(股权认购协议)还没签”。另一位接近交易人士表示,此次抄袭事件对此次融资影响不大,估值逻辑更多基于营收。
巧合的是,马蜂窝涉嫌抄袭事件正是在这个时间段被曝出。
马蜂窝曾提出“这是有组织的攻击行为。”但丁子荃对人民创投表示,乎睿数据由国外学习的三位高材生组建。有次,他们在国内因吃外卖拉肚子,然后给商家一个差评,商家就回复他们:“诽谤也不是这样诽谤的,同行请走开。”这让乎睿数据团队非常生气。
据丁子荃介绍,因为这次不愉快经历,乎睿数据团队决定研发一个数据模型,用于高效、准确筛选餐饮点评中的水军。模型建成后,正巧马蜂窝的广告铺天盖地,团队选择使用马蜂窝的用户评价数据对模型进行测试和训练,也正是在测试和训练过程中,乎睿数据发现马蜂窝抄袭黑幕。
丁子荃说,历时四个月,乎睿数据从世界各地的OTA网站摘取数据进行对比,初步完成了马蜂窝涉嫌抄袭的数据报告。
“这份曝光马蜂窝的报告被公开并不容易,起初乎睿数据曾寄希望于科技自媒体平台,因为涉及内容敏感而被拒绝。”丁子荃说。
后来,乎睿数据给自媒体人丁子荃留言:“我们团队历经几个月,有一份翔实的数据和分析报告想曝出来,涉及著名科技企业的弄虚作假,营私舞弊。”
丁子荃说,虽然他觉得会带来一些风险,但这确实是一个值得报道的事情,因为它是一个丑闻。
技术无罪
“这是潜规则。” 丁子荃说,业内人士都说爬虫技术不算抄,但抄也要分个高下,就拿马蜂窝来说,把别人东西搬过来,连简明英汉词典都不删掉,语句不通,如此低劣的抄袭,他很少见到。
华为资深技术工程师邵民也说,互联网公司利用爬虫技术,从其他平台抓取数据或者内容的行为较为常见。爬虫技术不仅成熟,而且门槛低,通常由普通大学毕业生从事。
“相对成熟的爬虫技术,针对爬虫的防护措施却较为落后。”邵民说,主流大型网站对自己内容的保护,主要是采用“投毒”等手段。也就是说,有毒内容被爬虫摘取后,显示出投毒者希望显示内容,这就是为何马蜂窝抄袭评论后,出现网址、小广告等无关内容。
“这就相当于栅栏,只能防君子,不能防小人。”邵民说,由于防御技术的缺陷和法律监管的空缺,这让爬虫技术被大量应用。“如果没有明确的法律条文禁止某项技术使用,这意味该技术在法律层面受到认可。”
“我不赞成法律出台相关措施对爬虫技术进行限制,因为技术本身没有好坏之分,关键是某些公司或者个人使用技术做了什么事情。”邵民说,这些公司或个人因此承担责任,更多是在行为层面,而非是在技术层面,“技术是无罪的。”
“除非用户跳出来说,这个内容是有版权的,否则很难认定这个内容有版权。”邵民说,互联网上有海量信息,在没有版权的前提下,谁能得到,谁能整理,这就是谁的。“百度搜索就是最大的爬虫,这是被认可的,不涉嫌侵权。”
邵民还认为,马蜂窝把各个网站用户的评论进行整理,这从技术角度是为用户更好的进行旅游体验做了好事,并无不可。