世界杯期間,電視屏幕不斷循環播放一則廣告,西裝革履的黃軒和旁邊的唐僧猶如說相聲一般,不斷重復地說:“旅游之前,為什麼要先上馬蜂窩?”
這次馬蜂窩又被刷屏了。10月21日,自媒體人丁子荃在《估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城?》文章中,指責馬蜂窩作為頭部旅游UCG平台,大量充斥虛假數據,嚴重涉嫌內容抄襲,而且存在水軍刷單行為。
人民創投在調查中發現,網絡刷單是一種普遍現象,職業刷單人每單回報6元,甚至提供300元包月服務。一名刷單人月收入可達三萬元。
10月22日,馬蜂窩對此發表聲明,稱對全站游記、攻略、嗡嗡(旅行故事)、問答、點評等數據進行了核查,並對涉嫌虛假的信息展開查處,其中點評隻佔總體數據量的2.9%,虛假點評用戶佔比微乎其微。
對於馬蜂窩涉嫌通過爬虫技術抓取內容,丁子荃認為,業內人士都說抓取爬虫不算抄,但這是行業潛規則。就拿馬蜂窩來說,把別人東西搬過來,連簡明英漢詞典都不刪掉,語句也不通,如此低劣的抄襲,他很少見到。
但是,華為資深技術工程師邵民卻認為,互聯網公司通過爬虫技術,從其他平台抓取內容的行為較常見。如果公司因此承擔法律責任,更多是在行為層面,而非是技術,“技術是無罪的。”
不過,正在馬蜂窩融資的關鍵時期,抄襲事件突然被曝出,這到底是巧合還是有人故意而為之,讓人浮想聯翩。
炮火不斷
10月21日,丁子荃發表文章稱,乎睿數據在對虛假賬號進行跟蹤調查時發現,馬蜂窩共有大約7454個抄襲賬號,合計抄襲572萬條餐飲點評、1221萬條酒店點評,佔到馬蜂窩平台的總點評數85%。
丁子荃對人民創投說,乎睿數據對馬蜂窩的評論用戶畫像后發現,國內一家知名外賣平台的用戶評論量,活躍時間段在周末及午、晚飯時間。同一時間段,馬蜂窩的用戶評論活躍度正好相反。滑稽的是,這群人能在地球不同地方同時出現,並且反復切換性別。
文章發表兩小時后,馬蜂窩在微信公號上投訴:“文章作者及該文章捏造並散布虛偽事實,對馬蜂窩的經濟能力、信用狀況等給予不實的社會評價,損害馬蜂窩商業信譽和商業聲譽,這給馬蜂窩的權益造成重大損失和傷害!”
除馬蜂窩在微信公眾號的投訴外,丁子荃還發現曝光的抄襲賬號所發布文章和點評全部消失了,原內容隻能在web archive上搜到。
22日,馬蜂窩正式發表聲明,稱對全站游記、攻略、嗡嗡(旅行故事)、問答、點評等數據進行了核查,並對涉嫌虛假的信息展開查處,其中點評隻佔總體數據量的2.9%,虛假點評用戶佔比微乎其微。
“我們看來非常可笑。”丁子荃說,馬蜂窩的首頁有2100萬條真實點評,如果2.9%指的是數量,那麼馬蜂窩有7億條點評和攻略,這不可能。如果指的是數據,那麼馬蜂窩在偷換概念,文字同圖片或視頻的數據量相比,相差上千甚至上萬倍。
不過,馬蜂窩也對此解釋,自媒體文章所述的馬蜂窩用戶數量,與事實和第三方機構數據嚴重不符,針對自媒體文中歪曲事實的言論和已被查証的有組織攻擊行為,將採取法律手段維護自身權益。
10月23日,馬蜂窩聯合創始人兼CEO陳罡在新聞發布會上表示,平台已認真進行了自查,在餐飲等點評數據方面存在部分問題,但遠沒有外界所表述的那麼夸大,對相關問題已開始進行整改,並重新梳理工作流程,堵住漏洞。
發布會上,陳罡還表示,在丁子荃發表的文章中,相關表述中涉及大量明顯"抹黑"行為,將交由法律判定。
涉嫌侵權?
“我們把馬蜂窩的虛假數據曝光,這對馬蜂窩並不是壞事。”用丁子荃的話來說,他希望馬蜂窩能夠把重點放在改善自己的排序機制、競爭機制以及反作弊系統,而不是把矛頭對准外部的批評者。
“如果馬蜂窩執意在輿論上採取這種態度,我們不會屈服。”丁子荃說,他們會繼續拿出詳實數據,直到他們改正為止。
針對丁子荃和馬蜂窩各執一詞,北京志霖律師事務所副主任、中國政法大學知識產權中心研究員趙佔領對人民創投表示,在馬蜂窩和乎睿數據事件中,三個行為涉嫌違法。一是乎睿數據和丁子荃涉嫌名譽侵權行為﹔二是馬蜂窩涉嫌抄襲行為,三是馬蜂窩的商家涉嫌惡意刷單行為。
從名譽侵權角度看,如若馬蜂窩起訴乎睿數據和丁子荃涉嫌侵犯其名譽,乎睿數據和丁子荃就應該自証清白,証明自己所有數據和文章內容屬實。在這個過程中,他們僅僅有截圖並不夠,這需要公証機構對文章的內容進行公証。
從馬蜂窩涉嫌抄襲的行為來看,首先判定內容是否有版權。對於大多數評論而言,它們並不具備版權,針對這類沒有版權的評論,假如馬蜂窩隨意搬用,違反了《中華人民共和國反不正當競爭法》的誠信原則和商業道德,因為這些評論能夠為用戶的旅游提供參考,可以視為馬蜂窩的核心競爭力之一﹔針對有版權的評論,因為評論的版權在用戶手中,那麼隨意搬用行為涉嫌侵犯用戶權益。
從馬蜂窩平台的商戶涉嫌刷單行為來看,馬蜂窩作為內容平台,如果用戶惡意刷單,馬蜂窩並沒有直接責任。因為刷單行為取証困難,行為隱蔽,主要由工商部門予以查處,但這還需要有人舉報並提供線索,才能進一步調查,處罰案例較少。
趙佔領透露,在他印象中,隻有上海一家刷單公司因非法經營罪而受到處罰。
包月刷單
在丁子荃的文章中,除評論抄襲外,馬蜂窩平台上營銷賬號批量發布“假”游記和大批水軍刷單。
職業刷單人王啟對人民創投表示,刷單分為兩種,一種是簡單刷,不購物,另外一種是精品刷,但這需要要購物。
據王啟介紹,多數刷單人員是兼職刷單,沒有固定上班地點,所有人聚集在一個群裡,信息也在群裡隨時發布。
“一單大概能掙六元。”王啟說,刷單人購買商品是真實的,商家在收到購物款后,商家會給刷單人快遞兩毛錢一包的紙巾,並將貨款退給刷單人。這筆交易就算完成。
王啟說,靠自己刷單非常辛苦,你要不斷的更換登錄賬號。即使你是勤奮的人,一天也刷不了五、六十單,很難月薪過萬。
王啟說,如果你想獲得更高收入,那就必須依靠下線。在管理平台上,王啟分享八層下線收益,這筆收益在他總收入中佔據大頭。
王啟對人民創投出示一張收入明細:“2018年3月,月收入2457.55元﹔2018年6月,月收入14679.92元﹔2018年8月,月收入接近三萬元。”
王啟認為,對於新商家而言,開店就想盈利不切實際,刷單是必須做的事情,否則沒有流量。商家通過刷單,商店能在關鍵字搜索中排到前五頁,這才意味實現穩定收入。
如今,在靠流量排名的互聯網商業規則中,商家沒有流量就意味著被忽視,而高流量就意味著高價值。
刷單業務員陳亞對人民創投說,除了給淘寶、拼多多、京東等商家刷單外,她還有其它刷單方式。比如視頻刷單,公眾號刷單,評論刷流量等。
據陳亞介紹,一些刷單是按流量收費,多一個流量就多收一筆錢。不過,她還提供刷單包月制,比如商家給她300元包月費,她每天為商家提供100個訪客,10個收藏和5個加購。
有組織攻擊?
馬蜂窩由陳罡和呂剛創立於2006年,這與陳罡熱愛旅游息息相關。
對於喜好旅游的人而言,與同伴分享游玩照片是一種享受。當時互聯網沒有旅游愛好者開辦的社區,這讓陳罡的分享體驗十分不佳。隨后,他找到好友呂剛,兩人交流后,打算開辦一家旅游愛好者社區。
陳罡和呂剛本來就在互聯網公司工作,陳罡負責技術,呂剛負責商務,兩人一拍即合,馬蜂窩社區很快建立起來。
2017年,陳罡就曾表示,馬蜂窩已接近盈虧平衡,“可以說未來三年左右時間,馬蜂窩完全能有獨立IPO的計劃和能力”。
今年8月,路透社曝出馬蜂窩有望獲得新一輪3億美元融資的消息,並稱其有可能在這輪融資中達到20至25億美元的估值。
10月24日,據36氪報道,本次領投方為騰訊,投后估值20億美元,高鵠資本擔任融資顧問。一名接近交易的人士稱,馬蜂窩本輪融資“基本close,只是spa協議(股權認購協議)還沒簽”。另一位接近交易人士表示,此次抄襲事件對此次融資影響不大,估值邏輯更多基於營收。
巧合的是,馬蜂窩涉嫌抄襲事件正是在這個時間段被曝出。
馬蜂窩曾提出“這是有組織的攻擊行為。”但丁子荃對人民創投表示,乎睿數據由國外學習的三位高材生組建。有次,他們在國內因吃外賣拉肚子,然后給商家一個差評,商家就回復他們:“誹謗也不是這樣誹謗的,同行請走開。”這讓乎睿數據團隊非常生氣。
據丁子荃介紹,因為這次不愉快經歷,乎睿數據團隊決定研發一個數據模型,用於高效、准確篩選餐飲點評中的水軍。模型建成后,正巧馬蜂窩的廣告鋪天蓋地,團隊選擇使用馬蜂窩的用戶評價數據對模型進行測試和訓練,也正是在測試和訓練過程中,乎睿數據發現馬蜂窩抄襲黑幕。
丁子荃說,歷時四個月,乎睿數據從世界各地的OTA網站摘取數據進行對比,初步完成了馬蜂窩涉嫌抄襲的數據報告。
“這份曝光馬蜂窩的報告被公開並不容易,起初乎睿數據曾寄希望於科技自媒體平台,因為涉及內容敏感而被拒絕。”丁子荃說。
后來,乎睿數據給自媒體人丁子荃留言:“我們團隊歷經幾個月,有一份翔實的數據和分析報告想曝出來,涉及著名科技企業的弄虛作假,營私舞弊。”
丁子荃說,雖然他覺得會帶來一些風險,但這確實是一個值得報道的事情,因為它是一個丑聞。
技術無罪
“這是潛規則。” 丁子荃說,業內人士都說爬虫技術不算抄,但抄也要分個高下,就拿馬蜂窩來說,把別人東西搬過來,連簡明英漢詞典都不刪掉,語句不通,如此低劣的抄襲,他很少見到。
華為資深技術工程師邵民也說,互聯網公司利用爬虫技術,從其他平台抓取數據或者內容的行為較為常見。爬虫技術不僅成熟,而且門檻低,通常由普通大學畢業生從事。
“相對成熟的爬虫技術,針對爬虫的防護措施卻較為落后。”邵民說,主流大型網站對自己內容的保護,主要是採用“投毒”等手段。也就是說,有毒內容被爬虫摘取后,顯示出投毒者希望顯示內容,這就是為何馬蜂窩抄襲評論后,出現網址、小廣告等無關內容。
“這就相當於柵欄,隻能防君子,不能防小人。”邵民說,由於防御技術的缺陷和法律監管的空缺,這讓爬虫技術被大量應用。“如果沒有明確的法律條文禁止某項技術使用,這意味該技術在法律層面受到認可。”
“我不贊成法律出台相關措施對爬虫技術進行限制,因為技術本身沒有好壞之分,關鍵是某些公司或者個人使用技術做了什麼事情。”邵民說,這些公司或個人因此承擔責任,更多是在行為層面,而非是在技術層面,“技術是無罪的。”
“除非用戶跳出來說,這個內容是有版權的,否則很難認定這個內容有版權。”邵民說,互聯網上有海量信息,在沒有版權的前提下,誰能得到,誰能整理,這就是誰的。“百度搜索就是最大的爬虫,這是被認可的,不涉嫌侵權。”
邵民還認為,馬蜂窩把各個網站用戶的評論進行整理,這從技術角度是為用戶更好的進行旅游體驗做了好事,並無不可。