人民網>>人民創投

“爬虫”怎麼成了“害虫”?

謝瑋  宋杰

2019年11月01日08:37  來源:人民網-中國經濟周刊

9月以來,大數據行業可謂風聲鶴唳。

一時間,魔蠍數據、新顏科技、公信寶、快錢支付、天翼征信等公司先后傳來有人被警方帶走調查的消息。

這令處於大數據風控服務核心的爬虫技術推上了風口浪尖,大數據行業也迎來了前所未有的“震蕩”。消息稱,被調查或是因為這些公司利用網絡爬虫技術侵犯個人隱私數據,這些隱私數據的泄露,加劇了暴力催收的泛濫,助長了“套路貸”“高利貸”。

而港股上市公司51信用卡(02051.HK)被警方突擊調查的消息,則為這場風波炸響了一聲“驚雷”。10月21日晚,杭州公安通報稱,51信用卡被突擊調查原因在於,今年9月以來,其委托的外包催收公司冒充國家機關,採取恐嚇、滋擾等軟暴力手段催收債務,涉嫌尋舋滋事。

目前,已經有多家大數據風控平台暫停部分服務。大數據行業似乎進入了一個前所未有的“整頓期”。

在近年互聯網金融大潮中,大數據風控供應商一直扮演著重要角色。爬虫技術也是大數據風控行業的主打產品。“爬虫”怎麼成了“害虫”?在互聯網金融風險整治不斷深化的大背景下,大數據風控行業又將何去何從?

事起“爬虫”業務

網絡爬虫也叫網絡蜘蛛(spider),是一種自動瀏覽網絡的計算機技術,能夠自動化、高效率地檢索互聯網並抓取數據。爬虫技術也是搜索引擎技術的核心元素之一,經歷了20多年的發展,已經日趨多樣化,在搜索引擎、數據分析、人工智能等領域得到了廣泛應用。

此次風波中的公司大多是國內較早從事大數據風控的服務商,主要為銀行、保險、消費金融公司、貸款機構等提供風控技術解決方案,而其中就包括了爬虫服務或者基於爬虫技術而形成的產品。

知名大數據風控平台同盾科技卷入了此次風波。其旗下子公司信川科技的數聚魔盒業務已經停止。公開信息顯示,數聚魔盒主要涉及數據採集流程,支持爬取數據用作信用評估。

“信川科技是同盾科技下屬獨立運營的子公司,旗下的數聚魔盒業務已經停止。”同盾科技相關負責人向《中國經濟周刊》記者介紹,數聚魔盒業務本身對適用條件與場景有嚴格的授權要求與限制,為更加嚴格地保護用戶合法權益,並積極響應國家關於個人信息保護的相關政策,去年公司已經開始主動收縮該業務,今年上半年已完全停止。

而背靠中國電信的天翼征信也傳來被調查的消息。有媒體報道稱,9月12日上午,天翼征信總經理、副經理以下及市場人員,共計十余人被警察帶走。

天翼征信相關負責人對《中國經濟周刊》記者表示,“我們現在一切都正常,沒有什麼太大問題。未來可能將對客戶進行篩選。我們業務都是合規的,至於行業裡的傳聞也不太好評價。而關於有無人員被帶走調查,對外不做任何回復。”

爬虫作為一種計算機技術具有中立性,在法律上也從未被禁止,為什麼這些公司會因為爬虫技術而被調查?

問題的關鍵在於爬取的行為和爬取獲得的數據是否觸及監管紅線是否經過授權?是否過度爬取數據?獲取了哪些數據?是否為獲取數據破壞被爬服務器的防護措施?

前述同盾科技負責人直言,“爬虫其實是一個中立的技術,但現在可能會有灰色地帶存在。”

插圖:《中國經濟周刊》美編 劉屹鈁

插圖:《中國經濟周刊》美編 劉屹鈁

“爬虫”的野蠻生長

在近年來的互聯網金融大潮中,大數據風控服務商扮演著重要角色。

隨著互聯網金融興起,非銀行金融機構如P2P、小貸公司、消費金融公司等都試圖掘金傳統征信數據缺失人群。而伴隨用戶金融行為進一步線上化,還產生了除工商財稅、水電煤繳費之外的信息,如支付和交易信息、社交大數據信息等等,成為判斷用戶信用水平的重要數據類型。

然而,對於這些機構而言,自身搭建完整的風控系統成本動輒高達數千萬。在此背景下,服務金融機構以及類金融機構的第三方大數據風控公司應運而生。

從這些大數據風控企業的合作體量,就可以看出市場需求的旺盛。公開信息顯示,魔蠍科技已與國內銀行、保險機構、消費金融、互聯網金融等超過2000家客戶合作。新顏科技合作機構2500家以上﹔數聚魔盒在2019年3月份下線前,合作企業超過10000家。

隨著行業的“野蠻生長”,競爭日益激烈,一些變異的爬虫產品也隨之出現,涉及竊取、泄露、濫用用戶數據等。

有業內人士向《中國經濟周刊》記者介紹,一些大數據風控服務商為了獲取海量數據,許多非授權隱私數據也會成為爬虫的目標,甚至用戶手機裡的通訊錄、通訊記錄、電商交易數據、外賣交易記錄等等,要是被盯上,“基本上你就沒什麼秘密了”。

而有些爬虫技術則採用“多線程爬取”,從而導致網站癱瘓或不能訪問,這也是大多數網絡攻擊所使用的方法之一。

“去年就一直存在個人隱私信息不斷被泄露,部分金融公司通過各種數據源對用戶數據進行打包出售再加工,嚴重涉及到公民隱私及數據安全的問題。”有業內人士對《中國經濟周刊》記者表示,有的金融公司通過各種數據源對用戶數據進行打包出售再加工,嚴重涉及公民隱私及數據安全問題。去年問題爆發得很明顯,主要集中在消費金融和現金貸兩大業務板塊。

部分拓展在線零售業務的中小城商行、農商行,也會選擇與第三方大數據風控公司合作,進行數據交叉驗証、豐富風控維度。

在上述業內人士看來,大量第三方數據公司為了獲得銀行業務,會提供大量不同的數據源,很多數據是“非脫敏”數據,“銀行業是一個國家的經濟命脈, 這些數據提供給銀行就會涉及到金融安全問題。”

“即便客戶允許你抓取,也是在這一次審批當中可以用,你把這些數據留存用於其他場景肯定是不對的。”一位不願透露姓名的業內人士對《中國經濟周刊》記者分析,從對個人信息保護的嚴格意義上講,這些數據應當全部銷毀。而部分爬虫公司並不銷毀歷史上抓取的數據,同時還提供給其他客戶、其他場景使用。

這位業內人士舉例稱,還有一類公司會採用特殊手段規避法律風險,“比如:用戶上傳身份証號碼,征信公司直接顯示用戶每個月納稅金額,這肯定觸犯法律。但他們會規避掉法律風險,用數據標簽給用戶的納稅金額打分,比如繳稅1萬元的人就是5分,1萬元以下的就是3分。”

劍指爬虫,意在數據

隨著強監管信號的不斷釋放,“野蠻生長”的大數據爬虫時代或將結束。在不少業內人士看來,本次整頓也是一個行業淨化、洗牌的過程,有利於整個行業更加健康、規范發展。

今年5月28日,國家互聯網信息辦公室發布了《數據安全管理辦法(征求意見稿)》(下稱“《管理辦法》”),用部門立法的方式對互聯網數據收集、數據處理使用,都做了明確的界定。

《管理辦法》第十六條規定,“網絡運營者採取自動化手段訪問收集網站數據,不得妨礙網站正常運行﹔此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。”

在北京大成律師事務所執業律師、北京網貸協會法律顧問肖颯看來,沒有授權的爬虫就一定是違法的,需要重點整治。現在的關鍵是如何面對這些看似“合法”的爬虫,重中之重就是運營商做到用戶授權鏈的完整,明晰完整的授權鏈,做到源頭控制。總的來說,應當盡快制定完善針對網絡爬虫的數據安全法律法規,將網絡爬虫引向合法軌道。若是違法進行網絡爬虫,就要重拳出擊,加大懲罰力度和偵查力度,涉及刑事犯罪的要重點處理。

然而,過去一個多月的行業“震蕩”昭示著,針對大數據風控行業的強監管才剛剛開始。

10月24日,有報道稱,央行日前發文緊急調研銀行與第三方數據公司合作情況。其中,銀行需排查的內容主要涉及數據採集、信用欺詐、信用評分、風控建模等方面。央行還要求各企業征信機構排查自身業務中是否存在違規爬虫行為。央行表示,如存在上述情況,請立即上報,對於存在違規爬虫業務的要立即整改。如不存在上述情況的,請出具加蓋公章的書面承諾函,並於10月24日前送至央行征信管理處。

(責編:黃玲麗、陳鍵)

深度原創

特別策劃

    創投20年——我的關鍵詞 邀請
二維碼