企業網站建設

建站知識

今日已發布信息: 234288
累計注冊用戶: 120540375

分類信息網站的垃圾信息甄別方法

分類信息網站 聯系方式 黑名單數據庫 用戶投訴

概述: 并且該聯系方式的出現頻率大于1且最近出現的時間是半年以內,那么該信息自動刪除。限定半年是給該發布者一個改過自新的機會。   以上是這個方式的簡單描述。其實要實現起來還有許多的細節需要考慮,還要避免懲罰過度。比如提取聯系方式之前,需要對數據進行處理,比如把1、①、Ⅰ等改為1、刪除數字間的空格等;用戶投訴為中介的信息不應該做惡評,而是將之改為中介,同時將聯系電話放入中介數據庫中,以后該中介發布房屋信息的時候系統會自動識別為中介信息。如果中介信息也被惡評的話,那么該中介以后就發不了信息了,這樣有點過了。


  縱觀分類信息網站,垃圾信息充斥其中。垃圾信息大大的降低了用戶體驗,如果一個網站充斥了垃圾信息,那么用戶對它的信任度會大大的降低。

  方法一:通過提取信息里的聯系方式,建立聯系方式黑名單

  垃圾信息制造者不管IP如何變、內容如何變,但是聯系方式是不變的。我們可以根據這一點來建立聯系方式黑名單數據庫。目前中國用戶用的最多的聯系方式有:電話號碼、QQ號、網址、Email地址等。這些聯系方式都有一定的特征,很容易通過正則表達式提取出來。

  那么具體如何建立黑名單呢?列表網的做法是:如果一條信息被用戶惡評五次,那么該信息自動標記為惡評狀態并隱藏。經確認的被用戶投訴的信息也被置于惡評狀態。當一條信息被置于惡評的時候,該惡評信息里的所有聯系方式均被存入黑名單數據庫中,并且出現頻率字段加1。這樣我們就有了聯系方式黑名單數據庫了,該數據庫有聯系方式的出現頻率及最新出現時間等信息。所有這些操作除了用戶投訴需要人工辨別外,其他的都是機器自動完成的。

  有了這個黑名單之后就可以通過它來鑒別垃圾信息了。怎么鑒別垃圾信息呢?列表網的做法是:機器定時地對用戶發布的信息進行檢查。如果該信息里面含有黑名單數據庫里的聯系方式,并且該聯系方式的出現頻率大于1且最近出現的時間是半年以內,那么該信息自動刪除。限定半年是給該發布者一個改過自新的機會。

  以上是這個方式的簡單描述。其實要實現起來還有許多的細節需要考慮,還要避免懲罰過度。比如提取聯系方式之前,需要對數據進行處理,比如把1、①、Ⅰ等改為1、刪除數字間的空格等;用戶投訴為中介的信息不應該做惡評,而是將之改為中介,同時將聯系電話放入中介數據庫中,以后該中介發布房屋信息的時候系統會自動識別為中介信息。如果中介信息也被惡評的話,那么該中介以后就發不了信息了,這樣有點過了。

 

  無錫家教行業建站  翡翠拍賣   今日推薦免費建站   分類信息   舒蘭網站建設公司

 

  另外,考慮一種情況,如果一個用戶在培訓類目里發布了大量的虛假招生信息,如果該用戶想發布房屋信息,這個時候如果該用戶的聯系方式落入了黑名單的話他是發不了房屋信息的。一個比較好的解決方法是在黑名單數據庫里增加類目字段。通過黑名單判斷垃圾信息的時候還需要檢查類目字段。這樣就避免了以上情況的發生。

  方法二:鑒別并刪除異地商家信息

  分類信息網站的特點之一就是本地性,本地用戶到分類信息網站上來看的就是本地的租房、交友、服務等信息。因此如果信息里面出現異地的電話號碼的話則應該作為垃圾信息處理。這個可以通過手機屬地數據庫及電話區號數據庫來判斷。并不是所有的類目都適用這條方法的,像交友、尋人類目就不應該采用這種方法。但是像二手車類目、服務類目則完全可以采用這種方法過濾掉異地信息。

  方法三:限制某些類目同一天內一個用戶只能發布一條信息

  重復的信息太多了,對用戶的體驗也不好。在這里重復信息的定義是:同一個用戶或商家(包括商家聘請的信息發布者)發布的內容相同或相似的信息。這些類目包括:生活服務、商務服務、培訓、交友、車輛等。那么如何避免重復信息的發布呢?列表網的做法是:在這些類目中用戶一天內發布的所有信息中只保留最近發布的信息,其他信息則刪除。

  方法四:關鍵字過濾

  最后不要忘了關鍵字過濾。一些有害的、敏感的關鍵字是肯定需要過濾的。

  以上是分類信息網站可以采納的反垃圾信息的簡單的行之有效的幾種方式。如果能配合貝葉斯算法過濾垃圾信息那就更完美了。

  采用貝葉斯算法過濾垃圾信息的思路是:在已經人工的確認為垃圾信息及非垃圾信息的標本庫中,對標本信息中的每個分詞進行采樣,建立分詞權重數據庫,屬于垃圾信息中的分詞權重增加,而正常信息中的分詞則權重減少。當分詞權重數據庫建立起來之后就可以根據該數據庫對新增的信息計算每個分詞的權重。如果權重總值超過了預定義的某個閾值的話,那么就可以判斷該信息為垃圾信息了。隨著信息不斷的判斷及被人工糾正錯誤,該分詞權重數據庫會越來越精確,判斷的準確率也會越來越高。

  對于分類信息來說,不同類目的分詞的權重是不一樣的,因為不同類目使用到的分詞的頻率是有區別的。因此,應該對于不同的類目使用不同的分詞權重數據庫。

  貝葉斯算法實現起來并不是很難,網上有現成的算法可以使用。最難的是對漢語語句的準確分詞。除了需要龐大的分詞數據庫外,還需要若干臺具有高性能CPU的服務器來對每天新增的數萬條信息進行分詞及權重計算。這將是一個判斷精確度和成本都很高的反垃圾信息的技術。

 

http://www.3616203.live/jzxx61970.html

老11选5走势图