SEO流量販子:如何處理采集內容(一)

號外

這么久才開通留言功能,好丟人,這篇是本渣渣圖新鮮試試留言功能用的,沒有干貨

采集內容對SEO是否有效?

有人說采集內容對搜索引擎友好性不高,不容易獲得排名,這個是肯定且必然的。

對大多站點,上采集內容必定不如UGC、精心編輯過的內容來的效果好。但是,現在搜索引擎能獲取到的原創內容量已經不如之前多了,畢竟內容生產平臺已經轉移了,早就不集中在網站上了。另外幾個搜索引擎之間還相互抓,何況小站點呢。

所以采集內容依舊是有效的,只不過對采集內容后加工的成本越來越高了。

采集內容的后加工

擔心采集內容效果差,或者容易被K,主要還是看怎么對內容后加工。打個比方:

好比從沃爾瑪拿了一筐獼猴桃,原封不動的放到家樂福,頂多還只能是原來的售價,因為獼猴桃還是獼猴桃,商品不變。但把獼猴桃榨成汁(形態變化),加點水分瓶裝(粒度變化),再放到711里賣(平臺變化),售價可以翻幾倍(價值增益)

為啥?

因為形態變了,果汁是不同于水果的商品,且果汁更容易吸收

因為平臺變了,711定價本身就比沃爾瑪家樂福要高一點

因為粒度變了,一生二二生三三生萬物

前三者的變化,導致價值的翻倍

如果把“采集內容”比作“獼猴桃”,則對“采集內容”的后加工策略如下:

形態

組織內容方式無窮多,無論對同一個內容掰開了揉碎了分發到多處、還是多篇相關內容聚合到一處、還是其他方式,都可以讓搜索引擎更容易接受。

平臺

術業有專攻,從新浪抓一些垂直行業內容放到對應行業的垂直網站,肯定比放到新浪更合適。把專業化的內容放到專業的網站。

粒度

同樣是抓取的內容,粒度越細,在搜索引擎中的原創度越高。舉個極端的例子,星座股票起名八卦算命生辰八字風水算命qq圖片動態圖….此類型的站,哪個內容不是重復的?

增益

采集的目的在于補全內容上的漏洞,使同主題的內容比別人更加豐富飽滿充實,則產生了頁面內容價值上的增益。

采集內容完整流程

關于“采集內容處理”,從抓取到上線整個流程看,要搞定以下問題:

采集內容從哪來?

采集內容怎么抓?

采集內容如何處理?

采集內容從哪來?

對于正經做站且做正經站的,定向采集、買專業數據更合適。

定向采集,只抓幾個特定網站的特定范圍,與本站內容漏洞高度相關的。

對于不正經做站的,可選擇的范圍就多很多了,沾點邊的內容都可以抓,講究量大,所以不需要限定某幾個站的抓取,有人叫泛采集

設置幾個主題,直接抓各種大平臺的搜索結果便可。大平臺指什么?海量內容集中的地方:各類搜索引擎、各類門戶、今日頭條、微信微博、優酷土豆等等

采集內容怎么抓?

定向采集:

略,平常怎么抓就怎么抓。

泛采集:

定向爬蟲受限于網頁模板,在此基礎上加上幾個內容分析算法來提取內容,改成通用爬蟲。

好多瀏覽器插件,如印象筆記之類的,有好多類似“只看正文”的功能,點一下只顯示當前瀏覽網頁的正文信息,很多人已經把此類算法移植到python、php、java等編程語言上,搜索下便是。

采集內容如何處理?

兩個先后過程:

對原始內容的處理

對處理后內容進行組織

對原始內容的處理

百度專利說過,搜索引擎除了根據正文判斷內容相似性,也會根據html的dom節點的位置和順序來判斷,如果兩個網頁正文的html的結構相似,也可能當做重復內容來處理。

所以,采集的內容不能直接拿來就上,要對源碼清洗一下。每個人方式各異,個人一般做如下處理:

html清洗

保留主要標簽:p、img

刪除標簽中不重要的屬性

 
a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip() 
 b = re.sub(r'<p[^>]*?>','<p>',a) 
 newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

刪除中文字數 < 100字的


text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、[email protected]#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent) 
 text2 = re.sub('<[^>]*?>','',text) 
 words_number = len(text2) 

去除垃圾信息

如“XXX網小編:XXX”、郵箱網址等。。。

對處理后內容進行組織

其實就行形態上的變化,之前專門寫過一篇關于“組織內容”的幾種方式,見:如何倒騰網站內容?

微信公眾號:流量販子

功能介紹:探討SEO、黑帽、黑色產業、互聯網流量引入、流量轉化與變現的觀點、想法及技巧。堅信移動互聯網時代,掌握流量的玩法,不用依托公司及城市背景實現財務自由,打工不再是養家糊口的惟一手段。

相關文章

SEO流量販子:如何處理采集內容(一)

SEO流量販子:如何處理采集內容(二)

SEO流量販子:如何處理采集內容(三)

SEO流量販子:如何處理采集內容(四)

SEO流量販子:如何處理采集內容(五)

相關推薦

發表評論

微信掃一掃

微信掃一掃

微信掃一掃,分享到朋友圈

SEO流量販子:如何處理采集內容(一)
返回頂部

顯示

忘記密碼?

顯示

顯示

獲取驗證碼

Close
捕鱼王是正规平台吗 与军工b有关的股票 广西11选5走势图表 湖北十一选五最大遗漏 网上app赌博犯法吗 湖北11选5中奖规则图片 青海快三在手机投注客 山西快乐10分20选8 证监会对期货配资的定性 快中彩票app下载 沪市股票行情中心