企業建網站屬性值特征詞典構建
日期 : 2020-12-06 15:51:36
屬性值特征詞典構建。構建屬性值特征詞典是為了提升商品被對應搜索引擎檢索以及收率的概率,以上文設計為基礎,通過分詞可以有效的將標題轉換為商品的屬性值。
但問題在于,每個網站的名稱在電子商務網頁中都會重復多次的出現,若將其填寫到屬性值特征詞典的構建中,會影響到后面的分析環節中增加噪聲。
因此,在構建屬性值特征詞典時,首先要獲取到網頁中相關的商品內容,利用匹配算法,對網頁中去掉標題后的內容進行比對,并將獲取到的結果看作新的標題。再對新標題進行分詞處理,并在其中加入詞性標注,將最終獲取到的標題中的名詞、形容詞、數量詞等詞性的序列視為屬性特征詞典。
但問題在于,每個網站的名稱在電子商務網頁中都會重復多次的出現,若將其填寫到屬性值特征詞典的構建中,會影響到后面的分析環節中增加噪聲。
因此,在構建屬性值特征詞典時,首先要獲取到網頁中相關的商品內容,利用匹配算法,對網頁中去掉標題后的內容進行比對,并將獲取到的結果看作新的標題。再對新標題進行分詞處理,并在其中加入詞性標注,將最終獲取到的標題中的名詞、形容詞、數量詞等詞性的序列視為屬性特征詞典。
上一篇:企業建網站網絡爬蟲技術的分類
下一篇:企業建網站縮減文件大小