企業(yè)建網(wǎng)站屬性值特征詞典構(gòu)建
日期 : 2020-12-06 15:51:36
屬性值特征詞典構(gòu)建。構(gòu)建屬性值特征詞典是為了提升商品被對(duì)應(yīng)搜索引擎檢索以及收率的概率,以上文設(shè)計(jì)為基礎(chǔ),通過(guò)分詞可以有效的將標(biāo)題轉(zhuǎn)換為商品的屬性值。
但問(wèn)題在于,每個(gè)網(wǎng)站的名稱(chēng)在電子商務(wù)網(wǎng)頁(yè)中都會(huì)重復(fù)多次的出現(xiàn),若將其填寫(xiě)到屬性值特征詞典的構(gòu)建中,會(huì)影響到后面的分析環(huán)節(jié)中增加噪聲。
因此,在構(gòu)建屬性值特征詞典時(shí),首先要獲取到網(wǎng)頁(yè)中相關(guān)的商品內(nèi)容,利用匹配算法,對(duì)網(wǎng)頁(yè)中去掉標(biāo)題后的內(nèi)容進(jìn)行比對(duì),并將獲取到的結(jié)果看作新的標(biāo)題。再對(duì)新標(biāo)題進(jìn)行分詞處理,并在其中加入詞性標(biāo)注,將最終獲取到的標(biāo)題中的名詞、形容詞、數(shù)量詞等詞性的序列視為屬性特征詞典。
但問(wèn)題在于,每個(gè)網(wǎng)站的名稱(chēng)在電子商務(wù)網(wǎng)頁(yè)中都會(huì)重復(fù)多次的出現(xiàn),若將其填寫(xiě)到屬性值特征詞典的構(gòu)建中,會(huì)影響到后面的分析環(huán)節(jié)中增加噪聲。
因此,在構(gòu)建屬性值特征詞典時(shí),首先要獲取到網(wǎng)頁(yè)中相關(guān)的商品內(nèi)容,利用匹配算法,對(duì)網(wǎng)頁(yè)中去掉標(biāo)題后的內(nèi)容進(jìn)行比對(duì),并將獲取到的結(jié)果看作新的標(biāo)題。再對(duì)新標(biāo)題進(jìn)行分詞處理,并在其中加入詞性標(biāo)注,將最終獲取到的標(biāo)題中的名詞、形容詞、數(shù)量詞等詞性的序列視為屬性特征詞典。