京東商品標(biāo)題如何優(yōu)化(技術(shù)貼)

2015-07-02|HiShop
導(dǎo)讀:“標(biāo)題為皇,內(nèi)容為王”這句話大家應(yīng)該都知道,京東商品標(biāo)題如何優(yōu)化,這里接下來要講到的是京東文本權(quán)重的問題,這個(gè)問題和京東商品標(biāo)題優(yōu)化有直接的關(guān)系。...
京東商品標(biāo)題如何優(yōu)化(技術(shù)貼)

  “標(biāo)題為皇,內(nèi)容為王”這句話大家應(yīng)該都知道,再任何一個(gè)地方都適用,京東商品標(biāo)題如何優(yōu)化,這里接下來要講到的是京東文本權(quán)重的問題,這個(gè)問題和京東商品標(biāo)題優(yōu)化有直接的關(guān)系。

  首先解釋一下什么是文本權(quán)重:文本權(quán)重主要是比較用戶搜索詞和您的商品相關(guān)文本信息(商品標(biāo)題,商品分類,商品擴(kuò)展屬性...)的文本相關(guān)度。決定文本相關(guān)度的因素主要有以下三個(gè):

  一: 詞頻 二:詞的唯一性 三:文本長(zhǎng)度

  那么何為文本相關(guān)度呢?為什么由這三項(xiàng)因素決定呢?我先解釋一下各個(gè)因素的具體含義,然后再對(duì)一些喜歡深究原理的朋友(技術(shù)路線的朋友)貼出擴(kuò)展閱讀的算法帖子來解釋目前用的比較多的兩個(gè)文本相關(guān)度算法(bm25算法,和余弦夾角算法)的公式和具體解釋。

  詞頻:搜索詞在商品文本信息中出現(xiàn)的次數(shù)

  詞的唯一性:詞在商品文本信息中出現(xiàn)的次數(shù) / 總商品數(shù)

  文本長(zhǎng)度:就是商品文本信息的文本長(zhǎng)度

  通俗的講文本相關(guān)度就是指兩段文本的含義是否相近。文本的含義是由基本的語義單元也就是 '詞' 次序組合而成。舉個(gè)比較簡(jiǎn)單的例子,比如說下面這段文本:"長(zhǎng)江市長(zhǎng)江大橋",如果切分方式不同,含義也就不同, 它可以有兩種解釋:1. 長(zhǎng)江市 長(zhǎng)江大橋 (代表一座橋) 2. 長(zhǎng)江 市長(zhǎng) 江大橋 (代表一個(gè)人)。 所以比較兩段文本的相關(guān)度可以轉(zhuǎn)換成比較兩段文本所構(gòu)成的詞的組合的相關(guān)度。如果兩段文章的中心詞們大多都相同,且同一個(gè)中心詞在兩短文章的中心程度都差不多的話,可以判定兩段文章的意思差不多一樣。那么如何絕對(duì)中心詞的中心程度呢?如果一個(gè)詞在這篇文章中出現(xiàn)多次,且只在這篇文章中出現(xiàn),而且這篇文章還不是特別長(zhǎng),那么這個(gè)詞其實(shí)就可以認(rèn)為他是這篇文中的中心詞。他的中心程度可以用一個(gè)術(shù)語來表示叫做:term weight(詞相對(duì)文章權(quán)重值),那么term weight的計(jì)算公式一般都是這樣: tf(詞出現(xiàn)的頻率)/idf(詞的唯一性)/dl(文章的文本長(zhǎng)度) 當(dāng)然這都是簡(jiǎn)寫。搜索引擎把用戶的查詢?cè)~也當(dāng)做一段文本,商品的文本信息也當(dāng)做一段文本,那么文本相關(guān)度就成了用戶查詢?cè)~相對(duì)于商品文本信息中的相關(guān)度。對(duì)于計(jì)算機(jī)來說,必須把它轉(zhuǎn)換成數(shù)學(xué)模型才能得以計(jì)算,目前有兩種比較流行的算法,我在這不細(xì)闡述,但是我貼出了兩個(gè)我認(rèn)為寫的比較好的博客,大家有時(shí)間可以閱讀以下(對(duì)于對(duì)數(shù)學(xué)比較敢興趣的),京東采用的是bm25算法,詞頻部分做了修改,因?yàn)椴皇俏也偈指牡乃约?xì)節(jié)并不清楚。我估計(jì)就是設(shè)了個(gè)最大詞頻,避免疊詞對(duì)文本產(chǎn)生過大影響。

  京東商品標(biāo)題如何優(yōu)化上述從技術(shù)方面給大家詮釋了一些,從計(jì)算公式以及權(quán)重來解釋標(biāo)題的優(yōu)化,希望這些對(duì)大家有幫助。

重磅推薦:商城開店目錄

第一部分:概念篇

第二部分:社區(qū)團(tuán)購

第三部分:零售商城

第四部分:微商城分銷

第五部分:小程序商城

第六部分:小程序直播