百度搜索引擎中文分詞與文本粒度

2015-10-08  來自: 陜西印象信息技術有限公司 瀏覽次數:1535

    百度搜索引擎的目的就是在滿足絕大部分用戶的需求下提供最精que最豐富的搜索結果,對于搜索引擎而言,用戶停留時間越短,越說明搜索引擎的高效性和準確性,不管是百度的輕應用、知心搜索,還是谷歌的語義搜索、蜂鳥算法,或是360的我的搜索,都是為了能夠幫助人們更方便的找到所求。

    而對于搜索引擎而言,想要給用戶最需求的就需要去判斷用戶搜索詞的意圖。而搜索引擎盡管非常高效,數據庫非常龐大,但它畢竟不是那么智能,不能直接判斷出搜索詞的意思,盡管谷歌已公布可以借助更加復雜的搜索請求更好的理解人類語言的概念,而不是一些零散的單詞,這樣的搜索能提供更加精準的結果,即整句搜索。但這只是一小步,搜索引擎不論是進行索引還是網頁排序仍需要對文本進行切分,即中文分詞。分詞仍然是最基礎也是最重要的。而在中文分詞過程中文本粒度起到關鍵性的作用。

    文本粒度

    所謂文本粒度,對于搜索引擎而言:粒度是衡量文本所含信息量的大小。文本含信息量越多,粒度就越大,反之就小。有人會說那簡單啊,當然詞越長含有的信息量就越大,你確定?那木木SEO告訴你一個小玩意:肌聯蛋白是目前已知的最da蛋白質,名字足足有189819個字母,是名副其實最da的單詞。這個單詞的信息量是有多大?閑話不多說,先來看下面幾組詞中,哪些的粒度大,哪些的粒度小。

    蘿卜、葡萄、乒乓

    龍井、籃球、紅色、橡皮檫

    踢球、拔河、談戀愛、登山

    高清電視機、南非雙人游、呼叫中心系統

第1組詞由兩個字組成,但是僅表達一個意思,這些詞的粒度是小的。而第二組詞雖然也基本由兩個字組成,也只有一個意思,但這些詞還可以拆分,如籃和球、橡皮和檫、踢和球等,這類詞粒度要稍微大一些。而后面的第四組,不要說粒度就更大了。


258集團陜西印象服務中心

陜西印象信息技術有限公司

聯 系 人 :劉經理

業務咨詢:13379231619(同微信)

服務監督:18966660101(同微信)

客服電話:029-88412862

官方網站:http://www.hqjaum.live

聯系地址:西安市南關正街中貿廣場15號樓2單元9F

法律顧問:陜西省西安市方強律師事務所王繼平律師

CopyRight ? 版權所有: 陜西印象信息技術有限公司 技術支持:陜西印象信息技術有限公司 網站地圖 XML 備案號:陜ICP備09025595號-1

本站關鍵字: 西安網絡公司 西安網站建設 西安網站制作 西安網站設計 西安網站優化 西安網絡推廣 西安網站推廣 西安做網站公司 西安網站SEO優化


掃一掃訪問移動端
0107金蟾捕鱼游戏下载 安徽快3开奖号码 手机怎么买新疆35选7 合肥按摩体验 干什么好挣钱 天津十一选五开奖公告 山东11选5免费软 财神捕鱼官网手机版 英皇国际棋牌app 十一选五最新开奖结果 辽宁十一选五开奖号 好运彩票网站正规吗 多种玩法棋牌游戏? 极速快三在哪里开奖 3d预测专家詹天佑 中国对波兰比赛比分是多少 香港最快开奖现场直播结果