php 網(wǎng)站 開(kāi)源支持用戶詞典擴(kuò)展定義針對(duì)全文檢索優(yōu)化的查詢(作者吐血推薦)php開(kāi)源網(wǎng)站系統(tǒng)
2022-11-01
1、
是一個(gè)基于java語(yǔ)言開(kāi)發(fā)的開(kāi)源輕量級(jí)中文分詞工具包。自 2006 年 12 月發(fā)布 1.0 版以來(lái),已經(jīng)發(fā)布了三個(gè)主要版本。最初,它是一個(gè)基于開(kāi)源項(xiàng)目的中文分詞組件,結(jié)合了字典分詞和語(yǔ)法分析算法。新版本 .0 是作為 Java 的通用分詞組件開(kāi)發(fā)的,它獨(dú)立于項(xiàng)目,并提供了對(duì)的默認(rèn)優(yōu)化實(shí)現(xiàn)。
.0 特點(diǎn):
它采用獨(dú)特的“前向迭代細(xì)粒度切分算法”,具有每秒60萬(wàn)字的高速處理能力。
采用多子處理器分析模式,支持:英文字母(IP地址、URL)、數(shù)字(日期、常用中文量詞、羅馬數(shù)字、科學(xué)記數(shù)法)、中文詞匯(人名、地名處理)等分詞加工。
優(yōu)化的字典存儲(chǔ),更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義
針對(duì)全文檢索優(yōu)化的查詢分析器(作者推薦);使用歧義分析算法優(yōu)化查詢關(guān)鍵詞的搜索排列和組合,可以大大提高檢索的命中率。
許可協(xié)議:LGPL
開(kāi)發(fā)語(yǔ)言:Java
操作系統(tǒng):跨平臺(tái)
錄制時(shí)間:2008年12月3日(國(guó)產(chǎn)軟件)
下載:或
2.盤古分詞
盤古分詞是基于.net的中英文分詞組件,提供(.net版)和接口。
高效:Core Duo 1.8 GHz 單線程分詞速度 390K 字符/秒
準(zhǔn)確:盤古分詞采用字典和統(tǒng)計(jì)相結(jié)合的分詞算法,分詞準(zhǔn)確率高。
功能:盤古分詞提供中文姓名識(shí)別、簡(jiǎn)繁混合分詞、多分詞、英文生根、強(qiáng)制一元分詞、詞頻優(yōu)先分詞、停用詞過(guò)濾、英文專有名稱提取等一系列功能。
許可協(xié)議:
開(kāi)發(fā)語(yǔ)言:C#.NET
操作系統(tǒng):
征集時(shí)間:2010年12月29日
下載:或:
3.
中文分詞庫(kù)是Java開(kāi)發(fā)的中文分詞組件,可以集成到互聯(lián)網(wǎng)和企業(yè)內(nèi)網(wǎng)的應(yīng)用程序中。填補(bǔ)了國(guó)內(nèi)中文分詞開(kāi)源組件的空白,并致力于此網(wǎng)站開(kāi)發(fā),希望成為互聯(lián)網(wǎng)網(wǎng)站中文分詞開(kāi)源組件的首選。中文分詞追求分詞效率高,用戶體驗(yàn)好。
的中文分詞具有極高的效率和高擴(kuò)展性。引入隱喻,完全面向?qū)ο蟮脑O(shè)計(jì),先進(jìn)的概念。
效率高:在PIII 1G內(nèi)存的個(gè)人電腦上,1秒就能準(zhǔn)確切分100萬(wàn)個(gè)漢字。
文章基于無(wú)限數(shù)量的詞典文件進(jìn)行有效分割,實(shí)現(xiàn)詞匯的分類和定義。
能夠合理地解析未知詞匯
許可協(xié)議:
開(kāi)發(fā)語(yǔ)言:Java
操作系統(tǒng):跨平臺(tái)
錄制時(shí)間:2008年9月7日(國(guó)產(chǎn)軟件)
下載:或
4.
中科院最新免費(fèi)開(kāi)源代碼,包含中文分詞算法,大家可以一起學(xué)習(xí)研究,對(duì)搜索引擎的中文分詞很有用。
許可協(xié)議:未知
開(kāi)發(fā)語(yǔ)言:C/C++
操作系統(tǒng):
錄制時(shí)間:2010年10月20日(國(guó)產(chǎn)軟件)
下載:
5.
是專為全文搜索引擎設(shè)計(jì)的中文分詞軟件包。其根據(jù) GPL 協(xié)議發(fā)布的中文分詞方法采用 Chih-Hao Tsai 算法。
您可以在 Chih-Hao Tsai 的頁(yè)面上找到算法的原文。
采用C++開(kāi)發(fā),支持平臺(tái)和平臺(tái),分割速度約300K/s(PM-1.2G)。目前版本(0.7.1)還沒(méi)有對(duì)速度進(jìn)行仔細(xì)的優(yōu)化,分割速度應(yīng)該還有進(jìn)一步提升的空間。.
許可協(xié)議:未知
開(kāi)發(fā)語(yǔ)言:C/C++
操作系統(tǒng):跨平臺(tái)
錄制時(shí)間:2009年5月31日(國(guó)產(chǎn)軟件)
下載:0.7.3
6.
是一個(gè)開(kāi)源的PHP中文分詞擴(kuò)展,目前只支持/Unix系統(tǒng),項(xiàng)目現(xiàn)已更名,本項(xiàng)目不再維護(hù)。
首先使用“3.0共享中文分詞算法”的API進(jìn)行初始分詞處理php 網(wǎng)站 開(kāi)源,然后使用自己編寫的“反向最大匹配算法”進(jìn)行分詞和分詞處理,并添加標(biāo)點(diǎn)過(guò)濾功能得到分詞結(jié)果。
( , ) 是中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作的基礎(chǔ)上,基于多層隱馬模型開(kāi)發(fā)的中文詞法分析系統(tǒng)。其主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;生詞識(shí)別;還支持用戶詞典。經(jīng)過(guò)五年的精心建設(shè),內(nèi)核升級(jí)了6次php 網(wǎng)站 開(kāi)源,現(xiàn)在已經(jīng)升級(jí)到.0,分詞準(zhǔn)確率為98.45%seo優(yōu)化,各種詞典數(shù)據(jù)壓縮小于3M。該活動(dòng)在國(guó)內(nèi)973專家組組織的評(píng)審中獲得第一名,在首個(gè)國(guó)際華人加工研究組織組織的評(píng)審中獲得多項(xiàng)第一名。
許可協(xié)議:BSD
開(kāi)發(fā)語(yǔ)言:PHP
操作系統(tǒng):跨平臺(tái)
錄制時(shí)間:2009年3月19日(國(guó)產(chǎn)軟件)
下載: