国产在线综合网,天天插夜夜操,免费观看三级毛片,国产啪,美女视频美女视频美女视频,国产丝袜美腿美女视频,杨幂怼人视频

大象金服北京科技有限公司

主營:北京基礎(chǔ)軟件服務(wù),應(yīng)用軟件服務(wù),計(jì)算機(jī)系統(tǒng)服務(wù)

免費(fèi)店鋪在線升級(jí)

聯(lián)系方式
  • 公司: 大象金服北京科技有限公司
  • 地址: 北京海淀區(qū)蘇州街49-3號(hào)盈智大廈五層
  • 聯(lián)系: 劉林
  • 手機(jī): 15801695527
  • 電話: 010-62648216
  • 一鍵開店
產(chǎn)品分類

NLPIR:中文分詞是大數(shù)據(jù)挖掘的基礎(chǔ)新途徑

2019-04-12 11:01:09  3513 次瀏覽

伴隨著計(jì)算機(jī)的日益普及,互聯(lián)網(wǎng)的迅猛發(fā)展,文本的數(shù)量(電子郵件、新聞、網(wǎng)頁、科技論文等)在不停的增長,因而對(duì)文本作智能化處理以獲取所需信息的需求日益迫切。在這樣的社會(huì)需求下,自然語言處理技術(shù)的地位和作用日益重要。經(jīng)過幾十年的研究,計(jì)算機(jī) 處理自然語言的理論基礎(chǔ)日趨成熟,應(yīng)用范圍也越來越廣,初步形成了面向各種不同應(yīng)用和研究的技術(shù)體系。分詞作為自然語言處理的第 一個(gè)步驟,是其他高層應(yīng)用的基礎(chǔ),起著極其重要的作用。

中文分詞不僅是各種中文信息處理技術(shù)中使用廣泛的手段,也是信息檢索和搜索引擎必不可少的基礎(chǔ)性工作。現(xiàn)有的中文分詞方法有很多,它們以字符串匹配、統(tǒng)計(jì)模型、理解、路徑以及語義等為基礎(chǔ),并輔以分詞詞典和規(guī)則庫,能夠在一定程度上對(duì)中文信息進(jìn)行切分。但由于漢語本身的特殊性和復(fù)雜性,目前的中文分詞技術(shù)普遍存在歧義詞處理和未登錄詞(新詞)識(shí)別兩個(gè)難點(diǎn)。因此,一個(gè)好的中文分詞方法不僅需要具備的分詞算法和詞典機(jī)制,而且要準(zhǔn)確識(shí)別歧義詞和未登錄詞。

北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。

NLPIR大數(shù)據(jù)語義智能分析平臺(tái)十三大功能:

采集:對(duì)境內(nèi)外互聯(lián)網(wǎng)海量信息實(shí)時(shí)采集,有主題采集(按照信息需求的主題采集)與站點(diǎn)采集兩種模式(給定網(wǎng)址列表的站內(nèi)定點(diǎn)采集功能)。

文檔轉(zhuǎn)化:對(duì)doc、excel、pdf與ppt等多種主流文檔格式,進(jìn)行文本信息轉(zhuǎn)化,效率達(dá)到大數(shù)據(jù)處理的要求。

新詞發(fā)現(xiàn):從文本中挖掘出新詞、新概念,用戶可以用于專業(yè)詞典的編撰,還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。

批量分詞:對(duì)原始語料進(jìn)行分詞,自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄詞,新詞標(biāo)注以及詞性標(biāo)注。并可在分析過程中,導(dǎo)入用戶定義的詞典。

語言統(tǒng)計(jì):針對(duì)切分標(biāo)注結(jié)果,系統(tǒng)可以自動(dòng)地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì)。針對(duì)常用的術(shù)語,會(huì)自動(dòng)給出相應(yīng)的英文解釋。

文本聚類:能夠從大規(guī)模數(shù)據(jù)中自動(dòng)分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。同時(shí)適用于長文本和短信、微博等短文本的熱點(diǎn)分析。

文本分類:根據(jù)規(guī)則或訓(xùn)練的方法對(duì)大量文本進(jìn)行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。

摘要實(shí)體:對(duì)單篇或多篇文章,自動(dòng)提煉出內(nèi)容摘要,抽取人名、地名、機(jī)構(gòu)名、時(shí)間及主題關(guān)鍵詞;方便用戶快速瀏覽文本內(nèi)容。

智能過濾:對(duì)文本內(nèi)容的語義智能過濾審查,內(nèi)置國內(nèi)全詞庫,智能識(shí)別多種變種:形變、音變、繁簡等多種變形,語義排歧。

情感分析:針對(duì)事先指定的分析對(duì)象,系統(tǒng)自動(dòng)分析海量文檔的情感傾向:情感極性及情感值測(cè)量,并在原文中給出正負(fù)面的得分和句子樣例。

文檔去重:快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時(shí)找出所有的重復(fù)記錄。

全文檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數(shù)民族語言的檢索。

編碼轉(zhuǎn)換:自動(dòng)識(shí)別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為其他編碼。

大數(shù)據(jù)挖掘已成為大數(shù)據(jù)技術(shù)重要的應(yīng)用,它從大數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的知識(shí),找出趨勢(shì),為決策層提供有力依據(jù),對(duì)產(chǎn)品或服務(wù)發(fā)展方向起到積極作用,將有力推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)分析技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。

網(wǎng)友評(píng)論
0條評(píng)論 0人參與
最新評(píng)論
  • 暫無評(píng)論,沙發(fā)等著你!
百業(yè)店鋪 更多 >

特別提醒:本頁面所展現(xiàn)的公司、產(chǎn)品及其它相關(guān)信息,均由用戶自行發(fā)布。
購買相關(guān)產(chǎn)品時(shí)務(wù)必先行確認(rèn)商家資質(zhì)、產(chǎn)品質(zhì)量以及比較產(chǎn)品價(jià)格,慎重作出個(gè)人的獨(dú)立判斷,謹(jǐn)防欺詐行為。

回到頂部