欧美精品123_精品露脸国产偷人在视频_日韩美女免费线视频_成人av三级

干貨|國(guó)內(nèi)最常用的17個(gè)語(yǔ)料庫(kù),收藏(食堂常用干貨大全)

本文的標(biāo)題是《干貨|國(guó)內(nèi)最常用的17個(gè)語(yǔ)料庫(kù),收藏》來(lái)源于:由作者:陳銳烯采編而成,主要講述了通用單語(yǔ)語(yǔ)料庫(kù)
01國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)
該語(yǔ)料庫(kù)是由國(guó)家語(yǔ)言文字工作委員會(huì)主持,面向語(yǔ)言文字信


干貨|國(guó)內(nèi)最常用的17個(gè)語(yǔ)料庫(kù),收藏(食堂常用干貨大全)

通用單語(yǔ)語(yǔ)料庫(kù)

01國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)

語(yǔ)料庫(kù)是由國(guó)家語(yǔ)言文字工作委員會(huì)主持,面向語(yǔ)言文字信息處理、語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定、語(yǔ)言文字的學(xué)術(shù)研究、語(yǔ)文教育以及語(yǔ)言文字的社會(huì)應(yīng)用,總體規(guī)模達(dá)1 億字,語(yǔ)料時(shí)間跨度為1919-2002年,收錄了人文與社會(huì)科學(xué)、自然科學(xué)及綜合三個(gè)大類約40個(gè)小類的語(yǔ)料(http://www.cncorpus.org)。其中標(biāo)注語(yǔ)料庫(kù)為國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)全庫(kù)的子集,該子集是按照預(yù)先設(shè)計(jì)的選材原則進(jìn)行平衡抽樣,對(duì)語(yǔ)料進(jìn)行分詞和詞類標(biāo)注,并經(jīng)過(guò)三次人工校對(duì),最后得到約5000萬(wàn)字符的標(biāo)注語(yǔ)料庫(kù)。


干貨|國(guó)內(nèi)最常用的17個(gè)語(yǔ)料庫(kù),收藏(食堂常用干貨大全)

(圖片來(lái)源:全景視覺(jué))

02北京語(yǔ)言大學(xué)語(yǔ)料庫(kù)中心BCC語(yǔ)料庫(kù)

BCC語(yǔ)料庫(kù)(http://bcc.blcu.edu.cn)是以漢語(yǔ)為主,兼有英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、德語(yǔ)、土耳其語(yǔ)等語(yǔ)言的語(yǔ)料庫(kù),其中漢語(yǔ)語(yǔ)料規(guī)模約150億字,涵蓋了報(bào)刊、文學(xué)、微博、科技、綜合和古漢語(yǔ)等多領(lǐng)域語(yǔ)料。BCC語(yǔ)料庫(kù)包括了生語(yǔ)料、分詞語(yǔ)料、詞性標(biāo)注語(yǔ)料和句法樹(shù),目前已對(duì)現(xiàn)代漢語(yǔ)、英語(yǔ)、法語(yǔ)的語(yǔ)料進(jìn)行詞性標(biāo)注。

03清華TH語(yǔ)料庫(kù)

清華TH語(yǔ)料庫(kù)(http://www.openslr.org/18)于1994年6月建成,其總庫(kù)根據(jù)對(duì)語(yǔ)料加工深度的不同采用分級(jí)管理的原則,分成了生語(yǔ)料和熟語(yǔ)料兩大類,其中0級(jí)生語(yǔ)料分庫(kù)涵蓋了一般書、報(bào)紙、論文、雜志、工具書等五類子庫(kù)語(yǔ)料素材。經(jīng)過(guò)近年來(lái)不斷的升級(jí)和更新,已更名為THCHS-30語(yǔ)料庫(kù)。

04北京大學(xué)CCL語(yǔ)料庫(kù)

CCL語(yǔ)料庫(kù)(http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai)中包含現(xiàn)代漢語(yǔ)語(yǔ)料、古代漢語(yǔ)語(yǔ)料兩類單語(yǔ)語(yǔ)料,涉及的文獻(xiàn)時(shí)間從公元前11世紀(jì)到當(dāng)代。其中現(xiàn)代漢語(yǔ)語(yǔ)料約6 億字符,涵蓋了文學(xué)、戲劇、報(bào)刊、翻譯作品、網(wǎng)絡(luò)語(yǔ)料、應(yīng)用文、電視電影、學(xué)術(shù)文獻(xiàn)、史傳、相聲小品、口語(yǔ)等多個(gè)類型。CCL語(yǔ)料庫(kù)中古代漢語(yǔ)語(yǔ)料約2億字符,收錄了從周代到民國(guó)的語(yǔ)料及大藏經(jīng)、二十五史、歷代筆記、十三經(jīng)注疏、全唐詩(shī)、諸子百家、全元曲、全宋詞、道藏、辭書、蒙學(xué)讀物等的雜類語(yǔ)料。除了兩大單語(yǔ)語(yǔ)料庫(kù)的擴(kuò)容外,近年來(lái)CCL語(yǔ)料庫(kù)還融入了一些專題語(yǔ)料庫(kù),例如:早期北京話材料、留學(xué)生漢語(yǔ)作文語(yǔ)料、漢語(yǔ)構(gòu)式語(yǔ)料庫(kù)、中文學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)、海外華文網(wǎng)絡(luò)語(yǔ)料等等。

05**日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)

該語(yǔ)料庫(kù)是我國(guó)第一個(gè)大型的現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù),以《**日?qǐng)?bào)》1998年的純文本語(yǔ)料為基礎(chǔ),完成詞語(yǔ)切分、詞性標(biāo)注、專有名詞標(biāo)注、語(yǔ)素子類標(biāo)注、動(dòng)詞和形容詞特殊用法標(biāo)注、短語(yǔ)型標(biāo)注等加工工作,現(xiàn)已擴(kuò)充至3500萬(wàn)字的規(guī)模。后來(lái)北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所在此基礎(chǔ)上完成了另外100萬(wàn)字語(yǔ)料的詞語(yǔ)切分、詞性標(biāo)注和漢語(yǔ)拼音標(biāo)注的加工任務(wù),還利用所研制的《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》、參照《現(xiàn)代漢語(yǔ)詞典》,根據(jù)語(yǔ)料實(shí)際使用情況對(duì)詞義描寫進(jìn)行調(diào)整,研發(fā)了一個(gè)大規(guī)模、高質(zhì)量的現(xiàn)代漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)(Chinese Word Sense Tagging Corpus,STC)

為了彌補(bǔ)北京大學(xué)**日?qǐng)?bào)語(yǔ)料庫(kù)用于處理當(dāng)前文本時(shí)的不足,2019年開(kāi)始南京農(nóng)業(yè)大學(xué)人文與社會(huì)計(jì)算研究中心以2015年至2018年《**日?qǐng)?bào)》發(fā)表的文章為對(duì)象,構(gòu)建了新時(shí)代**日?qǐng)?bào)語(yǔ)料庫(kù)(簡(jiǎn)稱NEPD,http://corpus.njau.edu.cn/,目前該語(yǔ)料庫(kù)涵蓋了《**日?qǐng)?bào)》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9個(gè)月的分詞語(yǔ)料,并且后續(xù)將不斷補(bǔ)充最新語(yǔ)料 。

06清華漢語(yǔ)樹(shù)庫(kù)(TshinghuaChineseTreebank,TCT )

該語(yǔ)料庫(kù)從包含文學(xué)、學(xué)術(shù)、**、應(yīng)用四大體裁的200萬(wàn)漢字平衡語(yǔ)料庫(kù)中提取了100萬(wàn)漢字規(guī)模的語(yǔ)料文本,經(jīng)過(guò)自動(dòng)斷句、句法分析后再進(jìn)行人工校對(duì),形成了有完整句法結(jié)構(gòu)樹(shù)的漢語(yǔ)句法樹(shù)庫(kù)語(yǔ)料。

漢英雙語(yǔ)平行語(yǔ)料庫(kù)

07**科學(xué)院漢英平行語(yǔ)料庫(kù)

**科學(xué)院漢英平行語(yǔ)料庫(kù)是在對(duì)中英文篇章對(duì)齊的雙語(yǔ)文本進(jìn)行段落對(duì)齊、句子對(duì)齊加工后建立的一個(gè)句子級(jí)對(duì)齊的雙語(yǔ)語(yǔ)言信息和知識(shí)庫(kù),該語(yǔ)料庫(kù)借助互聯(lián)網(wǎng)等其他媒體搜集中英文篇章級(jí)對(duì)齊的雙語(yǔ)文本,面向多領(lǐng)域多體裁,采用基于雙語(yǔ)辭典的句子對(duì)齊方法進(jìn)行了文本對(duì)齊,并對(duì)雙語(yǔ)文本句子對(duì)齊結(jié)果實(shí)現(xiàn)自動(dòng)評(píng)價(jià)。

08南京大學(xué)雙語(yǔ)詞典研究中心英漢雙語(yǔ)平行語(yǔ)料庫(kù)(NJU_BDRCBC)

該語(yǔ)料庫(kù)的總體規(guī)模共約200萬(wàn)對(duì)英漢平行句對(duì),英語(yǔ)和漢語(yǔ)詞例數(shù)高達(dá)2億詞次,其素材一方面來(lái)源于南京大學(xué)雙語(yǔ)詞典中心擁有自主知識(shí)產(chǎn)權(quán)的雙語(yǔ)辭書標(biāo)準(zhǔn)數(shù)據(jù)以及英漢雙語(yǔ)對(duì)照文獻(xiàn),另一方面也面向網(wǎng)絡(luò)獲取了大量的英漢雙語(yǔ)平行對(duì)語(yǔ)料。南京大學(xué)雙語(yǔ)詞典研究中心還跟商務(wù)印書館聯(lián)合開(kāi)發(fā)了CONULEXID(The Commercial Press and Nanjing University Lexical Database) 英漢語(yǔ)言資料庫(kù),該語(yǔ)料庫(kù)系統(tǒng)于1994年正式開(kāi)始創(chuàng)建,并于1997年通過(guò)驗(yàn)收。

09清華大學(xué)中英平行語(yǔ)料庫(kù)

清華大學(xué)中英平行語(yǔ)料庫(kù)(http://thumt.thunlp.org/)由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室在國(guó)家“863 計(jì)劃” 項(xiàng)目“ 互聯(lián)網(wǎng)語(yǔ)言翻譯系統(tǒng)研制” 的支持下,利用自身研發(fā)的互聯(lián)網(wǎng)平行網(wǎng)頁(yè)獲取軟件和雙語(yǔ)句子自動(dòng)對(duì)齊軟件獲取并處理得到的,共包含285萬(wàn)中英平行句對(duì)。

其他漢外平行語(yǔ)料庫(kù)

10北京大學(xué)計(jì)算語(yǔ)言研究所雙語(yǔ)平行語(yǔ)料庫(kù)

該語(yǔ)料庫(kù)為大型漢英、漢日雙語(yǔ)語(yǔ)料庫(kù),包含漢英句子級(jí)對(duì)齊語(yǔ)料20萬(wàn)句對(duì)、漢日句子級(jí)對(duì)齊語(yǔ)料2萬(wàn)句對(duì)、漢英詞匯級(jí)對(duì)齊語(yǔ)料1萬(wàn)對(duì),旨在為機(jī)器翻譯等應(yīng)用系統(tǒng)的研發(fā)提供基礎(chǔ)資源和標(biāo)準(zhǔn)的評(píng)測(cè)語(yǔ)料 。

11北京外國(guó)語(yǔ)大學(xué)雙語(yǔ)平行語(yǔ)料庫(kù)

由王克非負(fù)責(zé)構(gòu)建的漢英和漢日兩個(gè)平行語(yǔ)料庫(kù)目前仍在建設(shè)中。該語(yǔ)料庫(kù)包括2000萬(wàn)字的日漢對(duì)譯文本語(yǔ)料庫(kù)和3000萬(wàn)字詞的通用型漢英平行語(yǔ)料庫(kù)兩個(gè)部分。目前2000萬(wàn)字的日漢對(duì)譯文本語(yǔ)料庫(kù)的平行對(duì)應(yīng)語(yǔ)料分為文學(xué)與非文學(xué)、漢譯日和日譯漢存放,做到段落級(jí)對(duì)齊,運(yùn)用所研制的檢索工具可對(duì)漢日語(yǔ)料做各種詞語(yǔ)、短語(yǔ)、句型和搭配上的檢索。通用型漢英平行語(yǔ)料庫(kù)分為,“百科語(yǔ)料庫(kù)”“翻譯文本庫(kù)”“雙語(yǔ)語(yǔ)句庫(kù)”以及“專科語(yǔ)料庫(kù)”四個(gè)子庫(kù),目前3000萬(wàn)字詞語(yǔ)料已基本做到句級(jí)對(duì)齊,其中2000萬(wàn)字詞語(yǔ)料已完成最終校對(duì)、標(biāo)注、雙語(yǔ)鏈接。

12南京農(nóng)業(yè)大學(xué)典籍平行語(yǔ)料庫(kù)

基于十三經(jīng)、《戰(zhàn)國(guó)策》、前四史等典籍及其所對(duì)應(yīng)的白話文和英文翻譯,南京農(nóng)業(yè)大學(xué)王東波結(jié)合深度學(xué)習(xí)相應(yīng)模型設(shè)計(jì)了句對(duì)齊的算法,實(shí)現(xiàn)了古文句子與白話文和英文的對(duì)齊,并對(duì)古文、白話文和英文進(jìn)行了分詞、詞性和實(shí)體標(biāo)注,形成了獨(dú)具特色的典籍平行語(yǔ)料庫(kù) 。

其他特色語(yǔ)料庫(kù)

13漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)

漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)(http://qqk.blcu.edu.cn/#/login)由北京語(yǔ)言大學(xué)( 原北京語(yǔ)言學(xué)院于1992年開(kāi)始建設(shè)。該語(yǔ)料庫(kù)立足于漢語(yǔ)教學(xué)已收錄1635位外國(guó)學(xué)生共5774篇成篇成段的漢語(yǔ)作文或練習(xí)材料,總字?jǐn)?shù)約353萬(wàn),其中1731 篇約104萬(wàn)字的語(yǔ)料經(jīng)過(guò)斷句、分詞和詞性標(biāo)注等加工處理。目前該全球漢語(yǔ)中介語(yǔ)料庫(kù)仍處于努力建設(shè)過(guò)程中,北京語(yǔ)言大學(xué)仍然努力于建設(shè)全球漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù),其規(guī)模預(yù)計(jì)達(dá)5000萬(wàn)字,包括筆語(yǔ)語(yǔ)料、口語(yǔ)語(yǔ)料和多模態(tài)子庫(kù)。筆語(yǔ)語(yǔ)料規(guī)模預(yù)計(jì)達(dá)4500萬(wàn)字,其中2000萬(wàn)字將加工成為熟語(yǔ)料;口語(yǔ)語(yǔ)料450小時(shí),約合400萬(wàn)字;多模態(tài)語(yǔ)料110小時(shí),約合100萬(wàn)字。

14HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)

該語(yǔ)料庫(kù)(http://hsk.blcu.edu.cn/Login)收錄了1992-2005年部分母語(yǔ)非漢語(yǔ)的外國(guó)人參加高等漢語(yǔ)水平考試(HSK高等) 的作文考試的答卷語(yǔ)料,2006年12月上線語(yǔ)料庫(kù)1.0版本,現(xiàn)已上線語(yǔ)料庫(kù)2.0版本,語(yǔ)料總數(shù)達(dá)11569篇,共計(jì)424萬(wàn)字。除此之外,北京語(yǔ)言大學(xué)還建立了首都外國(guó)留學(xué)生漢語(yǔ)文本語(yǔ)料庫(kù)、漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)等多種類型的漢語(yǔ)語(yǔ)料庫(kù)。北京語(yǔ)言大學(xué)多個(gè)語(yǔ)料庫(kù)的問(wèn)世及相關(guān)的研究成果激勵(lì)了更多學(xué)者和單位投入到教學(xué)導(dǎo)向的語(yǔ)料庫(kù)的建設(shè)中,已知語(yǔ)料庫(kù)有:中山大學(xué)建立的留學(xué)生中介語(yǔ)語(yǔ)料庫(kù)、漢語(yǔ)連續(xù)性中介語(yǔ)料庫(kù)、廣東外語(yǔ)外貿(mào)大學(xué)與蘭卡斯特大**合建立的Guangwai Lancaster漢語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)等。

15**傳媒大學(xué)有聲媒體文本語(yǔ)料庫(kù)

該語(yǔ)料庫(kù)(http://ling.cuc.edu.cn/Raw-Pub/)由**傳媒大學(xué)國(guó)家語(yǔ)言資源檢測(cè)與研究有聲媒體中心開(kāi)發(fā),2003年開(kāi)始建設(shè),2005年上線,其后不斷擴(kuò)大語(yǔ)料規(guī)模, 并于2016年進(jìn)行了第三次改版。該語(yǔ)料庫(kù)包括2008-2013年的3萬(wàn)多個(gè)廣播、電視節(jié)目的轉(zhuǎn)寫文本,總字符數(shù)達(dá)到2.4 億個(gè),并對(duì)所有文本進(jìn)行了自動(dòng)分詞和詞性標(biāo)注。

16名著漢英平行語(yǔ)料庫(kù)

《紅樓夢(mèng)》漢英平行語(yǔ)料庫(kù)是國(guó)內(nèi)第一個(gè)根據(jù)譯者選用原底本所做的句級(jí)對(duì)齊平行語(yǔ)料庫(kù),它的成功發(fā)布可為“紅學(xué)” 不同英譯本的研究提供客觀科學(xué)的平臺(tái),為翻譯教學(xué)提供豐富的資源,為翻譯理論探討提供基本素材 。莎士比亞戲劇英漢平行語(yǔ)料庫(kù)由上海交通大學(xué)的學(xué)者研究構(gòu)建,容量約600萬(wàn)字詞。該語(yǔ)料庫(kù)由英文原文和三個(gè)版本的譯文構(gòu)成,在分詞的基礎(chǔ)上實(shí)現(xiàn)了詞性標(biāo)注,以及人物對(duì)話層面的對(duì)齊,該庫(kù)可以展開(kāi)一對(duì)一及一對(duì)多的平行檢索,為莎劇翻譯研究和語(yǔ)言研究提供了寶貴資源 。

17少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)

除了漢語(yǔ)相關(guān)語(yǔ)料庫(kù)之外,國(guó)內(nèi)少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建研究工作也正在逐步發(fā)展,尤其是蒙古族、**爾族、藏族等幾個(gè)少數(shù)民族的語(yǔ)料庫(kù)。現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù),由內(nèi)蒙古大學(xué)蒙古語(yǔ)文研究所于1998年構(gòu)建完成,總規(guī)模達(dá)5000萬(wàn)詞,涵蓋了文科教材、理科教材、文學(xué)、**、政治、社會(huì)科學(xué)、自然科學(xué)、口語(yǔ)等類型語(yǔ)料。內(nèi)蒙古大學(xué)蒙古語(yǔ)文研究所在2003年開(kāi)始建設(shè)漢蒙雙語(yǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)總規(guī)模達(dá)10萬(wàn)個(gè)句對(duì),為蒙古文信息處理、語(yǔ)言教學(xué)、漢蒙雙語(yǔ)研究和漢蒙雙語(yǔ)詞典的編纂等工作的發(fā)展奠定了基礎(chǔ)。現(xiàn)代**爾語(yǔ)語(yǔ)料庫(kù),由新疆大學(xué)于2002年開(kāi)始建設(shè),生語(yǔ)料規(guī)模達(dá)800萬(wàn)詞。**大學(xué)大型藏文語(yǔ)料庫(kù),總規(guī)模高達(dá)1.5億藏文字符,其中3000萬(wàn)藏文字符經(jīng)過(guò)分詞和詞性標(biāo)注加工 。除此之外,還有200萬(wàn)詞的新疆師范大學(xué)**爾語(yǔ)語(yǔ)料庫(kù)、規(guī)模約1億3千萬(wàn)字節(jié)的西北民族大學(xué)大型藏文語(yǔ)料庫(kù)、500萬(wàn)藏語(yǔ)字符的**社會(huì)科學(xué)院民族學(xué)語(yǔ)人類學(xué)研究所藏語(yǔ)語(yǔ)料庫(kù)等。

干貨|國(guó)內(nèi)最常用的17個(gè)語(yǔ)料庫(kù),收藏(食堂常用干貨大全)
本文原作者為陳銳烯,轉(zhuǎn)載請(qǐng)注明:出處!如該文有不妥之處,請(qǐng)聯(lián)系站長(zhǎng)刪除,謝謝合作~

原創(chuàng)文章,作者:陳銳烯,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.uuuxu.com/20220512316367.html

主站蜘蛛池模板: 喀喇沁旗| 耿马| 华亭县| 蒲江县| 玉环县| 东海县| 华容县| 穆棱市| 西和县| 宾阳县| 西乌珠穆沁旗| 张北县| 宣城市| 南京市| 潢川县| 沧州市| 商水县| 兴山县| 崇阳县| 叶城县| 肥东县| 江陵县| 建瓯市| 措美县| 射洪县| 中牟县| 贵南县| 彝良县| 梓潼县| 襄城县| 东明县| 新乐市| 互助| 罗甸县| 隆昌县| 灵丘县| 沙洋县| 武邑县| 赤壁市| 宕昌县| 滦平县|