隨著(zhù)知識更新的速度越來(lái)越快,信息發(fā)布、知識傳播的時(shí)效性要求越來(lái)越高,新聞出版從業(yè)人員編輯加工文字的工作量越來(lái)越大,編校質(zhì)量面臨的挑戰也越來(lái)越多。與此同時(shí),人工智能技術(shù)、自然語(yǔ)言理解技術(shù)、機器深度學(xué)習技術(shù)的發(fā)展,為內容質(zhì)量把關(guān)和提升提供了新的解決辦法。
12月30日,方正電子正式發(fā)布方正智能輔助審校系統V1.0。這是方正電子聯(lián)合數字出版技術(shù)國家重點(diǎn)實(shí)驗室、高等院校、行業(yè)專(zhuān)家等一起進(jìn)行技術(shù)研究和攻關(guān)的成果,也是在眾多新聞出版單位的積極參與和應用檢驗下,經(jīng)過(guò)不斷迭代更新的產(chǎn)品,在字詞審校、知識審校、格式審校、邏輯審校方面都取得了實(shí)質(zhì)性的進(jìn)展。
▲方正智能輔助審校產(chǎn)品功能介紹
系統簡(jiǎn)介
方正智能輔助審校立足新聞出版行業(yè),并逐漸向整個(gè)文化傳媒領(lǐng)域延伸,為出版社、報刊社、民營(yíng)書(shū)商、排版公司、互聯(lián)網(wǎng)企業(yè)、政府機關(guān)等機構用戶(hù)以及作者、工作室等個(gè)人用戶(hù)提供強大且易用的智能輔助審校服務(wù)。
該系統是專(zhuān)門(mén)為新聞出版機構提供數字化內容輔助審校的工具,能夠對內容進(jìn)行多方面檢校,包括:字詞檢查、標點(diǎn)符號檢查、文章邏輯檢查、上下文查重、專(zhuān)業(yè)術(shù)語(yǔ)檢查、敏感詞檢查等。
該系統提供兩種產(chǎn)品形態(tài)的服務(wù),支持對Word稿件和標準PDF稿件進(jìn)行內容審校,滿(mǎn)足不同人員角色、不同工作場(chǎng)景的使用需求。
01.Word客戶(hù)端插件
▲產(chǎn)品形態(tài)之一:Word客戶(hù)端插件
02.云端在線(xiàn)審校平臺
▲產(chǎn)品形態(tài)之二:云端在線(xiàn)審校平臺
功能介紹
方正智能輔助審校通過(guò)語(yǔ)言模型和機器深度學(xué)習技術(shù),通過(guò)構建算法模型對海量真實(shí)語(yǔ)料不斷訓練及優(yōu)化,累積的錯詞、專(zhuān)業(yè)術(shù)語(yǔ)、敏感詞、慎用詞、異形詞等類(lèi)型的編校知識詞條超過(guò)百萬(wàn)。
方正智能輔助審校系統參考并依據《作者編輯常用標準及規范》(第三版)《標點(diǎn)符號用法 GBT 15834-2011》以及《圖書(shū)編輯校對實(shí)用手冊》《通用規范漢字表2013版》等標準規范或權威資料,將模型、語(yǔ)料、規則三者相結合,研發(fā)出邏輯類(lèi)、字詞類(lèi)、知識類(lèi)、格式類(lèi)四類(lèi)審校功能。
通過(guò)方正智能輔助審校系統,使用者不僅能夠對稿件中的錯詞錯字、敏感詞、相似內容、公元紀年、歷史紀年、干支紀年、標點(diǎn)符號進(jìn)行檢查,還可以對稿件的大綱標題、圖表公式列表的序號等進(jìn)行檢查,對于識別出的錯誤還可以給出修改建議,并且支持對錯誤進(jìn)行快速定位、導出及修改。具體功能介紹如下:
錯詞錯字檢查
檢查稿件中是否存在錯字、別字、疊字、疊詞,以及“的地得”類(lèi)錯誤。
▲圖中:“因些該尺度具有﹥和﹤的數學(xué)特性”,“因些”需改為“因此”
敏感詞檢查
敏感詞檢查包括國家主權和領(lǐng)土完整、港澳臺問(wèn)題、民族宗教問(wèn)題、國際關(guān)系等敏感內容檢查。
▲不得稱(chēng)為“全國人大副委員長(cháng)”
▲“珠穆朗瑪峰”不得稱(chēng)為“額菲爾士峰”
▲“從香港征集回國”,有將香港視為國家的嫌疑
▲“回族就是伊斯蘭教”將民族和宗教混為一談
▲“錫金是中國的鄰國”,2005年5月起,不得將錫金作為獨立國家提及
▲對有身體傷疾的人士不使用“獨眼龍”等蔑稱(chēng)
標點(diǎn)檢查
檢查稿件中是否存在成對標點(diǎn)符號缺失或格式不一致,以及不同標點(diǎn)符號是否疊用、連用的錯誤。
▲圖中:“但其也有一些缺陷,如發(fā)展速度易受資金、,人力、時(shí)間等方面的限制”,標點(diǎn)“、,”不應該連用
大綱檢查
檢查稿件大綱的標題序號是否連續,體例或格式是否一致,標題內容是否重復,是否為孤標題。
▲圖中“3.為加強業(yè)務(wù)管理……”中的序號“3.”應改為“2.”
圖、表、公式、列表序號檢查
檢查稿件中圖片、表格、公式的序號是否存在不連續、體例或格式不一致、缺少引用的錯誤。
▲圖中“圖1-6”應改成“圖1-5”,“圖2-2”應改成“圖2-1”
上下文查重
檢查稿件中是否存在相似度較高或者完全相同的內容。
▲圖中稿件第10頁(yè)和第82頁(yè)兩句話(huà)重復,且內容完全相同
紀年檢查
檢查稿件中的紀年類(lèi)內容是否存在公元年份、干支紀年以及歷史紀年的錯誤。
▲圖中稿件“正德三年(1508)”應改為“正德三年(1713)”;“明嘉靖癸己年(1533)”應改為“明嘉靖癸巳年(1533)”
格式檢查
檢查稿件中數值的千分空是否使用正確,數值與單位符號之間是否使用了不間斷空格,以及數學(xué)符號是否使用了中文全角。
▲圖中:“有兩個(gè)鄉的水稻平均單產(chǎn)都是400kg,甲鄉的水稻單產(chǎn)在350~450kg之間的地塊”,“400kg”和“450kg”,數值和單位kg之間沒(méi)有使用不間斷空格;“%”應該使用半角格式
公式識別
方正審校還提供公式識別功能,除了能夠將圖片格式的公式識別為可編輯的MathType公式外,還可對全文所有公式進(jìn)行內容一致性檢查。
▲圖片格式的公式利用公式識別功能,可以快速轉換為可編輯的文字公式
此外,該產(chǎn)品還內嵌正版《大辭海》,用戶(hù)可以很方便地利用該功能對稿件中的名詞術(shù)語(yǔ)進(jìn)行檢索。
核心技術(shù)
方正智能輔助審校系統基于方正三十余年在內容處理方面的技術(shù)積累,結合北京大學(xué)、數字出版技術(shù)國家重點(diǎn)實(shí)驗室等在自然語(yǔ)言處理方面的最新研究成果,并在數十家用戶(hù)驗證反饋的基礎上研發(fā)而成。系統采用云架構、應用機器學(xué)習和深度學(xué)習,融合分詞、實(shí)體識別、句法分析、深度語(yǔ)言模型等技術(shù),圍繞圖書(shū)、期刊出版規范標準對內容和體例進(jìn)行檢查。
通過(guò)建立學(xué)科領(lǐng)域知識模型和大規模語(yǔ)料庫進(jìn)行訓練學(xué)習,基于深度學(xué)習的序列標注和通順度評價(jià)算法,利用字詞混淆對集候選結果進(jìn)行綜合排序,并進(jìn)一步結合大規模知識和語(yǔ)料庫進(jìn)行常識檢查,形成包括錯別字、用詞不當、敏感詞等十二類(lèi)檢查的智能化引擎,生成具有可反饋學(xué)習和強交互的勘誤表。
方正智能輔助審校系統具備審校準確率高、查全率高、速度快、語(yǔ)料更新及時(shí)、用戶(hù)使用方便等特點(diǎn)。在產(chǎn)品試用階段,已在全國范圍內100多個(gè)機構用戶(hù)試用。
未來(lái),方正智能輔助審校系統還將通過(guò)人工智能技術(shù)賦能行業(yè)智能化升級,以?xún)?yōu)異的產(chǎn)品和技術(shù)為出版行業(yè)各單位創(chuàng )造更大的價(jià)值。