摘要:日前,自然語言處理領域國際頂級會議ACL2020(AssociationforComputationalLinguistics)論文接收結果公布。
日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429 篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL 錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
本屆大會,云知聲-中科院自動化所“語言與知識計算聯合實驗室”共有3篇論文被收錄,分別在醫療對話的自動信息抽取、國際疾病分類(ICD)自動編碼,以及 ICD 自動編碼可解釋性等領域取得突破。這些最新的自然語言處理算法將為后續研究提供極具價值的經驗和方向,已在云知聲醫療業務率先應用。
一種面向醫學對話的醫學信息提取器
MIE: A Medical Information Extractor towards Medical Dialogues
如今,電子病歷已經成為現代醫療的重要組成部分,但是目前書寫電子病歷費時費力,已經成為醫生的沉重負擔。如果能夠從醫療對話中自動地抽取醫學信息,將極大緩解醫生書寫病歷的壓力。
本文提出一個面向醫患對話文本的信息抽取系統,它可以從對話中抽取出癥狀、檢查、手術、一般信息及其相應的狀態。這些抽取出的信息將有助于醫生書寫病歷,或者更進一步地應用于病歷的自動生成。研究團隊收集并標注了1120段在線問診的醫患對話作為數據集,采用滑動窗口形式進行標注,和序列標注相比,減緩了標注難度。在此基礎上,針對醫療問診對話文本的特點和難點,提出一種基于深度匹配的神經網絡模型,能夠考慮到對話的多輪結構,利用注意力機制捕捉對話中不同輪次之間的交互信息,從而完善醫學信息的抽取。
圖1:典型的醫學對話窗口和相應的帶注釋的標簽
HyperCore:基于雙曲空間和共現圖表示的 ICD 自動編碼
HyperCore: Hyperbolic and Co-graph Representation for Automatic ICD
Coding
國際疾病分類(International Classification of Dieases,ICD)是由世界衛生組織發起的,針對各種疾病做出的國際通用的統一分類方法,這種方法賦予每種疾病一個獨特的編碼。ICD 編碼的普及和應用能夠極大促進世界范圍內疾病的信息共享和臨床研究,并對健康狀況研究、保險索賠、發病率和死亡率統計產生積極的影響。
長期以來,ICD 編碼一直由專業編碼員人工完成。人工編碼耗時費力,而且非常容易出錯,同時不斷更新 ICD 代碼版本會導致代碼數量大幅度增加,對編碼人員的要求越來越高。數據顯示,在美國每年因為編碼錯誤以及用于提升編碼質量的相關成本超過250億美元。
為了緩解人工編碼的問題,一些工作開始嘗試利用機器自動完成 ICD 編碼任務。但是現有的方法獨立地預測每個編碼,而忽略了編碼的兩個重要特征——層級性和共現性。
在本文中,研究團隊提出了使用雙曲空間和共現圖卷積神經網絡針對性地建模上述兩種性質。具體來說,提出了一種雙曲線表示方法來利用編碼的層次結構。此外,提出了一種共現圖卷積網絡來利用編碼的共現性。在國際公開數據集上的實驗取得了最好的效果。
圖2:自動ICD編碼任務的示例
Clinical-Coder:面向中文臨床記錄的 ICD-10 自動編碼
Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes
國際疾病分類(ICD)作為世衛組織成員國在衛生統計中共同采用的對疾病進行編碼的標準分類方法,是目前國際上通用的疾病分類方法。目前廣泛使用的國際疾病分類第十次修訂版(簡稱 ICD-10)的編碼數量達到了72,184個,是以前版本(ICD-9)的五倍多。
為了緩解人工編碼耗時、費力、容易出錯的問題,很多工作開始研究利用機器進行自動的 ICD 編碼。這些方法雖然取得了很大的成功,但仍然面臨著預測結果可解釋性問題的嚴峻挑戰,可解釋的結果對臨床醫學決策具有重要意義。
針對此問題,并結合中文的語言特點,研究團隊提出了一種基于空洞卷積和N-gram語言模型的ICD自動編碼方法,利用空洞卷積捕獲非嚴格匹配的語義片段證據,利用 N-gram 捕獲嚴格匹配的語義片段證據,進而二者聯合使用,共同提升預測結果的可解釋性。實驗結果顯示,該方法不僅能在中文數據集上取得顯著的效果,在國際公開的英文數據集上也有不錯的效果。
圖3:兩種語義片段證據類型-非嚴格匹配和嚴格匹配
值得一提的是,在醫療領域,云知聲-中科院自動化所語言與知識計算聯合實驗室基于自然語言處理技術構建的醫療知識圖譜已儲備約 50萬醫學概念,超過 169 萬醫學術語庫和 398 萬醫學關系庫,涵蓋了絕大部分藥品、疾病、科室與檢查,規模達國際領先水準,并在語音病歷,病歷生成、病歷質控、輔助診斷系統等具體應用中發揮了重要支撐作用。
關于 ACL :ACL 是自然語言處理領域頂級國際學術會議,由計算語言學學會(Association for Computational Linguistics)主辦,每年舉辦一次。其接收的論文覆蓋了語言模型、句法分析、語義分析、篇章分析等計算語言學基礎研究以及信息抽取、問答系統、對話生成、機器翻譯、自動文摘、情感分析、社會計算等自然語言處理應用研究等眾多方向。第 58 屆 ACL 年會 ACL 2020 原定于 7 月 5 日-10 日在美國華盛頓西雅圖舉行,因疫情影響今年將改為在線會議。
11月29日,云知聲(上海)智能科技有限公司(以下簡稱“云知聲”)與上海儀電物聯技術股份有限公司(以...
近日,多模態人工智能模型基準評測集MMMU更新榜單,云知聲山海多模態大模型UniGPT-mMed以通...
2024年企業家創新創業發展峰會,由上海湘商財稅服務工作委員會、歐洲商學院企業服務專委會主辦,中建國...
日前,TCL科技旗下子公司TCL華星舉辦了2024年TCL華星全球顯示生態大會(DTC2024),會...
穩正資產聯合產業龍頭和上市公司,正式完成對格見構知(上海)半導體有限公司(簡稱“格見半導體”)的A輪...
投資家網(m.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。
2016年注冊于北京的中氫新能技術有限公司,下設位于大興的裝備制造公司、位于海淀區的技術研究院、材料...
一度無比高光的理想汽車,猝不及防遭遇重挫。
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...
2024年1月10日,由投資家網主辦,財經銳眼、有時間協辦,北京微金科技有限公司承辦的“第十二屆股權...