国产无遮挡色视频免费视频-国产五月色婷婷综合-国产五月婷婷-国产午夜不卡-曰批免费视频播放在线看片二-曰韩一级毛片

更多精彩 >

響鈴:AI翻譯引進NMT技術,就能精準識別“語境”嗎?

2018-06-08 10:52:41   來源:科技向令說  作者:曾響鈴 

摘要:AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。

《圣經.舊約》里記載著這樣一段故事:


當時人類聯合起來興建希望能通往天堂的高塔,為了阻止人類的計劃,上帝讓人類說不同語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。


巴別塔典故,為世上出現不同語言和種族提供了解釋。盡管互聯網的出現,讓“地球村”的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。


好在,各大搜索引擎都推出了AI翻譯。


1、AI翻譯這條賽道上,巨頭們都繞不過的“坎”


AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。


2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局于谷歌翻譯系統中,隨后,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,并且將此技術廣泛應用于網頁翻譯與手機應用。


國內,百度當時已經研究出了可應用的SMT技術(統計機器翻譯),但得知NMT的橫空出世之后,便迅速調轉方向轉而研發NMT技術,于是就有了BNMT應用于百度翻譯。盡管初時的百度翻譯速度很慢,但是,百度當時反應也佐證NMT的價值性。


搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基于神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索自占據國內搜索引擎行業二哥的位置后,同樣專注在AI領域與其他巨頭角力,上線了基于NMT的360翻譯,以期與去年上線的360英文搜索“雙劍合璧”。


但是我們會發現,不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間里,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們布局AI翻譯繞不過的“坎”。


正是在這樣的背景下,360翻譯的深度學習調度平臺卯足了勁,在深層技術和語料挖掘上下苦功夫。除了發揮360搜索在新聞資訊方面的既有優勢外,360的英文搜索還與微軟旗下的搜索引擎Bing開展技術合作,從而使得其AI翻譯背后坐擁海量中英網絡語料,讓其在理解語境方面更顯地道。另外,360翻譯采用的也是獨家研發的360NMT技術。


但這依然還只是個開始。


2、搜索平臺不約而同發力NMT,為的是哪般?


19.jpg


不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?惹得誰也不愿意掉隊。


據統計表明,全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言,因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。為什么要發力NMT,這得從AI翻譯人類語言的方式說起,包含三種:第一,基于規則的機器翻譯方法;第二,基于實例的機器翻譯方法;第三,基于統計的翻譯方法。SMT與NMT都屬于第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。


但是,SMT與NMT存在著顯著的差距。SMT采用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在于翻譯過程中有著更好的語感,能降低SMT翻譯的關于“形態、句法、詞序”等方面出錯的概率。因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。


3、AI翻譯引進NMT技術,就能精準識別“語境”嗎?


搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,并在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?很多時候的中英交流多以口語化形式出現,對“語境”的理解遠比“語法和詞匯”難得多。下文我們將就幾組語句進行討論(以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比)。


第一組:獻上我的膝蓋??纯?,最近這句網絡常用語各翻譯平臺的水平


谷歌:Offer my knee。


360:express my admiration。


百度:Offer my knees。


搜狗:Give me my knee。


測試結果是搜狗、百度、谷歌均傾向于單詞表面意思的翻譯,并未能結合具體的文化背景,而360對于該網絡用語的解釋就地道的多。


第二組:詩詞,選自杜甫的《登高》。因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。


《登高》原文摘選:


風急天高猿嘯哀,渚清沙白鳥飛回。


英語譯文:




有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結合“語境”處理詩中的意向要素,搜狗翻譯表達出了“悲愴”的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。


第三組:新聞,選自紅網。語言簡練正式,但涉及的元素較多,對語法的要求性比較高。


原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位于雨花區,分別為五礦萬境藍山和創元時代。


譯文:




同一段新聞,出現了四種不同的譯法。同一語句中各家強調的點不一樣,譬如首句的“長沙市住房和城鄉建設委員會”,360的翻譯結果更顯得專業并符合慣常表述,“長沙市”只是作為補充詞出現,而搜狗、百度和谷歌的翻譯中,“長沙市”則是作為硬性的地名出現。尤為值得注意的是,根據語境,“五礦萬境藍山”和“創元時代”都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在“礦”、“藍山”、“創元”、“時代”等字眼上糾結。


從這三組中,我們能發現360偏好于基于“語境”的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣復雜的情感語句就無法準確傳達,但是在“流行語”優勢明顯;而谷歌和百度基本上是基于詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。


因此,AI翻譯的問題主要反映在三大方面:第一,機器翻譯難以應對語言規則不統一的口語;第二,AI翻譯難以結合文化語境進行理解,解析不出深層次的情感;第三,針對較長的段落,以及較為復雜的語境,往往會出現語法問題多,語句出錯率高的毛病。


4、AI翻譯要“地道”,技術倒不是關鍵


翻譯界老將何恩培曾講:“機器翻譯一直被公認為人工智能領域最難的課題之一。而且語言背后的多元文化和復雜社會屬性,注定了語言規則不可能規律化”。但是,中國有句老話:勤能補拙。對于AI翻譯而言,最難的不是技術,而是“語境”理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺喂養語料的資源狀況。AI翻譯能否“地道”,取決于以下幾點。


1、訓練數據庫的內容整體優質程度


這影響到翻譯準確程度,取決于信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內容生態建設,搜狗有了騰訊微信入口搜索,360搶占了安全領域的數據來源。但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個互聯網的資源,各平臺訓練數據庫各有側重,AI翻譯特色也不盡相同,例如360翻譯側重于地道的口語與流行語,百度翻譯則顯得大而全。


2、開放平等的中外數據交流,或可加強AI的深度學習


國內對標競品之間的合作相對較難,但中外數據交流卻是最好的互補。因此,百度上線過英文搜索產品,而360與微軟Bing有過技術合作。此外,有了國界互譯也變得更有意義。因此,中外數據合作,或許對于文化背景的數據積淀有很好的補充,也是擴充深度學習的語料最直接的方式。


3、需要準備大量的網絡語及口語語料


除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜索引擎從被動搜索向主動的、基于用戶興趣的內容推薦引擎轉型,這對于構建口語語料訓練模型倒是一個不錯的嘗試。


雖然說,AI翻譯能夠精準識別“語境”是需要很長一段路要走,但是技術已經在進步,360翻譯能夠開始揣摩語句背后的情感與心思,對于日常交流來說是一個很好的開端?;蛟S,我們將因此離“地球村”的夢想更進一步!


猜你喜歡
原創

突發爆雷!255億家居龍頭實控人被留置

AI家居

255億家居龍頭突發爆雷,居然之家實控人被留置

2025-04-18

半導體制造AI大腦:從CIM1.0到CIM 3.0的中國式躍遷

AI創新創業

從 ChatGPT到DeepSeek,大模型的崛起標志著 AI 從通用智能邁向行業深耕的分水嶺。

2025-04-17

AI偽造泛濫下 親筆簽以動態生物特征破解電子簽名安全困局

AI創新創業

今年以來,什么最熱門?AI(人工智能)等智能技術可能是最好的答案。

2025-03-24

原創

中國手機,在海外“殺瘋”了

手機AI5G

5G-A、衛星直連......國產手機“驚艷”歐洲!

2025-03-06

原創

字節跳動,在中國搞出“ChatGPT”?

AI字節跳動ChatGPT

字節跳動,再次激活AI賽道?

2024-12-25

50萬客戶選擇背后,DECODE Global科匯交易平臺被更多人看見

金融科技DECODE Global科匯

在這個充滿激烈競爭和嚴峻考驗的環境中,DECODE Global科匯以穩健的發展態勢贏得了全球50萬...

2024-12-02

bauma CHINA 2024圓滿落幕:中國力量 世界之窗,創紀錄 煥新生

創新創業bauma CHINA 2024

11月26-29日,bauma CHINA 2024(上海國際工程機械、建材機械、礦山機械、工程車輛...

2024-12-02

云學堂財報解碼:減虧90%背后的數字化培訓革命

創新創業云學堂

近日,國內數字化企業學習先鋒云學堂發布了最新財報,不失為一個良好的觀察樣本。

2024-12-02

2024 第四屆市場化LP投資峰會暨上市公司產業發展論壇圓滿舉行

峰會LP CLUB-2024年度峰會

2024年11月27日,LP CLUB-2024年度峰會特別邀請環節“星河夜話”在佛山市成功舉辦。

2024-12-02

賽力斯年內累計銷量超38萬輛 入選滬深300等四大指數

上市公司賽力斯

12月1日,理想、小米、零跑等新能源車企紛紛披露11月份銷量成績單。

2024-12-02

貝因美創始人謝宏出席浙商文化論壇,探討浙商企業傳承發展秘訣

上市公司貝因美

日前,第七屆世界浙商大會在杭州隆重召開,貝因美創始人、董事長謝宏作為優秀浙商代表,受邀參加浙商文化論...

2024-12-02

高梵 KIDS 滑雪節:燃動長白山的冰雪狂歡

大消費高梵KIDS

高梵KIDS是國內高端兒童鵝絨服的領軍品牌,以“守護孩子們的溫暖而生”為核心理念,用其卓越的保暖性能...

2024-12-02

乳癌全球第二大新發癌癥!大病保險買哪個好?宏利與您攜手防治

金融科技香港保險宏利

乳癌的發病率居高不下,已成為全球第二大新發癌癥,根據世界衛生組織(WHO)的數據,每年數百萬人受到乳...

2024-12-02

投資家網(m.51baobao.cn)是國內領先的資本與產業創新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創業企業、地方政府等提供專業的第三方信息服務,包括行業媒體、智庫服務、會議服務及生態服務。長按右側二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

分化浪潮中的堅守與突破 | 第19屆中國投資年會,即將啟幕

在時代的浩渺長河中,“分化”宛如一條隱匿的脈絡,貫穿于萬物的生長、發展與變遷。從生命的進化到文明的演...

第二屆中匈可再生能源、新材料商業投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業投資峰會于2025年4月9日在匈牙利布達佩斯盛大啟幕。

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

“中國投資年會”作為私募股權行業的年度盛會,已成功舉辦了18屆,吸引了全國VC/PE領域從業者的廣泛...

主站蜘蛛池模板: 美女拍拍拍爽爽爽爽爽爽 | 毛片激情永久免费 | 日韩亚洲欧美一区噜噜噜 | 亚洲午夜精品一级在线播放放 | 国产欧美日韩中文久久 | 久久久久欧美精品观看 | 国产成人综合高清在线观看 | 日本一区二区三区四区无限 | 一级做a毛片在线看 | 久草成人在线视频 | 欧美在线一区二区三区欧美 | 国产香蕉98碰碰久久人人 | 亚洲伦| 日韩欧美综合在线二区三区 | 国产a高清| 亚洲高清在线视频 | 18年大片免费在线 | 欧美jizzhd精品欧美 | 国产精品国产亚洲精品不卡 | 欧美日韩国产在线人成dvd | 97超频国产在线公开免费视频 | 国产女主播在线 | 日韩视频在线观看中字 | 午夜两性视频免费看 | 美女张开腿黄网站免费国产 | 综合免费视频 | 成人午夜久久精品 | 97高清国语自产拍中国大陆 | 韩国美女激情视频一区二区 | 黄色日韩网站 | 国产精自产拍久久久久久蜜 | 她也啪97在线视频 | 亚洲天堂网在线观看视频 | 亚洲aⅴ男人的天堂在线观看 | 精品欧美成人高清在线观看2021 | 亚洲精品久久久久影院 | 成人18免费入口 | 日本一级高清不卡视频在线 | 伊人色在线视频 | 男人的天堂中文字幕 | 国产午夜亚洲精品第一区 |