相關文章

語音瞬間轉換成文字! 人工智能(AI)開啟工作的新方式 mask

語音瞬間轉換成文字!

人工智能(AI)開啟工作的新方式

2019.11.19 數字解決方案
本文看點
  • 全新開發的技術,能夠將會議和講演等語音精準轉換成文字,并通過字幕顯示出來
  • 全新模式與深度識別訓練相結合,實現了極高的查全率
  • 人工智能有望提高辦公環境及生產現場的工作效率

現如今,日本等國家少子化與老齡化的日趨嚴重,勞動力也變得越來越緊缺,工作方式的改革又需要業界提高生產效率。為同時解決這兩大難題,利用機器人實現業務自動化的RPA(機器人流程自動化)技術引起了社會廣泛關注。以金融業為主的各個行業已開始引入RPA技術,并取得了顯著成果。比如說,實現了自動創建文檔與錄入數據錄等功能。

目前,市面上已經出現了能夠將語音自動轉換成文字的人工智能軟件。但由于精準的文字轉換難度超出想象,對于會議、演講等記錄工作,我們不得不繼續采用人工方式。

我們該如何解決這一問題呢?――東芝給出的方案是全新開發的人工智能語音識別系統。

為了解人工智能語音識別系統的需求背景和開發過程需要突破的技術難題,我們咨詢了東芝株式會社研究開發中心的兩位負責人——蘆川先生與藤村先生。

一、快速準確地將語音轉換成文字,并通過清晰字幕實時顯示!

東芝一直致力于拓展智能媒體領域的業務(智能媒體是對人類語音和圖像進行知識處理,并加以靈活應用的技術)。長年積累的技術開發經驗極大地推動了人工智能語音識別系統的開發。

此次開發項目的研討工作始于2015年。那一年恰逢“信息無障礙”環境建設的風口,日本政府號召民眾,努力打造一個便于殘障人士無障礙地獲取各類信息的社會環境。對此,東芝早早就開始了通用設計產品和服務的開發工作,建立了成熟的通用設計(UD)顧問制度,并邀請身體有殘障的員工參與產品開發。

蘆川先生表示:“聽覺障礙人士的普遍心聲是希望實時參與會議和講演,而不是通過事后查看文字記錄的方式來了解會議與講演內容。我們的計劃是引入一個能夠自動顯示實時文字信息的字幕,方便聽覺障礙人士了解相關內容,從而幫助殘障人士實現‘信息獲取’與‘效率提升’兩大目標。人工智能語音識別系統的開發工作正是朝著這兩大目標進行的。”(蘆川先生)

株式會社東芝 研究開發中心 人工智能媒體實驗室 研究主任 蘆川平

株式會社東芝 研究開發中心
人工智能媒體實驗室 研究主任 蘆川平

二、提高算法的準確度,語音識別率高達85%!

接觸過文字轉換的朋友都深有體會:將對話、講義及講演等語音忠實、完整地轉換成文字,反而會變成一篇晦澀難懂的文章。轉換后的文字信息會出現很多冗余的內容,比如:“嗯”、“那個”等無意義詞語,以及對理解內容毫無幫助的隨聲附和語句等。

此次的人工智能語音識別系統能夠精準地識別出說話人的語音,并且可以分辨出無意義的詞語和停頓部分。這一功能對于提高工作效率極為重要。人工智能的核心是算法,據說為了提高算法的準確度,開發團隊設立了各種各樣的課題并進行了深入研究。

“在開始階段,我們屢屢碰壁,發現提高識別精度是非常困難的一件事。我們的目的不在于開發和研究本身。說到底,我們的目的是為用戶帶來方便。通過采用日漸流行的LSTM1模型以及CTC學習2手段,能夠根據語音特征,識別出人類特有的無意義詞語、停頓等部分”(藤村)
1 LSTM(長短期記憶):RNN(遞歸神經網絡)的一種高級形式,其隱藏層中含有遞歸結構。能夠對長期依賴關系進行學習,而這種學習能力是傳統RNN無法實現的。
2 CTC(聯結主義時間分類):針對輸入輸出的序列長度差異問題,通過引入空字符和設計損失函數的方法,來導入RNN的手段。

株式會社東芝 研究開發中心 人工智能媒體實驗室 主任研究員 藤村浩司

株式會社東芝 研究開發中心
人工智能媒體實驗室 主任研究員 藤村浩司

傳統的語音識別系統是采用分析波形的方法,將不同波形的語音確定為相應假名,例如:“ア”或“イ”等,然后進行分析。但是,無意義詞語和停頓的波形千變萬化,存在無數種形式,采用逐一分析的方式是無法窮盡的。

“無意義詞語是填充話語之間的空白部分,而停頓則是話語之間的休息片斷。通過LSTM模型能夠把話語中的這些部轉換為統計模型,然后再通過CTC對模型進行識別訓練。這樣一來,就能夠檢測出擁有無數種形式的無意義詞語、停頓部分了。

目前尚無一家公司能夠開發出完全準確的語音識別系統。更廣闊的開發空間和更高的技術等待著我們去探索。我們的語音識別系統目前能夠支持日語、英語、漢語三種語言,但這遠遠不夠,我們的終極目標是讓不同語種的人士可以圍坐于圓桌旁輕松暢聊,讓科幻小說和漫畫中的未來場景在現實中一一實現。當然,那需要超高的準確度,可以說我們開發工作就是讓夢想照進現實。”(藤村)

目前,我們的人工智能語音識別系統識別精度很高,在同行業具有很大優勢。當我們利用外部演講機會進行實證(實際驗證)實驗時,語音識別率平均達到85%。而且無需對識別結果進行編輯,也不需要相關人員事先進行學習,就能理解發言內容。未來我們將繼續提高語音識別準確度,研討如何將其應用到人工智能交流系統「RECAIUS?」領域。

我們也在進行相關應用程序的開發。比如說,面向聽覺障礙人士開發的實時字幕顯示功能。由人工智能檢測出的無意義詞語和停頓并不是被全部刪除掉,而是以淺色字體形式顯示在字幕中,讓聽覺障礙人士意識到這些詞語的存在。這是充分聽取殘障人士們的意見后,從他們的角度出發,制定的精細化字幕顯示方案。

聲音自動字幕系統(左)和字幕顯示圖像(右)

聲音自動字幕系統(左)和字幕顯示圖像(右)

“對我們而言,像‘嗯’、‘那個’這種無意義詞語只是會影響我們的閱讀。但是,聽覺障礙人士希望獲取到完整的信息。他們通常是跟隨說話人的嘴唇運動來閱讀字幕,如果將無意義詞語和停頓部分刪除,就會給他們帶來‘好像說了些什么,但字幕上沒有顯示’的感受,從而產生焦躁情緒。

因此,我們將無意義詞語和停頓部分也保留在字幕中,但為方便閱讀,將這些部分顯示為淺色字體。當我們需要保存記錄時,可以刪掉這些部分,制作成一份簡潔的文檔。”(蘆川先生)

三、用于制造業的人工智能已見雛形,在生產現場發揮真正的價值!

2019年3月,我們有幸與DWANGO株式會社合作,通過NICONICO網站對“第81屆信息處理學會全國大會”的實況進行現場直播,此次直播采用了帶有實時字幕的視頻形式。

為了早日投入商業使用,東芝開發團隊正在努力提高人工智能語音系統的識別準確度和各項功能。此外,東芝面向的不僅是辦公業務,還包括生產現場。

“現實情況是,幾乎所有辦公環境都未將人工智能語音識別系統作為一項服務加以靈活應用。在我看來最理想的狀態是,人工智能語音識別系統能夠得到用戶信賴而被廣泛應用,最終成為一項日常業務。比如說,我現在所說的這些話能夠被完整地識別,并且記錄成業務級別的文檔形式,同時還能根據發言人的不同,分辨并區別記錄。我們要實現的目標正是這種方便可靠的人工智能語音識別系統”(蘆川先生)

“目前,語音識別業務并不普及,生產現場也是如此。但是,在維修檢查時,以及工廠的某些特定場景,確實需要用免提電話記錄聲音。在這種情況下,人工智能語音識別系統一定會大顯身手的。將語音識別系統無縫融入生產現場,便于工人們將產生于現場的智慧與經驗記錄和傳遞。當然,這需要進行長期的語音識別系統開發,并在生產及基礎設施現場積累足夠的知識經驗后才能夠實現。我認為這正是東芝開發語音識別系統的根本目的之一。”(藤村)

目前,日本存在著勞動力緊缺的問題。預計進入“2020年代”后,勞動力緊缺問題將更加嚴重。我們的當務之急是節省人力,提高生產效率,確保聽覺障礙人士順利獲取信息。在未來,辦公環境和生產現場對于人工智能語音識別系統的需求一定會不斷增長,人工智能語音識別系統必將大展身手。

美的股票