欧美aaa一级成人在线观看|午夜热门精品一区二区三区|少妇高潮喷水惨叫久久久|亚洲欧美高清麻豆综合

【南昌APP開發(fā)】“全球約有 4.66 億耳聾和聽力障礙患者,這是非常巨大的一個數(shù)目,如果把這個數(shù)字當(dāng)成是一個國家的人口的話,這個‘國家’就是世界人口第三大國了

2019-05-14 09:32:05

“全球約有 4.66 億耳聾和聽力障礙患者,這是非常巨大的一個數(shù)目,如果把這個數(shù)字當(dāng)成是一個國家的人口的話,這個‘國家’就是世界人口第三大國了?!?/span>

遠(yuǎn)在美國的 Google AI Research Group 高級產(chǎn)品經(jīng)理 Sagar Savla,通過遠(yuǎn)程視頻參與了一次在中國舉行的采訪會議。采訪中,他展示了上述讓人意想不到的統(tǒng)計數(shù)字。

借助技術(shù)的力量,普通人得到了能力增強,能完成過去做不到的事情,比如 Sagar 可以借助實時視頻串流跨洋交流。在科技公司做產(chǎn)品的 Sagar,想讓聽力障礙群體也能受惠于技術(shù)進(jìn)步。

Google AI Research Group 高級產(chǎn)品經(jīng)理 Sagar SavlaLive Transcribe 是什么?

Sagar 和他的團(tuán)隊已經(jīng)邁出了第一步——Live Transcribe。Live Transcribe 是一個 Android 端的 App,能將自動生成字幕功能引入日常對話,幫助聽力障礙人群融入即時口頭交流。這款 App 已于 2019 年 2 月底發(fā)布,目前支持 70 多種語言并覆蓋全球 80% 以上的人群。

如上所述,全球有 4.66 億耳聾和聽力障礙患者。過去,他們想要參與即興對話和社交場合,得提前預(yù)訂昂貴的手動轉(zhuǎn)錄服務(wù),成本頗高,Live Transcribe 用技術(shù)來解決了這個問題。

Live Transcribe 基于 Google 過去幾十年的自動語音識別(Automatic Speech Recognition,以下簡稱 ASR )技術(shù)積累,能把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)文本。YouTube 上的自動字幕生成,就是應(yīng)用 ASR 技術(shù)的結(jié)果。

(安靜環(huán)境下 Live Transcribe 實時字幕轉(zhuǎn)錄普通話測試)

2018 年,Sagar 利用 20% 的工作時間開啟了 Live Transcribe 這個項目?!伴_始不久我們立刻意識到,這其實是一個非常切實的項目。因為在 Google 也有一些聾人員工,他們拿到這個產(chǎn)品后幾乎無時無刻不在使用。啟動一個月后,我們就把這個項目固定下來了,建立了相應(yīng)的產(chǎn)品開發(fā)團(tuán)隊?!盨agar 對 PingWest 品玩回溯起項目的發(fā)展。

值得一提的是,美國國家級院士 Dmitri Krakovsky 也加入了 Live Transcribe 項目組,他天生就是聾人,已經(jīng)研究 ASR 30多年。

Live Transcribe 是怎么運行的?

過去,基于 ASR 的轉(zhuǎn)錄系統(tǒng)一般都需要計算密集型模型、詳盡的用戶研究以及昂貴的連接服務(wù)費用。

為了降低用戶使用自動連續(xù)轉(zhuǎn)錄服務(wù)的成本,Sagar 團(tuán)隊將 Live Transcribe 背后的神經(jīng)網(wǎng)絡(luò)模型分別部署在設(shè)備端和云端(Google Cloud)。

設(shè)備端的是卷積神經(jīng)網(wǎng)絡(luò)模型,主要做聲音分類的工作,能辨別 570 個聲音類別,比如嬰兒哭聲或玻璃破碎聲。

云端的神經(jīng)網(wǎng)絡(luò)模型規(guī)模大得多,主要做語音轉(zhuǎn)錄成文字的工作,由三個部分組成。

第一部分是聲學(xué)模型,能夠從音節(jié)的角度辨析說話者所說的是“Hi”還是“Hello”。

第二個部分是發(fā)音模型,可以根據(jù)識別出來的音節(jié)做拼接或組合,組成實際的單詞。第三部分是語言模型,根據(jù)識別出來的單詞添加適當(dāng)?shù)臉?biāo)點符號和停頓,以符合人類語言使用習(xí)慣。


基于云端神經(jīng)網(wǎng)絡(luò)做語音轉(zhuǎn)錄的好處是,對設(shè)備性能要求沒這么高。Sagar 告訴 PingWest 品玩:“這意味著,Live Transcribe 在一些性能較弱的低端設(shè)備上也可以正常運行。”

理想狀態(tài)下只要有互聯(lián)網(wǎng)接入,能使用 Google 服務(wù),語音轉(zhuǎn)錄延遲都可以控制在 200 毫秒以內(nèi)。Sagar 對 PingWest 品玩表示:“在一些網(wǎng)絡(luò)接入速度沒這么快的第三世界國家,聽覺障礙人群其實愿意花一點時間來獲得更加準(zhǔn)確識別的效果。因為如果沒有這款產(chǎn)品的話,他們是很難聽見的?!?/span>

落地遇到的問題

落到實際用戶使用場景,Sagar 團(tuán)隊要解決的問題不止設(shè)備性能和網(wǎng)絡(luò)連接。

Sagar 團(tuán)隊與加拉德特大學(xué)共同發(fā)起了用戶體驗研究,考慮了幾種不同的設(shè)備:計算機、平板電腦、智能手機、小型投影儀,甚至還有 VR/AR 眼鏡?!翱紤]到產(chǎn)品能夠具有普惠性,最終選擇了成本比較低廉,大家都用得起的一種設(shè)備——智能手機”。

“第二個我們要解決的問題是,實時顯示字幕的時候是否要顯示字幕轉(zhuǎn)錄的置信度(轉(zhuǎn)錄后文字的可信程度)?!盨agar 說。

一開始,他們曾嘗試用顏色來代表轉(zhuǎn)錄文字置信度,黃色代表高置信度,綠色代表中等置信度,而藍(lán)色代表低置信度,白色單詞為新文本。

Sagar 團(tuán)隊最終放棄了顯示置信度:“經(jīng)過測試,我們發(fā)現(xiàn)這種方式會給用戶造成一個錯覺,好像同一顏色的是一個詞組?!?/span>

第三個要解決的問題是環(huán)境噪音,又稱之為“雞尾酒會問題”:在一個派對場景中,有很多人在交談,機器很難識別正確的談話對象。

“為解決此問題,我們構(gòu)建了一個指示器,用于顯示相對于背景噪聲的用戶說話音量。”Sagar 說:“較亮的內(nèi)部同心圓代表噪聲層,代表當(dāng)前環(huán)境所處的噪聲級別。外部同心圓表示麥克風(fēng)對說話人聲音的接收狀況。用戶可借此收到即時反饋,了解麥克風(fēng)的接收狀況,以便其調(diào)整手機位置?!?/span>

將來,Sagar 團(tuán)隊會繼續(xù)改善“雞尾酒會問題”的解決方案,讓對話者的聲音更好地從多個說話對象中分離出來。Sagar 說:“Live Transcribe 也不排除會出 iOS 版本,讓更多受眾用上這項服務(wù)?!?/span>

關(guān)注樂騰科技官方微信

關(guān)注樂騰科技官方微信