新聞標題【民報】經典科學人/語音辨識先趨李琳山 創連續輸入法比Siri早16年
寄件人 E-mail
收件人 E-mail

經典科學人/語音辨識先趨李琳山 創連續輸入法比Siri早16年

文/崔聖揚(台大電機系學生)、 林宮玄(任職中研院物理所,兼任科學月刊副總編輯)

2017-06-18 10:06
李琳山教授鼓勵年輕人要有大志、企圖心、勇氣和信心。圖/科學月刊提供
李琳山教授鼓勵年輕人要有大志、企圖心、勇氣和信心。圖/科學月刊提供

台大電機系李琳山教授,於1977年於美國史丹佛(Stanford)大學拿到電機博士,於1979年回母系任教。回台灣服務後,才決定投入之前完全不熟悉的領域──語音辨識,也就是現在人們熟悉的「語音輸入」服務。李教授長期研究華語的辨識,對目前廣泛在電子產品中使用的中文語音輸入服務,有巨大的貢獻,也因此於2016年獲得中研院工程領域的院士榮銜。

大約在1990年代,家用電腦開始普及。較年長的讀者應該非常了解當時的電腦是多麼大且慢,硬碟容量只有幾十MB,而現今一個小小的記憶卡容量就有幾十GB,足足多了1000倍。李教授在那個年代即投入語音辨識系統,在硬體資源不足情況下,需克服許多研究上的困難。李教授在2017年1月12日接受本刊專訪,分享其研究的心路歷程與教育心得。

用勇氣闖蕩世界

科:您在早年攻讀加州史丹佛大學電機博士時,從事的研究為人造衛星通訊。畢業後為何決定回台灣教書?研究主題為何轉向語音辨識及訊號處理分析?

李:當時我認為只要能在史丹佛大學求學,做任何研究都行,而剛好人造衛星通訊是唯一可以拿到獎學金的主題,所以我就決定投入這個領域。求學期間我有仔細思考過:「拿了博士,之後呢?」當時我觀察身邊台大電機系學長們的工作及生活,他們因為台灣當時幾乎沒有電機相關產業,最後都選擇在美國落地生根,有些人當上大學教授,有些則在重要的研究機構工作,譬如貝爾實驗室(Bell Laboratories)及IBM。但我不想和他們一樣,我想走一條不同的路:「回台灣。」當時有很多人勸我說:「你回台灣能做什麼?人造衛星通訊無法在台灣發展,你在台灣沒有背景、沒有人脈關係,誰會理你呢?」我說:「在台灣確實沒有人會聽我的話,會聽我的話只有一種人,那就是學生。

我的第一念頭就是回母校(台大電機系)教書,因為我自己在讀電機系時非常茫然,不知道讀的東西到底對不對、是否有用。譬如我們讀的電子學是介紹真空管的,然而書店裡最新的課本卻是積體電路的應用。當時我們大學畢業的工作在台灣也僅限於台電、電信總局(中華電信前身),這兩個單位的技術都是從國外引進的,因此在這個工作環境下,90%以上的同學都是出國深造。當時我自己也希望能到國外一流的大學拿博士,希望有天回來能勝任電機系的教授,改善其學習環境。這是我當時心裡的志向,但我不敢告訴任何人,因為別人會覺得你想得太美了,一直到很多年以後我才敢講。所以當我拿到台大電機系的聘書時,就確定我要回來,沒有考慮其他的機會。

至於研究語音辨識,這又是非常偶然的情形。我在1980年的春天回到台灣擔任教授,發現想教的課都有我的老師在教,但我每學期又得開授兩門課程,所以到第二學期時,已經不知道能開什麼課。這時我偶然地接觸到一本教科書,叫作語音處理,那是一九七幾年寫的書。翻了翻後,雖然不知道內容是什麼,但我看得懂裡面的數學運算式,所以就決定開這門課,我一邊教一邊讀,等到學期結束才弄清楚教科書裡的內容,這是我後來做華語辨識的起頭。

當時我給自己一年的時間,重新摸索在台灣可以做什麼研究。那時最重要的考量就是資源。但當時這裡什麼資源都沒有,沒有實驗室、電腦、設備、經費,所以一定得做最便宜的研究。在這考量下,我在台灣的前二十年就一直做兩個主題的雙管研究:一個是通訊理論,做理論只要一支筆、一張紙就行了;第二個主題就是語音處理。

那個年代已經有所謂的微處理機,微處理機可以做有限的運算,可以拿來分析語音訊號。過了二十年,我決定停止通訊理論的研究,全心投入語音研究。專心做華語語音研究至今也有二十年吧!之後的研究再延伸到其他語言。早年國際上的文獻都是有關英語的研究,至於其他的語言如德語、法語或日語都非常少,華語是根本沒有,所以我認為華語的研究相當值得發展。

科:您覺得在您任教的台灣大學,目前學生最缺乏什麼能力?

台大學生現在最缺乏的是──大志、企圖心、勇氣、信心。台灣早年資源匱乏,許多人為了生存都選擇出國深造,譬如我的同學很多人雖然只能到美國窮鄉僻壤的小校就讀,沒有獎學金還必須打工賺錢,但他們仍然要去那裡唸書,我認為當時的學生比現在更有大志、更有企圖心、更有勇氣,因為:「We had nothing to lose(我們沒有什麼可失去的)。」而今天的台大學生多數是「They have too much to lose(他們有太多可失去的)」,現在的學生都生活在優渥的環境下,也因此會猶豫說,到底該往前走一大步呢?還是該穩紮穩打一點?瞻前顧後之餘,走的步伐變小了,企圖心也就比較小,對自己的信心也就少了一點。而大志和勇氣是同樣的事情,你必須要很有勇氣,才能夠對自己很有信心,才能不顧一切向前走。今天的台大學生確實比我們當時更厲害、更進步,但當時我們每個人都要衝出去,最後各都打下一片天。

科:您讀過台大電機系和史丹佛電機系,兩校的學生程度差別為何?

李:坦白說我不知道現在史丹佛學生程度如何,因為很多年沒有接觸他們了。但是我當年唸書時候的體會,以能力來說,史丹佛學生確實有少數人非常厲害,可是也有非常多人比我們還差。比起來台大學生的水平是非常整齊的,這大概是因為我們是考試出來的,他們則是從世界各地申請進來的。但如果講企圖心,在那個年代,史丹佛每個人都很有企圖心,我相信現在也是,因為沒有企圖心的人不會去那裡,那是一個要拚命的戰場,四周全是充滿著企圖心,充滿了勇氣的人,雖然有些人程度比較差,可是他們卻很有勇氣。而今天的台大學生,雖然能力非常強,可是我覺得企圖心、勇氣、大志都比較不足。要成就大事,除了能力一定還要有大志。如果少了大志,能力再強都不會做太多事出來。

科:老師會鼓勵現在的學生多出國培養大志嗎?

李:不是說出國就會有大志。「大志」意思是:「有大的企圖心,想做大的事。」出國是一種,但不是說在國內就沒有大志。舉例來說,台灣有些人很厲害,他們有辦法在台灣發展出很成功的產業,這就是有大志。相反的,現在有不少的學生出國讀書,但他們當中有很多人只是為了要拿美國的碩士,畢業後在美國工作,有高薪的工作就很滿足了,這就是我講的,沒有大志。所以說,大志跟出國並不是等號,是兩件不同的事。


李琳山的研究室圍繞著滿滿的研究文獻。圖/科學月刊提供

無畏失敗,挑戰困難

科:您教書這36年左右的時間,相信會遇到很多受到挫折的學生,想請問您會如何鼓勵他們呢?

李:以前我在讀書時參加了台大登山社,但爬山對我是非常挑戰的事情,爬一次山要走7~10天,常常要走非常顛簸的路,還得背一個比我的頭還要高很多的背包。而且我在全隊裡面常是體力最差的一個,常常落到最後面,有時太難爬的路程需要別人幫助,還有過摔下去的經驗。

爬山雖然不是好玩的遊戲,但它逐漸培養我開闊的視野,我看到天下之大,個人的渺小,看到了自然的力量以及人要努力的空間,也看到我是如何的脆弱,到處都需要面對各種各樣的挫折跟困難。爬山的經驗讓我學到該如何面對挫折,以至於人生中更多更大的挫折,我都能坦然面對。

我常常這樣子講,所有的事情在經歷的當時,會有酸甜苦辣不同的滋味;但是,等你走完了以後,再回憶起來,所有東西都是甜的,酸的苦的辣的都沒有了。因為你知道,我曾經走過那些酸的苦的辣的,就好像爬一座山一樣,歷盡千辛萬難,終於爬到山頂,是多麼高興的事。我也體會到,每一次的挫折,其實都讓我更進步,更為堅強,更能夠面對更大的挑戰,所以在我而言,這些困難挫折從來都不是問題。

我說現在的學生常常勇氣不夠、信心不足,因為在我而言,爬山就是一直向前走,縱使全部人都走在我的前面,我是能力最差的一個,但我仍努力不懈。挫折跟困難是我們人一生中自然會碰到的事情,如果有越大的志向去挑戰更難的世界,失敗的機會當然是更大的;但是如果成功,收獲也會更大。我常常說,風險跟回報是成正比的。失敗怎麼辦呢?沒關係,失敗就再來一次嘛,失敗沒有什麼稀奇,再來一次就是了。但是如果成功的話,就有更大的回報。這也回應我一開始說,我不大想走跟別人一樣的路,雖然那些人都走得不錯,但是我看看自己,我不會喜歡走那樣的路,我寧願走一條不同的路,這件事情也和我爬山的經驗是一致的,也就是說,跟著前人走永遠就是那樣子而已;可是我如果自己走,走到不同的路去,可能看到不同的世界,就算失敗也沒有關係嘛,重來再走一次就是了。

科:1980年代,您回到台大電機系任教,研究從人造衛星通訊轉到語音辨識時,有遇到什麼樣的困難嗎?

李:轉換領域對我而言不是一道難題,因為在美國攻讀博士時,我為了生存及獎學金,選擇跨入新的領域,已經轉換過一次跑道。我想當時最大的困難應該是沒有資源,每件事情都得從頭開始做,所有研究環境都得從頭打造,這中間碰到的困難實在太多。譬如一開始,語音訊號必須數位化,才能進入微處理機分析,但市面上沒有語音訊號數位化的電路,必須自己買元件設計電路。最早的系統也因為記憶體很有限,無法儲存一句完整的話。另一個難題是微處理器的計算量都非常小,一個指令得跑上半天,但語音的處理必須即時(realtime),一秒鐘的話得一秒鐘處理完,否則後面講的話就來不及分析。為了達成即時運算,而軟體能力太差,必須用硬體去幫助軟體做成一個運算模組,再把很多單一的運算模組整合成執行複雜運算的系統。然而這樣的系統非常複雜,常常單一的模組可操作,但兜成整合的系統卻變成無法成功操作等等。

大數據時代成就語音辨識技術

科:請您簡單描述語音辨識的原理?

李:我們必須了解,同一個人發出同一個音兩次,訊號鐵定不一樣;反過來說,同一個人發出不同的音,訊號卻可能很像,如中文的「八、搭」或者「師、斯」,英文的「s、z、sh、th」,都非常相近,人類也不見得能分辨出來,那我們如何能用訊號處理分辨它們呢?其原理就是把每個基本聲音都建構機率模型,建構模型的方法是將一段聲音訊號映射至大約40維的空間,現在的話則是映射至幾百維度以上。

我們會先把聲音切成很多小段,用每個小段求出40維的參數,來描述人發音的唇齒舌相對位置,譬如分別發出兩次「啊」的聲音,雖然訊號鐵定不一樣,但唇齒舌的相對位置是接近的,因此這四十維的參數也就相似。如果我們念「啊」一百次,雖然一百次的訊號都不一樣,但卻可將「啊」描述為機率分佈,「啊、嗚」的機率分佈不一樣,因此進來一個聲音後,可由模型推斷出「啊」的機率是多少,「嗚」的機率是多少,看誰的機率高,就辨識成此發音。

然而這樣的模型仍然有很大的缺陷,譬如「s、z、sh、th」,如果講出一個單詞,並把「s」切出來讓人判斷,很可能會聽成「z」,但是為什麼我們卻有能力分辨單詞呢?這是因為我們可以依據很多的單音,連接起來分辨單詞,譬如說「computer」,雖然裡面的「t」也許沒聽清楚,但我們聽到「compuer」就能猜測出是「computer」。若要讓機器做這件事情,首先機器必須儲存詞典,而每個詞的所有單音,都有其對應的機率模型。最後則是讓機器學習一整句話,依照前後文關係學習,學習這個詞後面會接哪些詞,如「Th­is is a computer」(Th­is可以接is,is可以接a,a可以接computer等)。運用這樣的方式建構語音辨識的機器,從今天的角度來看,就是機器學習(machine learning)。

機器學習可以擁有非常複雜的模型,當有足夠的資料給機器進行分析時,機器就能自動把模型內的參數求出來。用一個簡單的例子來解釋機器學習,譬如我們給機器10萬張有肺癌的及健康人的胸腔X光照片去學習,去告訴機器哪一張有肺癌,哪一張是健康的。機器學習完後,再給它任何一張照片,機器就能自動判斷這張照片是否有肺癌。運用相同的原理,機器也能學到分辨出這段聲音對應的字詞句是什麼。今天來看,這些其實都是機器學習。

科:請您描述一下華語和英語辨識的差別為何?

李:在如今大數據(Big data)的年代,華語和英語的辨識技術差別已經不太大,因為我們能讓機器自動學習大量的語言和數據。可是在1980年代,電腦的計算能力非常有限,能收集的數據也非常少,在這種情況下,針對語言的特殊性來發展的語音辨識技術就非常重要。譬如華語最明顯就是有四聲和輕聲的聲調,而英語卻沒有這些表意的變化。除此之外,華語是一字一音,音的總數約為一千多個,但常用字卻有一萬多個,每個字都有其字意,構成的詞則是有千千萬萬個,也就是說華語用一千多個音,組成千變萬化的語言。

但是英文是拼音語言,每個字母是用來發音的,所以看到字母的長相,就知道它怎麼唸,但這些字母卻沒有意思,所以跟華語的差別非常大。在資源匱乏的年代,辨識的方法通常會考量語言的特性,因此華語和英語是用相當程度不一樣的方式來進行辨識;而在今天則可以讓機器學習大量數據,差異已慢慢縮小。

科:在大數據的時代,機器學習會不會進一步取代這種傳統訊號分析?

李:不會,傳統的訊號分析永遠在最基礎的層次,還是得先做訊號分析,再把分析後的數據拿去讓機器學習,因此傳統的訊號處理仍不可或缺。只是到了今天,傳統的訊號分析被壓擠到最底層,上面全是機器學習。

科:剛才您有提到,您的同學在國內創業非常成功。想問您有沒有想要用語音技術來創業?語音技術到後期,應該很容易可以跟產業結合。

李:我的同學在國內創業最成功的有兩位,一位是施崇棠(現任華碩電腦董事長),另一位是李焜燿(曾任友達光電董事長),他們兩個是我的同班同學,毫無疑問地他們是很有大志且能成功執行大志的人。但我沒有辦法像他們一樣去創業,因為我覺得我沒有那種細胞,我的細胞是適合做教授的。雖然我沒有創業,但我曾經在1990年代鼓勵我的學生,用語音技術去開公司,開發產品,只是後來都沒有成功。

我們來看今天最成功的是Apple Siri、或Google和Microso‑ft的類似產品,他們把所有工作在雲端處理,相當於用無限多台電腦,無限大的計算量及記憶體,用巨量數據去訓練機器及做所有計算,而手機只是一個有無線通訊可以和雲端相連的語音介面而已。反觀1990年代,我們只能用很少的聲音去訓練今天看來計算量和記憶體都小得可憐的當時的個人電腦。當時的資源規模和今天的比起來只是九牛之一毛。所以現在來看,就知道為什麼我們當時不成功。其實很簡單,就是時間不對,當時沒有巨量數據,沒有深層學習,也沒有雲端。我們早在1995年就完成了讓個人電腦輸入連續語音,比Siri(2011年)早了整整16年。

事實上現在大公司如AppleGoogleMicroso‑等所用的華語辨識架構,幾乎和我當年用的架構是一樣的。只是他們有了雲端及大量的運算及記憶體、大量的數據及一些尖端技術的加持,可以提高辨識精確度,讓消費者喜歡使用;而我們那個年代,受限於環境條件,辨識精確度低,消費者自然不喜歡。當年除了我們以外,也有不少公司例如IBM也試圖發展辨識系統,但以IBM的力量也沒推展成功。還有很多其他公司嘗試過,包括英語及其他語言,也都失敗。經過這麼多年,最大不同的是:時代不同,科技環境不一樣了。

科:您的華語架構有申請專利嗎?現在大公司使用的架構有使用您的專利嗎?

李:我所有的技術都有三套一系列的專利,中華民國專利、大陸專利、美國專利。但是我申請太早了,到了2011年,真正開發出可以賣錢的產品的年代,我的專利全部都過期了。

不自我設限,摸索一條屬於自己的路

科:想請問您,教授的工作對於您自己有什麼意義?對社會的價值為何?

李:我想,在我而言最有意義的事情,就是教電機系的學生,一整群優秀的好學生,就是我最主要的成果。做老師就有這個好處,學生的成就就是老師的成就。所以說我有沒有成就不要緊,只要我的學生有成就就好。當然我也相信,我的工作對於社會有重大的價值,我的所有論文和研究都被別人拿來參考,開發了今日成功的華語語音系統。初步估計,今天至少有千萬或上億的人在使用這些華語語音系統。

科:所以學生的成功是您工作熱情的來源,可以這樣講嗎?

李:應該說我享受當老師,享受教課,享受教學生,也享受帶學生做研究。

科:台灣近幾十年來,整個社會變遷非常的快。現在的高中生、大學生和您那個年代的學生,學習環境絕對不一樣,想請問您有什麼建議給現在的高中生、大學生,應該用什麼樣的態度來學習,或是說如何有大志去摸索自己的興趣?

李:今天的世界跟從前完全不一樣了,對於每一個高中生、大學生,他可以看到的世界,可以接觸的面,是非常開闊的。而每一個人,都有自己的天賦,或者說每人都有一條自己最適合的路。那條路是什麼?必須每人自己去摸索才知道。就好像我認為,最適合我的路,就是在這裡當老師,但之前我也考慮過很多不同的情形。所以說我的建議是,不要把自己限制在別人設好的框框裡。不論是讀書也好,念哪個學校也好,念哪個領域也好,修什麼課也好,要在美國或是台灣發展也好,要當教授還是要進產業界也好,總之,要儘可能的開放並探索世界上各種各樣的機會,究竟什麼是最適合我發展,最適合我學習。

因為每一個人都有一條最適合他的路,別人無法知道,他如果聽別人講的、照著去做,很可能走的路不是最適合他的。就好像我當時如果照著所有學長說的,要定居美國發展,我也許走得順利,但不見得像現在這樣的享受。例如現在的網路有一堆別人的經驗,告訴學生說一定要出國,不要在台灣,不要念博士,念博士太漫長了等等的,不要盲目聽信這些意見。應該是只有你自己知道要怎樣,不要被別人的意見所左右,自己好好摸索,最後自己找一條最適合的路,讓未來掌握在自己的手裡。

感謝李琳山教授確認本文正確性。

李琳山教授專訪

本文由崔聖揚(台大電機系學生)、林宮玄(任職中研院物理所,兼任科學月刊副總編輯)執筆,科學月刊授權使用,謹此致謝。原文出處

創建於1970年的《科學月刊》,當年一群留美的台灣學生,以「引介新知、啟發民智」興辦,是台灣最老牌的科普雜誌,內容涵蓋數學、物理、化學、生命科學、地球科學、環境科學、工程科學
 訂閱 《科學月刊》


專欄屬作者個人意見,文責歸屬作者,本報提供意見交流平台,不代表本報立場。 

相關新聞列表
留言板