2010年6月7日

精益求精:挑戰成功跨領域— 生物資訊研究的經驗分享

作者/許聞廉(任職中央研究院資訊科學研究所)

電腦的快速發展,讓生物學者可以處理大量的資料。但是生物資訊研究需要具備正確觀念,才能讓我們利用資料,而不是讓資料操弄我們。

筆者成長過程中,由於電子、電腦科技的突破性進展,經歷了人類有史以來最大的改變。還記得大二時, 全錄公司(Xerox)到台大圖書館展示影印機,我特地將自己最心愛的素描作品帶去複製;之後到美國西北大學教書的第二年,看到了第一台IBM個人桌上電腦,對著綠色的大同螢幕,讚歎不已。電腦帶來的豐富電子資訊、WWW的發明、微軟及Google的崛起、網路社群的興盛、數位相機與手機的風行,都是以往所無法思議的。我常想,在這樣變動不已的環境下,下一代到底要學什麼,要學多少才夠用。

回顧筆者三十多年研究的經驗,頗能反映出時代背景的變遷。研究領域從早期的數學、作業研究、組合最優化,轉移到圖論演算法、自然語言,以及最近的數位學習、生物資訊等,其中的甘苦,有許多值得回味之處。在此與各位分享,並順道談談筆者對跨領域的生物資訊在台灣發展情況的看法。

筆者從台大數學系畢業之後,到美國康乃爾大學轉攻「作業研究」(Operations Research),鑽研組合最優化的理論。作業研究可以看成是工業工程中的理論基礎,起源於美國二次大戰期間,是為了解決歐洲戰場上軍事調度、後勤補給等複雜的系統問題,由一群數學、統計、經濟背景的專家所開創的研究領域。戰後這些研究成果就開始運用到大型的工商業系統中。

1980年我到美國西北大學工業工程系任教,研究方向逐漸轉移到電腦科學中的圖論演算法。然而,那時還是偏好理論,對於作業研究中的許多應用領域不屑一顧,這樣的情形直到返回中研院之後才漸漸改變。

「自然輸入法」的發明

1989年回到中研院之後,筆者開始和陳克健先生進行「智慧型注音自動轉國字」的研究。早在個人電腦普及之初,海外許多華人就已意識到中文輸入的重要性;在使用拼音文字的西方國家,連幼稚園的孩童都能夠輕鬆使用電腦。如果電腦上的中文輸入沒有英文方便,在未來中文很可能會被打入冷宮,整個中華文化都會受到影響。當時專業打字的人大多使用倉頡,然而這類以拆字為主的輸入法,總免不了有學習困難與不用即忘的困擾。而可以易學易用的就只有「拼音」輸入法,但是使用拼音輸入最大的困難,就是需要使用者手動選取「同音字」。

由於我本身在電腦方面多年的研究,相當清楚「自動分辨同音字」有其理論極限,要想做到100%正確是不可能的。然而我也相信,如果能將正確率提升到95~96%以上,則拼音輸入法應該能被大多數使用者所接受。因此我到中研院後,在1993年左右,就千辛萬苦地發展出一套以「語意模版」為基礎的「脈絡會意法」。在不到1MB的記憶體之內,將許多語言知識及經驗灌注到電腦,加上精心設計的快速演算法,達到了極高的自動選字正確率。使得自然輸入法在DOS時代就廣為大眾所喜愛,並且歷久不衰,到現在還有上百萬的愛用者。最近,利用生物序列比對的概念,加快中英文長字串的輸入速度,可適用於所有語言的電腦、手機,有可能徹底改變人類的輸入習慣,請各位拭目以待。【更詳細的內容,請參閱第486期科學月刊】

回本期目錄

沒有留言: