2017年3月29日

當腦神經造影進入你我生活—是超越極限,還是沒有極限?

作者/林嘉澍,任教國立陽明大學牙醫學系。

上街閒逛時我注意到街角明顯的廣告,是一家「腦圖健檢中心」,聽同事老王提過這家公司。老王先前一直喊著腰酸背痛,是因老闆要求不合理加班才造成的,可是醫生也檢查不出哪裡有問題。老王經律師介紹,就跑來這家公司做了功能性磁振造影(functional magnetic resonance imaging, fMRI)掃描腦部。結果發現他腦中的疼痛中樞有顯著的神經活動。他的律師藉由fMRI呈現的「腦圖」中的「亮點」作為老王慢性疼痛的客觀證據,成功地幫他打贏了訴訟。

這不是科幻電影的情節,它已經確確實實發生在我們生活中。2011年在美國一位顧客在餐廳跌倒後背部與頭部受傷,從此產生慢性疼痛。這位顧客隨後對餐廳提告要求賠償,律師即舉出了他接受功能性磁振造影的結果,說明他確實受到疼痛的折磨(而非裝病)──作為訴訟的證據之一。

有了這些前例,想像著未來病人藉著腦圖宣稱自己承受精神傷害,要求醫師賠償;想像有一天政客藉著腦圖,攻擊對手精神異常;想像殺人兇手辯稱自己心智無法克制衝動,不得已犯下罪刑,而辯護律師則舉著腦圖作為科學證據,說明「當事人前額葉皮質的一大片亮點表示顯著活動,可見他是因為皮質神經細胞活化才扣下板機,他本身並無犯意!〔註一〕」

其實我們不需要想像,因為這已是現在進行式,以腦神經造影資料作為人類心智經驗的客觀證據,其應用已經開始在各個領域衝擊我們的社會。本文將從3個方向思考,探討將腦神經造影資料(主要是fMRI)應用於醫療,法律與教育等領域時,面臨哪些極限與挑戰。


圖一:各種形式的腦圖。腦圖的如何判讀,都牽涉到神經造影的原理與背後的實驗設計,往往並不是表面上看起來那樣單純。圖A左是作者本人的結構性MRI造影影像,這是臨床上經常採用的技術,可清晰觀察到腦迴等結構。圖A右看起來更漂亮,但其實只是左圖改變色階後的結果。圖B為人腦白質(主要分布神經纖維)經電腦演算後獲得的「骨架」(綠色部分),但綠色部分並非神經纖維本身的樣子,僅顯示神經纖維的分布狀況。圖C為擴散張量造影(diffusion tensor imaging)獲得之影像,其顏色代表水分子可能在人腦中活動的方向性。圖D為實驗中個體在觀看牙科治療影片時人腦活動顯著的區域。圖片上的亮點代表統計值,亮度與受試者過去看牙齒不愉快經驗的程度有關。圖 E為機率性纖維追蹤成像(probability tractography)獲得的影像。每個亮點代表該處可能找到特定神經纖維通過的機率。(作者提供)

極限一:腦神經造影只是一種測量方法
圖一是各種形形色色漂亮的腦圖,不禁讓我們讚嘆現今神經造影技術的強大精進。但有些吃驚的是這些價值百萬元至千萬元的核磁共振掃描儀,其本質和藥局就可以買到的血壓計是相同的,都是用來進行測量的儀器。誠然,相較於血壓計,功能性磁振造影可以透過非侵入性,非放射性的方法測得與神經活動有關的血氧依存(blood-oxygen-level dependent, BOLD)訊號,其功能遠為精密強大!但正如同血壓計、癌症篩檢,甚至一把簡單的體溫計,所呈現的結果都受限於實驗的基本要素,例如測量的信效度、時間與空間解析度、偽陽性或偽陰性等。

如同各種癌症篩檢、精神科問卷或疫苗風險評估一樣,腦神經造影資料(這裡以fMRI為例)同樣面臨測量結果偽陰性與偽陽性的問題,也就是涉及了所謂型一與型二錯誤(Type I / II error)。舉個例子,有研究發現聽音樂前與聽音樂後人腦「記憶區」活動有顯著的差異,這裡定義為陽性(positive)的變化。這個差異有可能真的是因為聽音樂所造成的效果,但也可能是因為掃描時的雜訊,或是受試者頭部移動所造成的結果。也就是實際上聽音樂對腦並無影響,但因為雜訊或頭動的緣故,使我們看到了顯著的差異。在不能排除偽陽性的情況下,若我們繼續推論「因為人腦活動差異顯著,所以表示他一定在聽音樂」就不能成立了。若是再推論「聽音樂活化人腦記憶,增強記性!」,這樣的說法還有把握成立嗎?

也如同任何測量技術,腦神經造影所獲得的結果也受限於它的空間與時間解析度,而這兩者又大大影響了我們如何詮釋獲得的結果。以2013年韋格(Tor D. Wager)等學者的研究為例,他們透過目前普遍使用的fMRI參數來進行掃描,其時間解析度為每2秒取樣一張影像,而腦圖上每個「點」代表邊長2毫米的空間。這樣的空間解析度與時間解析度到底有多精密?我們可以參考以下資料:人類調控注意力的所需的時間約0.2秒,而一個神經細胞本體的直徑約0.01毫米,也就是說腦圖上每個「亮點」,所能呈現的其實是「在8立方毫米(mm3)的空間中,2秒鐘內所有人腦活動的總和效果」。這意味著我們並無法分辨某個亮點代表特定神經細胞的活動,或是某個快速處理的神經活動,也就是說受限於測量的空間時間解析度,fMRI還無法解析至如此精確的程度。因此,若宣稱某個亮點意味著腦神經在細胞層面產生什麼變化,就很可能超出了fMRI技術上的極限。

在此必須承認fMRI作為一種測量方法有其極限。只是很多時候我們不得不承認這個「測量結果」看起來太酷、太漂亮,讓人覺得「很有東西」。正如著名腦科學學者法拉(Martha J. Farah)與法律學者桑馬威斯(Natalie Salmanowitz)所警示的,不論在醫療、法律或是教育領域中,這樣的「證據」很可能比冷冰冰的數字更有說服力,但不能忘記所有的測量結果都有其極限,fMRI的結果仍必須在這些測量基本條件上接受嚴謹的檢視。

極限二:腦圖本身不會說話,詮釋腦圖的重點在於實驗設計
以fMRI來說,最讓民眾目眩神迷的一點在於它提供一種方法讓我們「看清」我的腦子裡在想什麼。事實上這句話本身大有問題!就拿疼痛來說,人腦並不存在所謂的「疼痛中樞」,如果某甲疼痛的時候,前腦島(anterior insula)有顯著的活動,是否意味著當前腦島活動時,某甲一定會開始疼痛?這涉及了反向推論(reverse inference)的有效性〔註二〕,也涉及了更根本的議題:到底fMRI看到的「亮點」從何而來?

首先,現今絕大部分fMRI研究結果都是「關聯性」的結果,也就是說當看到某人(或某種行為)的腦圖上有個亮點,只能知道這個亮點與這個人或行為有關連,但我們無法探知其因果關係。以疼痛經驗為例,當比較老人與年輕人接受疼痛刺激時的腦部,可能發現在老人這組的丘腦(thalamus)這個位置的活動更顯著。但我能進一步詮釋:「老人丘腦活動比較顯著,所以他們覺得更痛」,或是反過來「老人覺得更痛,所以丘腦活動更顯著」,但其實這不是單純比較老人和年輕人就可以說明的。我們最多能詮釋為「丘腦與年齡疼痛的差異有關」,卻無法釐清其因果關係〔註三〕。

另一個值得關切的議題是,絕大多數fMRI獲得的結果都來自實驗室,受試者在精密控制的環境下,接受研究者的指示並完成研究步驟。這樣一個「特殊情境」下獲得的研究結果,是否能推廣至「一般生活」的情境中?以測謊(lie detection)為例,這是法律訴訟中熱門的議題,也一直是fMRI應用的熱門題材之一。早在2005年美國達維斯克(Christos Davatzikos)等學者於《神經影像》期刊(NeuroImage)發表論文,他們利用fMRI觀察受試者在說謊與說真話的情況下人腦活動的差異。研究者利用機器學習(machine learning),訓練電腦建立一套最適的演算法來判別受試者是說謊或是說真話。研究結果顯示根據fMRI掃描的人腦活動,有將近90%的正確判斷率可以斷定受試者的人腦活動模式與說謊或是說真話有關。這項研究在fMRI影像分析與方法學上具有極大的突破意義,但我們確信這樣的方法也能應用在犯罪調查與處理訴訟?其主要的挑戰在於,在實驗室中受試者的「說謊」是在接受實驗者清楚的指示下進行,而在實際應用的場域裡,接受測試的無論是實際犯罪刑者或無辜者皆有複雜的動機或情緒,例如焦慮緊張,這些經驗皆與複雜的人腦活動有關。

同樣地,在疼痛研究中實驗者往往在實驗室接受妥善控制的處裡,並被告知風險與傷害控制在最小程度。在這種情況下獲得的人腦與疼痛有關的神經活動證據,很可能不能代表「實際上的病痛」,因為現實生活中的病痛不只有痛覺,還牽連著情緒與認知各方面的經驗。我們是否能以簡化後(亦即受控實驗環境下)獲得的研究結果,去套用在複雜的現實世界中?也就是考慮到實驗的外部有效性(external validity),將是我們詮釋fMRI結果的重要限制。

極限三:預測個體差異的極限
讓我們再回到大街上,在「腦圖健檢中心」的對面,我們看到另一家裝潢更亮麗的「天才大腦特訓班」。這裡宣稱小朋友接受結構性MRI掃描後,可以判定他們的學業潛能,但即使被判定先天數學潛能不足(天生缺乏「數學腦」)也沒關係,經過補習特訓後,一樣可以成長為優秀的數學家,且MRI腦圖會顯示特訓後小朋友人腦呈「顯著成長」。

這裡涉及一個在腦科學中(更應該說是所有涉及人類行為的科學中)都無法迴避的問題:每個人都不一樣!我們真的能找出一種「放諸四海皆準」的原理(或者說預測模式)套用在每一個人身上?開玩笑地說,如果我們把頭的大小當作聰明與否的指標,那恐怕愛因斯坦永遠也進不了大學。顯然「頭的大小」並不是一個評估個體聰明才智的有效方法,那腦神經造影結果呢?

在2009年荷蘭學者范丹赫菲爾(Ma-rtijn P. van den Heuvel)等在《神經科學期刊》(The Journal of Neuroscience)發表的研究中,使用近年廣受注目的「靜息狀態功能性造影」,探討智力與人腦的關聯性。「靜息狀態功能性造影」是使受試者在休息放鬆的情況下接受8分鐘的掃描,然後分析人腦各個區域的連結特徵。結果發現智力商數(IQ)較高者,人腦有更高的連結效率,在統計上顯示高度的相關性。但是這樣的證據是否足以宣稱只要躺進MRI裡掃描幾分鐘,就可以知道一個人到底多聰明?

事實上這裡有一個更根本的問題需要探討──我們之所以相信腦功能連結與聰明與否的關聯,是因為我們先用了IQ測驗來測試受試者的智力。換句話說,腦功能連結到底代表什麼意思,取決於IQ測驗分數高低,我們必須先確實理解IQ測驗本身,才能詮釋腦功能連結的意涵。以疼痛研究為例,如果今天我們看到「前腦島活動越強,受試者的疼痛程度越高」,我們必須接著追問:疼痛程度又是從何獲得?若根據受試者主觀報告,這個報告的訊息可信度多高?假使今天使用了不恰當的工具(例如請高齡病患用手標記疼痛程度),很可能這個分數本身就有問題(例如病患視力不好或手會抖,無法真切的作答)。在這樣情況下所闡述的結論自然就值得懷疑。進一步說,當我們希望使用fMRI這類工具來預測個體差異時,我們真正需要關注的課題,其實不只fMRI本身,而是包括如何測量個體差異本身。對個體的特徵表現(phenotype)有清楚定義且能夠有效測量,我們方能論斷人腦與該特徵之間的關聯性,也才能進一步對個體差異進行評估。

或許我們可以樂觀地相信,在不久的未來fMRI也將成為評估一個人「天分」或是「學習效能」的方法之一。但正如教育學者所警示的:「智力測驗測得的,只是智力測驗上的分數」。而作為一種測量方法,從fMRI到底能得到有關個體差異的哪些資訊?最終還是要回歸它在測量學上與實驗設計上的限制。

神經造影學者如何超越極限?
前文提到有關fMRI研究應用於生活場域中面臨的挑戰,這些「極限」使得我們有所警醒,在面臨醫療、法律或教育議題時,應小心檢視證據並不過度詮釋其結果。而學者們努力的方向,則是從實驗與資料分析方法上去突破這些極限。以fMRI疼痛研究為例,在2013年韋格等學者於《新英格蘭醫學期刊》(The New England Journal of Medicine)發表的研究涵蓋了4個實驗,試圖找出某些特定的人腦區域,其fMRI結果可用以預測受試者是處於「痛起來」、「覺得溫溫的(但不會痛) 」或是「沒感覺」等各種經驗狀態。值得注意的是,他們使用機器學習原理,直接讓電腦演算法去「判讀」fMRI影像資料並做區辨。具體作法為安排100位受試者,接受各種刺激(痛與不痛)。其中50位受試者的資料讓電腦分析找出「何種fMRI活動模式下,受試者會痛起來」的預測模式(圖二)。接著在以另外50位受試者的資料進行驗證,觀察電腦演算法能夠多準確地(根據已建立的預測模式)判斷出該受試者是否會痛起來。由於實驗時已記錄受試者疼痛與否的結果,故可做為參照的標準,了解電腦演算法預測的準確度。此研究結果的重要性之一是印證了過去多年來有關疼痛研究的結論,包括2012年布羅德森(Kay H. Brodersen)等學者的研究結果,顯示人腦並沒有一個獨立的「疼痛中樞」,不能仰賴單一人腦區域是否有活動,就作為一個人是否會痛起來的證據。綜觀整個人腦,許多與疼痛有關的情緒與認知功能,皆可能影響fMRI的結果。 ......【更多內容請閱讀科學月刊第568期】

沒有留言: