如何進行文字探勘?CORPRO庫博計畫主持人親自解說

文/圖 陳慶祖

口傳系於10月21日舉辦「口語傳播+社群媒體>2」教師成長社群活動,邀請到了CORPRO 庫博中文獨立語料庫分析工具的計畫主持人,紐西蘭奧克蘭大學(University of Connecticut)教育學博士,目前在國立臺灣大學生物產業傳播暨發展學系的闕河嘉副教授。這次邀請闕河嘉老師來分享關於庫博語料庫分析工具在社群媒體研究的應用。

在講座的開頭,闕河嘉老師先提出了三個問題:語料庫是什麼?語料庫研究可以是什麼?庫博的功能?這三個問題便是該次講座的主軸。所謂的語料庫,就是「研究者自行建置的,符合研究問題所需的代表性文件集」,這樣的文件集可以是一本小說或數篇的演講稿,只要該文件集是研究者為了解決研究問題而建置的,就可以將其稱之為語料庫。

 

而透過庫博語料庫分析工具,則可以做到兩件事:一為「發覺隱藏在語料庫中詞彙使用之模式,譬如,用詞特徵,詞彙間之關係、變化…等」,二是「檢驗已提出之論點」。這兩件代表了對文本的不同的觀看方式,就第一項來說,可以就年代上來觀察某些詞彙是否出現,來探討人們歷時上對於詞彙的使用方式。而就第二項來說,可以透過分析詞與詞的出現頻率,來探索文本中是否存在有過去未曾見過的模式,得出這樣的分析結果,可以做研究者的發想契機或假設佐證。

 

闕河嘉老師接著便以《紅樓夢》、《論語》、《孟子》、《宋史記是本末》為例,透過庫博的分詞、斷詞、詞頻功能,來揭示庫博工具可以用來幫忙回答什麼的問題,好比,「《論語》或《孟子》不同篇章裡是否有特別強的主題?」,這樣的主題便是觀察書中特定辭彙出現的頻率,來得出較強的主題。又或是「如果《宋代紀事本末》中,宋代人名的出現的頻率可以定位他們的重要性…觀察這些人名活躍的時段大致是怎樣地分布,以推測出宋代歷史人物在歷史出現與隱沒的時段。」可以看見,以往透過要透過大量人工的計數的勞動過程,透過庫博工具的幫助,便可以節省掉大量的時間。

 

但是,闕河嘉老師也強調,庫博工具並非是一種萬靈丹,因為每個領域都有各自的發展歷史與範圍,庫博不一定適合所有研究領域。庫博也大多被作為一種「混合研究方法、輔助研究方法」,是一種補助研究者的工具,因此研究者在撰寫研究時,一定要將研究方法中的完整選擇過程交代清楚,以免造成混淆。

闕河嘉老師來分享關於庫博語料庫分析工具在社群媒體研究的應用
闕河嘉老師來分享關於庫博語料庫分析工具在社群媒體研究的應用
CORPRO庫博計畫主持人闕河嘉老師親自解說
CORPRO庫博計畫主持人闕河嘉老師親自解說