科技風: 期末報告有救了！中國留學生研發 AI 論文機器人，讀文獻、寫摘要跟下結論都難不倒它2019/06/03-ppt

2019年6月9日星期日

期末報告有救了！中國留學生研發 AI 論文機器人，讀文獻、寫摘要跟下結論都難不倒它

Posted on

2019/06/03

開發的 AI 學術助手叫做 PaperRobot，可以幫助構建論文的背景知識圖，寫摘要、關鍵內容和標題，梳理結論並給出進一步的研究方向的建議。

PaperRobot 目前主要應用於生物醫學領域，這個領域已有的論文數已超過二千六百萬份，近年來更是持續呈現爆發式的成長，每年發表的論文超過一百萬份。

在 2012 年，美國科學家提出，人類平均每年只能閲讀 264 篇論文，這個數字與他們在 2005 年進行的同樣調查中報告的數據是一致的。而論文機器人能幫助學者快速從海量的已有研究中，篩選出寫論文需要的材料，讓你真正站在巨人的肩膀之上，節約大量的時間。

喜歡 PaperRobot 生成摘要的讀者要比喜歡人類寫的摘要的讀者多 30% 以上，結論部分投給 PaperRobot 的讀者要多 24%，研究建議部分 12%。

論文機器人的幻想早已有之，早在 2005 年，麻省理工學院（MIT）電腦科學與人工智慧實驗的三個學生 Dan Aguayo、Max Krohn 和 Jeremy Stribling 就曾經一起開發過一款自動生成論文的小程式 SCIgen。

SCIgen 是一個網頁程式，只需輸入作者名，就可以自動生成一篇「SCI 等級」的電腦論文。摘要、背景介紹、實驗結果、圖表、討論以及結論一應俱全。生成的論文格式可能比一些學生寫的論文還要規範。

但是，與 PaperRobot 不同，SCIgen 根本無法通過圖靈測試，因為它生成的論文只有格式正確，內容完全是不知所云。

SCIgen 的原理很簡單，類似於填字遊戲。因為學術論文的格式非常固定，而且基本都是固定的專業詞彙和句式，SCIgen 只需要從固定的詞庫中，隨機抽取出這類計算機領域內的專業術語，以符合語法的方式生成文本，再加上一些漂亮的圖表和詳細的參考文獻等，形式上就可以非常規範，從而能騙過不少外行。

例如這篇生成的論文名為《Rooter：處理接入點與冗餘的典型合一方法》，看起來用詞非常深奧，但是內行人仔細閲讀就會發現文章只是語言和術語的堆砌，沒有什麼實質性的內容。

MIT 三個大學生開發這款軟件的目的其實就不是為了幫自己寫論文，而是為了揭露 WMSCI 之類的不認真審查論文的期刊和會議。

現在 SCIgen 的訪問量依然驚人，每年的瀏覽量超過 60 萬次，無數假論文源源不斷地產出，導致這個頁面隔幾個月就要崩潰一回。

2013 年，法國格勒諾布爾大學的研究員 Cyril Labbé 透露，他在 IEEE 和 Springer 出版公司旗下的期刊中，發現了超過 120 篇 SCIgen 生成的假論文。

從學術釣魚軟體 SCIgen 到靈感提供者 PaperRobot，從假論文到真助手。技術的進步可以幫助科研人員節約時間，也可以被學生用於學術造假。

PaperRobot 就構建出如下的背景知識圖。其中每個節點代表不同的知識概念，邊表示這些實體之間的關係。

新靈感的萌芽

新的科學發現可以看作是在已有的知識圖中創建新的節點或連結。創建新節點意味著在實驗室實打實地通過一系列的實驗發現新的概念（如新類型的蛋白質），這對 PaperRobot 來說有一些困難。但是以背景知識圖，也就是現有的知識概唸作為起點，發現新的連結還是可以實現的