整理文獻信息,電腦表現不比人差
在1997年,IBM的電腦“深藍”打敗了象棋大師加里•卡斯帕羅夫(Gary Kasparov)。而由威斯康辛大學麥迪遜分校大學開發的電腦系統完成了更為復雜的任務:它可以從浩如煙海的科學文獻中檢索信息并進行數據分類,并且準確程度不比進行人工錄入的科學家差。這一研究成果于近日發表在《公共科學圖書館·綜合》(PLOS ONE)期刊上。
克里斯托弗·雷(Christopher Ré)是這個軟件項目的領導者,他表示:“我們證明,這個系統在我們所測試的所有信息處理任務中都不亞于真人,在一些方面它們甚至表現得更好,這個結果非常令人振奮。”
棋類游戲看起來可能很復雜,但它們都是建立在嚴格固定的規則之上的:在特定情況下,只有特定的一些走法是合規的。而從學術出版物中提取信息的規則不是那么明確,這對參與其中的人類和機器而言都是一種挑戰。
論文作者表示,開發這樣一個信息提取系統是為了解決古生物學中的分類學信息整理問題。每一年,古生物學家們都會基于化石發現發表眾多學術論文,在其中提出新的分類學觀點,這些信息非常重要,但也非常零散。如果要得到全景式的信息圖表,就得把這些散落在原始論文中的信息一點點提取出來,建立數據庫才行。
目前在這方面,與古生物學數據庫The Paleobiology Database合作的科學家們已經進行了很多工作,他們在這個數據庫中人工錄入了許多來自原始科研論文的信息。然而,由于論文總數十分龐大且不斷增長,至今仍有大量論文信息還沒有進行錄入。為了解決這個問題,研究者們開始“訓練”計算機閱讀系統PaleoDeepDive,希望它能接替人進行這項繁重的工作。
這套系統是在機器閱讀系統DeepDive的基礎上建立的,類似的系統現在也被用在IBM和Google的項目當中。“唯一不同的是我們是圍繞著科學文獻來進行的,在這些文獻中的語言更加清晰和簡潔一些。”雷這樣說到。
正如人工錄入方式那樣,PaleoDeepDive也會首先“閱讀”文檔,并總結出其中的結構性信息,如分類名、時期以及基因圖譜位置等等。“我們的策略 并不是試圖猜測所有文獻中具體章節的含義,而是‘總體上判斷這個文獻所描述的問題’,”雷表示,“人們總是過度注意細節,而關注整體就是DeepDive 的優勢所在。”
研究者們選取了一些機器錄入的信息,并將它們與人工錄入的信息混在一起進行了雙盲評價。結果發現,機器錄入信息的準確率可達92%,這個成績與人工錄入的水平持平,甚至還更高一些。“假如能獲取更多的反饋和數據,我們還可以在此基礎上做得更好,”論文第一作者沙南·彼得斯(Shanan E. Peters)說,“這將可以系統性地、大規模地改善數據的質量。”
彼得斯表示:“最終,我們希望有能力創造一種電腦處理系統,它幾乎可以在瞬間完成很多地質學家和古生物學家要花費一生時間來做的事情:閱讀大量文獻,整理大量事實,并且將它們彼此關聯起來,來解決一個復雜的問題。”
官網:m.baichuan365.com | 微信服務號:iseebio | 微博:seebiobiotech |
商城:mall.seebio.cn | 微信訂閱號:seebiotech | 泉養堂:www.canmedo.com |
下一篇:模擬生命的基本單元的出現上一篇: 國內外藥企紛紛轉戰仿制藥市場
相關資訊
- 科學家揭示細菌耐藥性產生分子機制
- 人工進化蛋白因子加速體細胞重編程取得進展
- FEBS J:抵抗阿爾茨海默病的新策略
- “瑞士軍刀”的雙面性:CRISPR基因編輯存在潛在致癌風險
- 4-硝基苯-α-L-巖藻糖苷酶 (O-PNPAFC) 在水里的溶解度怎樣? 有沒有其它溶劑可以推薦?
- 中科院院士、上海生命科學院院長李林一行領導蒞臨 西寶生物考察交流
- 科學家開發出大規模生產人類干細胞的新技術
- 2013年8月生日快樂!我們是一家人
- 流式細胞術中為什么要用同型對照?如何選擇同型對照?
- seebio品牌自主產品2014年文獻引用
新進產品
同類文章排行
- 清除人體內衣原體感染的關鍵鑰匙
- iScience:一種對抗遺傳性神經系統疾病的潛在途徑
- 真的有可以中和所有已知COVID-19毒株的抗體?
- 細胞“廢物”使抗癌的免疫細胞恢復活力!
- 男性注意!這種食品攝入過多會導致結直腸癌
- 無路可退!主食中的農藥殘留,可誘發阿爾茨海默病
- Cell出乎意料新發現:原來是這種“瀕死體驗”讓癌細胞惡化
- 研究發現,冠狀病毒的形狀會影響其傳播
- Science Advances新突破:快速高效生產人體免疫細胞的新方法
- 《Nature Genetics》確定10個克羅恩病相關基因