簡介
近年來隨著人工智慧技術的蓬勃發展,人工智慧的應用逐漸落實在日常生活周遭。全球性的市場調查諮詢公司 Markets & Markets 預估人工智慧應用的市場將從 2017 年的 160.6 億美元成長到 2025 年的 1,906.1 億美元,年均複合增長率達到 36% 。獲益於人工智慧技術的產業包括製造業、金融科技、醫療領域等。這一波人工智慧的發展預期將會在 2022 年為醫療領域帶來79 億 880 萬美金的產值 。主要應用的人工智慧技術包括機器學習、自然語言處理、情境感知以及電腦視覺。其中自然語言處理技術更是在促成智慧醫療領域中扮演最重要的推手,依此技術所開發的各種醫療決策分析系統,如 IBM Watson 等,已經開始蓬勃發展與應用。
臺灣醫療技術在世界上頗負盛名,這波的人工智慧技術更是掀起了產官學界一股智慧醫療的風潮。本計畫期望能夠藉由此計畫的推動,在這股即將到來的熱潮中扮演領頭羊的角色,引領學子在學習人工智慧技術的同時,將其應用到跨領域的生物醫學智慧計算領域。本計畫將以自然語言處理技術為核心,開放競賽語料讓學子能夠將人工智慧技術應用於基礎的臨床醫療病歷資料分析到進階的生物資訊文獻語料,據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才,並期待在本競賽中發展的技術成為臺灣健康資料加值應用中最重要的一環。參與本競賽的學子將可實務的了解分析生物醫學資料的流程與技術,並體現轉譯醫學思維,讓學子能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究,和臨床治療連結的大思維。
生物命名實體辨識做為文獻探勘研究的基礎,本熱身賽會提供人工標註的生醫文件(來源包含:PubMed、PubMed Central、以及專利文獻摘要),並將資料分為訓練集、建構集與測試集。熱身賽內容包含三項任務,細節如下:
任務一:參賽隊伍須辨識文獻中所提及的基因、疾病以及化學物質共三種命名實體類型。
任務二:回答上述三類之基因、疾病與化合物分別對應至生醫資料庫中之ID編號,其中基因ID會以人類基因為主,但包含部分非人類基因。
任務三:進一步回答文章中疾病源發自何種器官或組織(例如:肺臟、皮膚、血液或骨髓,限縮在給定之57項器官組織中,相關規定亦會於標註準則中說明並公佈),以及該篇文章中的化學物質命名實體是否會引發或造成該文章中何種疾病。
高階參賽者則須完成任務一至三所有項目。
競賽獎金
高階:
第一名 新台幣 80,000元
第二名 新台幣 44,000元
第三名 新台幣 30,000元
每項競賽前三隊伍,及表現優異者若干隊伍,經競賽委員會審定後,將獲頒教育部獎狀
名次在前25%且超過Baseline之隊伍,經競賽委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀
活動時間
活動開始於台灣時間(UTC+8小時)2018/09/20凌晨零時。
日期 事件
2018/09/20 開放報名及組隊(提供註冊及Sample data)
2018/10/1 ~ 2018/10/20 校園巡迴 (相關問題請來信:moe.ai.ncu@gmail.com)
2018/10/29 公布建構集及訓練集資料。開放下載及資料上傳算分
2018/12/31 23:59:59 報名及組隊截止
2019/01/02 公布測試集,開放下載及測試集上傳(上傳截止後,系統統一公布分數)
2019/01/14 23:59:59 比賽截止,關閉測試集的資料上傳功能
2019/01/15 公布系統分數
2019/01/24 23:59:59 上傳報告截止
評估標準
高階之評分方式如下:
-
參與高階的隊伍須先達成進階目標,接著需將疾病對應到其在該篇文件中所屬的器官(Target_Organ),以及將與化合物對應到其在該篇文件中有關聯的疾病(Cause_Disease)。
-
評估方式採用 F1-measure,其公式如下:
-
Instance 涵蓋範圍包含以下項目:
-
基因與其ID,例如:<PMID:26037070,Gene,Entrez:3576>
-
疾病與其ID ,若疾病在該篇文件,有說明發源的器官,需標註該器官之MeSH ID,若沒有明確所屬的器官,器官可為空,例如:<PMID:26037070,Disease,MeSH:D004194,Target_Organ:D013270>
-
化合物與其ID,若化合物在該篇文件,有關聯的疾病,需標註該疾病之MeSH ID,若沒有明確關聯的疾病,疾病可為空,例如:<PMID:26039320,Chemical,CHEBI:6497,Cause_Disease:NULL>
-
相關問題諮詢,請洽 btmiis316@gmail.com
競賽規則
-
指導教授得指導多隊參賽隊伍,但隊伍需避免有抄襲行為。主辦單位將聘請專業審查委員針對各隊伍之系統與結果進行嚴謹審查,經舉報或確認獲獎隊伍之系統為非獨立且非唯一之作品,將取消獲獎資格,並由他隊依排名遞補。
-
主辦單位將提供各參賽隊伍詳細標註準則,在此準則下各參賽隊伍皆不得以手動標註等人為方式影響或修改程式結果。若經主辦方發現,將取消獲獎資格。
-
本競賽可使用各項外部資源如語料、字典及套件。
-
每人限報名一隊,同一人或團隊只能有一組帳號,人員不得重複參加,違者經確認後會取消參賽資格。
-
每個隊伍的成員人數上限為5人。
-
本競賽獎金敘獎對象為全學生之隊伍,即比賽隊伍除指導教授外,其餘成員都是學生。若違反此條件則不列入敘獎排名,無法提供獎金。
-
最後獎金以 2019/01/15 的排名敘獎,報告則是用來檢視其作法及確認是否有舞弊之行為。
-
比賽評估結果以最後上傳的結果為基準,若評估分數一致時,以上傳時間優先為主。
-
參賽者可基於學術研究目的發表解題之研究成果,但需加註說明資料來源,並通知主辦單位。
議題提供單位
中央研究院是台灣最高的學術研究機構。目前在廖俊智博士領導之下,致力於數理科學、生命科學及人文與社會科學三方面之基礎科學研究。資訊科學研究所於 1977年開始設立籌備處,歷經五年籌備,於1982年9月正式成立研究所,是中央研究院數理組十個單位之一。本所除了從事資訊科學領域的基礎研究之外,亦以開發具前瞻性之尖端技術與發展以應用為導向的最先進系統為職志。身處學術重鎮,本所有責任在國內資訊領域肩負起學術領導地位,提升本國資訊科技水準,並躋身國際一流學術研究單位。「件件工作,反映自我,凡經我手,必為佳作」是全體同仁一致秉持的工作信念,重視工作之卓越品質,發揮最佳綜效之團隊精神。