1 / 9

Information Retrieval and Extraction 2008 期末專題 – 跨語言資訊檢索 (CLIR) Advisor: 陳信希 TA: 許名宏、蔡銘峰

Information Retrieval and Extraction 2008 期末專題 – 跨語言資訊檢索 (CLIR) Advisor: 陳信希 TA: 許名宏、蔡銘峰. Overview. 專題目標 建構跨語言資訊檢索系統並測試其效能 以英文 query 檢索中文相關文件 分組 1~4 人 / 組,請將組員名單 ( 學號、姓名 ) e-mail 給 TA 方法 不限,可使用任何 toolkit or resource on web Demo 及報告繳交 期末考後一星期 評分標準 檢索效能 (training & testing)

Download Presentation

Information Retrieval and Extraction 2008 期末專題 – 跨語言資訊檢索 (CLIR) Advisor: 陳信希 TA: 許名宏、蔡銘峰

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Information Retrieval and Extraction2008 期末專題 –跨語言資訊檢索 (CLIR)Advisor: 陳信希TA: 許名宏、蔡銘峰

  2. Overview • 專題目標 • 建構跨語言資訊檢索系統並測試其效能 • 以英文query檢索中文相關文件 • 分組 • 1~4人/組,請將組員名單(學號、姓名) e-mail給TA • 方法 • 不限,可使用任何 toolkit or resource on web • Demo及報告繳交 • 期末考後一星期 • 評分標準 • 檢索效能 (training & testing) • Effort for implementation / per person • 報告完整性、分工及檢索結果分析

  3. Cross-Lingual Information Retrieval • Challenges: translation ambiguity, out-of-vocabulary (OOV), … etc

  4. Experimental Dataset • Topics • Selected from NTCIR4 CLIR task • 20 topics for training • 10 topics for testing in demo • Document collection • 部份NTCIR4 UDN新聞文件

  5. Topic Example <TOPIC> <NUM>005</NUM> <SLANG>CH</SLANG> <TLANG>EN</TLANG> <TITLE>Dioxin, Human body, Effect, Threat</TITLE> <DESC>Find articles describing Dioxin and its effects on the human body</DESC> <NARR> <BACK>Fowl products of Belgium were polluted by Dioxin in 1999. Because dairy products of Belgium are exported to countries all around the world, customers of importing countries were afraid of buying contaminated products. Therefore, stores around the world removed products from shelves and prohibited the importation of Belgium products in order to secure the health of civilians. Please query an introduction to Dioxin and what threat and danger it might cause the human body.</BACK> <REL>Documents about introduction to Dioxin and its threat to human bodies are relevant. Reports on Dioxin pollution in Belgium and other countries only are not relevant.</REL> </NARR> </TOPIC>

  6. Document Example <DOCNO>udn_xxx_19980101_0005</DOCNO> <LANG>CH</LANG> <HEADLINE> 一 警員 判刑 十九 人 無罪 </HEADLINE> <DATE> 1998 - 01 - 01 </DATE> <TEXT> <P> 高雄縣茄萣鄉興達港警察分駐所 廿 名 員警 , 被 控 縱 放 高雄籍 天 利 十二號 漁船 私 運 鱉 苗 到 大陸 的 集體 貪汙 案 , 高雄 地方 法院 昨天 宣判 , 法官 認為 僅 警員 張清泉 收受 賄賂 , 將 他 判處 有期徒刑 七年六月 , 另 十九 名 員警 無罪 。 船長 鄭叔雄 與 鱉 商 等 八 人 分 被 判決 八個月 到 四年 徒刑 , 船員 鄭博文 無罪 。 </P> <P> 檢察官 當初 起訴 本 案 時 認為 , 保安警察 第五 總隊 支援 興達港 警察 分駐所 勤務 的 警員 張清泉 , 與 該 所 兩 名 巡佐 、 十一 名 警員 及 六 名 保五總隊 支援 的 警員 , 共 廿 人 「 集體 」 縱 放 走私 , 所以 將 他們 依 貪汙 罪 提起公訴 , 使 興達港 警察 分駐所 除了 主管 之 外 , 所有 員警 都 是 被 告 。 但 高雄 地方 法院 昨天 的 判決 認為 , 這 件 貪汙 案 僅 警員 張清泉 涉案 , 並 非 集體 貪汙 。 </P> <P> 判決書 指出 , 有 走私 前科 的 高雄籍 天 利 十二號 漁船 船長 鄭叔雄 五 十 五 歲 ) ,</P> <P> 判決書 表示 , 這 段 期間 , 警員 張清泉 利用 在 興達港 警察 分駐所 負責 執行 漁船 出港 安檢 工作 的 機會 , 連續 五 次 明知 天 利 十二號 漁船 私 運 價值 超過 十 萬元 , 並 被 行政院 列為 管制 物品 的 鱉 苗 與 青蛙 , 但 仍 予 放行 , 由於 調查 人員 監聽到 張清泉 與 船長 及 鱉 商 的 電話 通話 , 罪證 確鑿 , 因此 判處 七年六月 徒刑 , 褫奪 公權 五年 。 </P> <P> 承審 法官 指出 , 根據 懲治 走私 條例 第九 條 規定 「 依 法令 負責 檢查 人員 , 明知 為 走私 物品 而 放 行 」 之 罪 , 是 以 行為 人 明知 的 直接 故意 為限 , 若 僅 為 間接 故意 或 過失 , 均 難 以 這 項 條文 定罪 , 所以 另 十 九 名 員警 在 天 利 十二號 漁船 出港 時 , 雖然 每 次 都 有 登船 檢查 , 但 未 查到 私貨 , 並 無 故意 縱 放 的 犯行 , 因此 全部 判決 無罪 。 此外 , 也 無 證據 顯示 船員 鄭博文 參與 鄭叔雄 等 人 走私 鱉 苗, 判決 無罪 。</P> <P> 判決書 並 指出 , 天 利 十二號 漁船 船長 鄭叔雄依 走私罪 判處 四年 徒刑 , 船員 吳坤 油 、 吳丁木 與 吳石玉 各 三年四月 ; 鱉 商 鄭吳碧 三年二月 ; 紀進福 與 余必卿 各 三年 ; 郭健 豐 八個月 , 緩刑 三年 。 </P> </TEXT> </DOC>

  7. Evaluation • Evaluate top 1000 retrieved documents • Evaluation Metrics • Mean average precision (MAP) • R-precision • 使用 trec_eval評估檢索結果 • Usage of trec_eval

  8. Dataset Description (1/2) • “dict.txt” (file) • A small English-Chinese dictionary • “Docs-CH-seg.txt” (file) • Word-segmented Chinese documents • “Docs-CH(no-seg)” (directory) • Raw Chinese documents, same as “Docs-CH-seg.txt” except without word-segmentation • “TrainingTopics(EN).txt” (file) • Training topics (in English) for system development • “TrainingTopics-qrel(CH).txt” (file) • Relevance assessment of training topics for “Docs-CH*” • Format of each line in the file: <topic_num> 0 <doc_num> <relevant(1) or irrelevant(0)>

  9. Dataset Description (2/2) • “Docs-EN.txt” (file) • An additional (not necessary) English document collection • “TrainingTopics-qrel(EN).txt” (file) • Relevance assessment of training topics for “Docs-EN.txt” • Same format as “TrainingTopics-qrel(CH).txt” • “trec_eval(win32).exe” (file) • Program for evaluation in win32 platform • “trec_eval(UNIX_source).tar.gz” (file) • Source of evaluation program for UNIX

More Related