CiteSeer X 資工領域引用文獻索引


CiteSeerX_01

CiteSeer是全球第一個使用ACI(Autonomous Citation Indexing)技術,自動在網路搜尋爬取(crawl)與資訊工程學科領域相關文章的引用文獻索引系統並提供免費檢索與全文下載服務,在2016年初時已收錄超過7百萬筆的全文(Wu, Liang, Yang, & Giles, 2016)。該系統主動搜尋網路上PostScript和PDF兩種格式學術論文(包含預印文獻、研究報告、期刊文章與會議論文)將其內容轉換為文字,並自文中擷取URL、文章篇名、作者、摘要、前言、引用文獻、文中引文內容,同時也做全文索引(Giles, Bollacker, & Lawrence, 1998)。CiteSeer在1997年由位於美國紐澤西州普林斯頓的NEC研究機構所開發,2003年則移轉至賓夕凡尼亞州立大學(Pennsylvania State University)資訊科學學院,由當時亦是NEC研究機構研究成員的Lee Giles教授以計畫方式主持,爾後以新世代為喻改以CiteSeer X為名繼續提供新的服務(Pennsylvania State University, 2015)。

透過引用文獻索引可以檢索相關文獻群、並由引用情形評估文章良窳與學術影響力、進而分析學科主題發展情形及了解學術發展趨勢,不論對資料的檢索者或是學術研究者等而言,是相當重要的資訊檢索與分析工具。引用文獻索引最被人所熟知的有SCI、SSCI、A&HCI和Scopus資料庫,但這些都是價格高昂的付費資料庫且有一定的文獻收錄範圍。CiteSeer X則是提供免費使用的資工領域引用文獻索引,並有別於前述引文資料庫,CiteSeer X透過演算法等技術,在網路上自動搜尋訊資工領域學術論文,並不侷限於某些特定期刊或受期刊未準時出刊的影響,只要文章在網路上出現即可被索引收錄,自動擷取文中書目資訊,以引用關係串連相關文章,讓資工學科領域的學術文章更容易被檢索與查閱。

CiteSeer X具有以下特色:

  1. 提供文章、作者與文中表格名稱三大檢索項目。可以用關鍵字來檢索文中表格名稱,是其它資料庫與Google Scholar所無法提供。
  2. 使用作者檢索項目,查詢結果會列出作者所屬機構、著作篇數與書目,並呈現可供評鑑作者學術質與量的H-Index。(H-Index是指作者至少有h篇文章中的每一篇文章至少被引用了h次)
  3. 提供進階查詢功能,可由全文、文章題名、作者名、作者所屬機構名、期刊名稱或會議名稱、關鍵字與摘要等欄位來查詢,但各欄之間是”AND”的運算關係,另可搭配年代與引用文獻最少篇數來限縮查詢。(參見圖一 CiteSeer X進階查詢頁面)
  4. 檢索結果呈現文章書目資訊並可下載全文,列出該篇文章被引用次數與作者自引情形,自動鏈結文章所引用、被引用、共同引用與相關文章。(參見圖二 文章所引用、被引用、共同引用與相關文章)
  5. 文章內文與引用文獻為全文索引方式,並可透過布林邏輯、詞組與鄰近功能來進行檢索。
  6. 提供由文章的引用文獻進一步查看在文中的引文內容。
  7. 提供MyCiteSeerX個人化服務,檢索者可以免費申請帳號進行文章收錄與追踪功能,並可提供個人著作資訊。(參見圖三 MyCiteSeerX個人化服務)

CiteSeerX_02

圖一  CiteSeer X進階查詢頁面

CiteSeerX_03

圖二  文章所引用、被引用、共同引用與相關文章

CiteSeerX_04

圖三  MyCiteSeerX個人化服務

系統在網路上進行相關主題爬取與自動分析資料內容時,會遇到一些來自文獻本身既已存在的問題待克服,諸如文獻本身有不正確資訊,所使用引用格式規範不一或著錄格式錯誤或是引用書目錯誤,作者姓名與出版品名稱/簡稱不易識別、缺乏著錄標準號碼以利辨識如ISBN、DOI等等(Lee, Kang, Mitra, Giles, & On, 2007)。CiteSeer X以自動網路搜尋並推演文章內文與書目資料,無可避免地會有這些棘手的困難,有使用者即認為它缺乏高品質書目資訊擷取結果,可能造成引用關係與引用次數的不正確(Wu, 2014);而自動於網路搜羅文獻雖省事及時,但所收錄文獻是否完全契合學科主題,且網路資源內容良窳不齊,再者由作者可主動提供著作但品質似無嚴格把關,因此在進行檢索後應參考文章被引用次數以及文章作者的H-Index來慎選文獻。另有研究發現CiteSeer X簡潔的檢索列較難精確檢索出所需資料(陳薇竹, 2007),查出的篇數太多時無法再行限縮,進階查詢時僅提供各檢索欄位"AND"的運算關係缺乏彈性。

CiteSeer X不斷地試圖尋求改進,對於文獻書目資訊的正確性,除了使用dblp的書目資訊來進行校正外,將利用IEEE與Microsoft Academic search的資料來增進書目品質(Caragea et al., 2014),並加強人工智慧的語意分析功能(Wu et al., 2016)。此外,有研究者針對CiteSeer X進行優於關鍵字查詢、結合文章作者H-Index值與檢索者檢索經驗與概念的複合式模式(Conceptual Impact-Based Recommender: CIBR)(Labille, Gauch, & Joseph, 2015),希冀可以提供一個有別於傳統的理想系統檢索方式。

沒有一個檢索系統是絕對完美的。CiteSeer X的確存在許多問題,不過就其完全開放服務、提供引用關係文獻群與引用情形、作者H-Index、可檢索文中表格關鍵字、以及可全文下載的角度來看,CiteSeer X仍是進行廣搜資工學科領域研究資料時可以考慮使用的免費學術資源。

參考文獻
Caragea, C., Wu, J., Ciobanu, A., Williams, K., Fernández-Ramírez, J., Chen, H.-H., . . . Giles, L. (2014). Citeseer x: A scholarly big dataset. Paper presented at the European Conference on Information Retrieval.
Giles, L., Bollacker, K., & Lawrence, S. (1998). Citeseer: an automatic citation indexing system. Paper presented at the Proceedings of the third ACM conference on Digital libraries.
Labille, K., Gauch, S., & Joseph, A. S. (2015). Conceptual Impact-Based Recommender System for CiteSeerx. http://ceur-ws.org/Vol-1448/paper9.pdf
Lee, D., Kang, J., Mitra, P., Giles, C. L., & On, B.-W. (2007). Are your citations clean? Commun. ACM, 50(12), 33-38. doi:10.1145/1323688.1323690
Pennsylvania State University. (2015). About CiteSeerX.   Retrieved from http://csxstatic.ist.psu.edu/about
Wu, J. (2014). Why People Prefer Google Scholar rather than CiteSeer.   Retrieved from http://fanchyna.wixsite.com/jianwu/single-post/2014/10/01/Why-People-Prefer-Google-Scholar-rather-than-CiteSeer
Wu, J., Liang, C., Yang, H., & Giles, C. L. (2016). CiteSeerX data: semanticizing scholarly papers. Paper presented at the Proceedings of the International Workshop on Semantic Big Data, San Francisco, California. http://delivery.acm.org/10.1145/2930000/2928306/a2-wu.pdf?ip=140.112.113.218&id=2928306&acc=OPEN&key=AF37130DAFA4998B%2EEE7BEA59C98A8EF6%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID=854461668&CFTOKEN=90434668&__acm__=1476931746_b6eb54dce7e90c1d976217f07f567cca
陳薇竹。(2007)。引用文獻索引資料庫之比較研究。(碩士論文),國立政治大學,台北市。

by 洪翠錨