章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

长尾真报告摘记:数字图书馆的发展

已有 5178 次阅读 2008-11-12 10:55 |个人分类:同行交流| 数字图书馆, 自然语言处理, 中国科技信息研究所, 术语抽取

2008年11月7日,日本国立图书馆馆长长尾真先生在中信所情报学研究生教育30周年会议上作了题为“数字图书馆发展”的主题演讲。摘记一些内容如下:

1. 数字图书馆:根据使用者的需求,引导其有效地利用海量的知识信息宝库;

2. 全球性数字图书馆活动:世界数字图书馆(World Digital Library),百万书库项目(Million Book Project),欧盟DL项目(European Digital Library Project)。(日本数字图书馆已经不再胶片化,而是转向数字化。)

(博主注:这些项目都涉及到多国语言的处理,为了彻底实现数字图书馆的目标,为不同用户服务,多语言自然语言处理问题不可回避。)

3. 网络信息的收集:利用差分收集技术,只存储数据更新部分。

4.  DL今后的课题:

       (1) 跨越OPAC检索:提供能够修正拼写错误的功能,修正模糊表达的功能,半自动建立术语联想词典实现联想检索;

       (2) 用户接口的改进:以对话形式明确用户要求(博主注:不清楚这种对话形式是什么样的,是虚拟参考咨询中的自动问答呢,还是为了和用户直接对话?);

       (3) 集体智慧的利用:参加联想检索用的联想词典的完善工作,参加对老照片等图像数据的标注和解释工作(博主注:依靠集体力量对特定类型信息进行标注,和社会标注还不太一样,也许这种方式的标注相对比较容易控制质量,减少不规范和语义有冲突的标注);

       (4) 引进NLP技术

  • 术语的自动收集以及词典的半自动构建(多语言)
  • 类义词典的自动构建(多语言)
  • 机器翻译系统(多语言)的利用
  • 实现能够接受自然语言检索要求的语句或提供对话方式的咨询
  • 利用文本数据自动构建图书目录
  • 利用文本数据自动生成摘要

 

附:长尾真的简介,1936年出生,59年毕业于京都大学工学系电子工学专业,61年京都大学研究生院硕士课程毕业,66年从京都大学获得工学博士称号,73年担任京都大学教授,97年担任京都大学校长,2004年担任信息通信研究机构理事长,2007年4月开始担任现在的职务。研究开发的业绩涉及自然语言处理、图像处理、信息工学、智能信息学等多个领域。



https://blog.sciencenet.cn/blog-36782-46398.html

上一篇:中国索引学会第三次全国会员代表大会工作报告:回顾
下一篇:长尾真报告摘记:跨越语言障碍
收藏 IP: .*| 热度|

1 俞立平

发表评论 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 05:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部