基于机器学习的网页文本抽取技术 基于机器学习的网页文本抽取技术

基于机器学习的网页文本抽取技术

  • 期刊名字:图书馆学研究
  • 文件大小:
  • 论文作者:程娟
  • 作者单位:江汉大学文理学院图书馆
  • 更新时间:2022-07-27
  • 下载次数:
论文简介

本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术.首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统.

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。