基于文本频谱的中文文本聚类方法 基于文本频谱的中文文本聚类方法

基于文本频谱的中文文本聚类方法

  • 期刊名字:四川大学学报(自然科学版)
  • 文件大小:
  • 论文作者:周扬,屈武斌,卢一鸣,张成岗,杨毅
  • 作者单位:四川大学生命科学学院,军事医学科学院放射与辐射医学研究所
  • 更新时间:2022-04-26
  • 下载次数:
论文简介

本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。