热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何避免页面的关键字和描述

如何处理页面的关键字和描述新闻类,程序自动从其他网站获取正文,然后保存成html文件,如何获取正文中的关键字信息,把静态页面里的keyword和Description内容替换掉------解决方案--------------------比较麻烦,正则提取替换试试------解决方案--------------------什么才叫正文中的关键字信息?---
如何处理页面的关键字和描述
新闻类,程序自动从其他网站获取正文,然后保存成html文件,如何获取正文中的关键字信息,把静态页面里的keyword和Description内容替换掉

------解决方案--------------------
比较麻烦,正则提取替换试试
------解决方案--------------------
什么才叫正文中的关键字信息?
------解决方案--------------------
分词
------解决方案--------------------
想要得到可以替换掉keyword内容的数据,必须从数据库中提取关键字,
数据的保存格式类似于论坛的分区和帖子之间的父子关系。

但,问题是关键字如何生成。

我觉得生成关键字方式主要分为以下两种:
1.手动提交
也就是在提交新闻的时候,有一个关键字的栏,人工输入需要的关键字。
2.自动提交提交新闻的时候根据内容生成
从一篇文章中提取关键字是一项很繁琐的运算,通常叫做分词,也是搜索引擎的关键技术之一。
想要做到即使提取是不太可能的。可以分为以下两种:
2.1 提交新闻时自动输入
提交新闻的时候,可以用Javascript从内容中提取关键字,当然,如果内容较长,提取的时间也会变长。
不过,提交内容的时间稍微长一点,通常不会影响到UI的操作质量,而且,具体想要分析到哪一步,可以根据情况而定。
2.2 后台程序自动生成
简而言之,就是用一个后台程序,分析新闻内容,然后自动生成关键字信息,保存到数据库中。

DZ论坛关键字的提取,就是方法1和2.1的结合。
lz可以根据自己的需求选择适合自己的方法。
------解决方案--------------------
分词,很麻烦的

主要是分词加词频统计

智能检索文本并提取关键词
呵呵,你能做的话可以开发搜索引擎和智能翻译系统了


推荐阅读
author-avatar
桃子小1992
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有