云优化官网—互联网+信息化服務(wù)平台,【Tell:400-168-9985】专注企业网络平台搭建、渠道搭建、移动互联网营销、大数据、物(wù)联网等咨询培训等)帮助企业互联网化。业務(wù)涵盖企业网站建设|网络推广|网络营销策划|网络营销培训|网络营销外包公司|百度竞价托管|電(diàn)子商(shāng)務(wù)外包|html5手机网站设计|武汉微网站建设多(duō)少钱|sem竞价托管
一般来说,一个词语或短语能(néng)否成為(wèi)文(wén)章的关键词,主要取决于这个词语或短语反应文(wén)章中心思想能(néng)力的大小(xiǎo)。关键词与文(wén)章之间的相关性,也主要是為(wèi)了说明任选的一个词语和短语,对于指定的文(wén)章,它反应这篇文(wén)章的中心思想或主题意思的能(néng)力有(yǒu)多(duō)少。关键词的抽取受到词语在文(wén)章中出现的位置,出现的频率以及词语的语义特征的影响。那么,搜索引擎到底是如何判断关键词和文(wén)章之间的相关性呢(ne)?在这里,小(xiǎo)编从自己的一些观点出发,产生了一些想法,应该抛砖引玉,得到大家的指点。
个人认為(wèi),搜索引擎应该是从以下几步来如何分(fēn)析关键词和文(wén)章性的:
第一:搜索引擎首先对要分(fēn)析的网页进行净化处理(lǐ)
网页净化主要是去掉网页中大量无用(yòng)的广告、导航栏等网页模板噪声以及无意义的内容,如JavaScript脚本,CSS标记等内容。至于搜索引擎采用(yòng)的是何种算法,则不為(wèi)我们所知,但是个人估计应该是对网页进行划分(fēn)為(wèi)不同的快,通过衡量网页块的重要程度来判断出包含主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要程度,那是另外一个课题。
第二:针对提取出的内容进行分(fēn)词处理(lǐ)
个人认為(wèi),搜索引擎可(kě)能(néng)采用(yòng)了某种算法,对内容先进行了词语粗分(fēn)阶段,先得出N个概率最大的切分(fēn)结果;然后,利用(yòng)角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分(fēn)词图中,之后视其為(wèi)普通词处理(lǐ),最终进行动态规划优选出N个最大概率切分(fēn)标注结果。并进行记录。
第三:对初步分(fēn)词的结果进行去除无意义的词语
搜索引擎通过对第二步的分(fēn)词结果进行分(fēn)析,去除一些语气词和形容词等非实意词和一些单词,同时还考虑到单字词所表达的信息不够完整也应当滤除。去除停用(yòng)词通过建立一个停用(yòng)词列表来实现。这样,通过去除这些无意义的词之后,剩下的就是有(yǒu)意义的,值得分(fēn)析的词汇了。
第四:对关键词的权重进行确定分(fēn)析
在完成对文(wén)章分(fēn)词切分(fēn)和净化工作之后,就要将文(wén)章所有(yǒu)关键词进行分(fēn)析了,筆(bǐ)者的想法是搜索引擎将文(wén)本表示成Ⅳ维特征向量,每一维分(fēn)量由关键词及其权重组成。一般认為(wèi),关键词在文(wén)中的权重的确定,主要由三部分(fēn)组成,词频,位置和词义共同影响决定。而词频和位置对词语或短语的影响可(kě)以通过确定的算法加以确定,词义权重也有(yǒu)固定的算法进行分(fēn)析计算。搜索引擎利用(yòng)设定好的算法对上述关键词进行了计算和分(fēn)析。从而得到最后的结果。
搜索引擎通过上面的步骤进行分(fēn)析后,得到最后的结果,而筆(bǐ)者在这里谈谈自己对搜索引擎具體(tǐ)的分(fēn)析方式,只是个人见解:
第一:搜索引擎基于关键词位置的权重
在文(wén)档中,关键字所在的位置对于搜索引擎判断某个关键字在页面的权重起到很(hěn)重要的作用(yòng)。比如说域名被搜索引擎认為(wèi)是网站最固定的因素,例如:域名里面含有(yǒu)DVD关键字的域名,在用(yòng)户检索关键字DVD的时候具有(yǒu)先天的优势。标题是网站的最宝贵的资源,搜索引擎认為(wèi)标题是在浏览器标题栏里而显示,因為(wèi)要显示给用(yòng)户,所以它是文(wén)件最重要和最简洁的摘要。适当突出关键字在标题的比重非常有(yǒu)利于排名的提高。
第二:搜索引擎基于关键词出现的频率
网页中不同关键词的总数,这是一个很(hěn)重要的方面。个人认為(wèi)虽然关键词出现的位置和词频大小(xiǎo)对关键词权重影响很(hěn)大,但是词频大并不能(néng)决定该词语适合作為(wèi)关键词。举个简单的例子,我们在一篇文(wén)章中对“美國(guó)’’进行优化,出现的词频很(hěn)大,出现的位置也很(hěn)重要,但是这个词还是不能(néng)赋予较高的权重,因為(wèi)“美國(guó)’’也广泛的出现在其他(tā)的文(wén)献中,在这些文(wén)献中,“美國(guó)“也存在频率大和所在位置也比较重要。因此,对那些词频较高但又(yòu)不适合作為(wèi)关键词的词语赋予的权重应该较低。
第三:文(wén)档中重要关键词之间的距离
个人分(fēn)析,文(wén)档中重要关键词之间的距离应该也是衡量关键词与文(wén)章的相关性的一个重要方面。
搜索引擎在进行以上一系列的处理(lǐ)之后,从而针对这个关键词给该文(wén)章一定的评分(fēn),当用(yòng)户搜索某个关键词时,该评分(fēn)高的文(wén)章排在前面的机会就大很(hěn)多(duō),当然这是排除了外链的影响。