喜悦国际村 
» 游客:  注册 | 登录 | 搜索 | 统计 | 喜悦证交所 | 帮助

RSS 订阅当前论坛  

$5.95 Web Hosting     

上一主题 下一主题
 27  1/3  1  2  3  > 
     
标题: [讨论] 比较文章相似度  
 
kingerq
中级会员
Rank: 3Rank: 3
老会员


UID 19868
精华 0
积分 479
帖子 485
金钱 479 喜悦币
威望 0
人脉 0
阅读权限 30
注册 2003-4-25
来自 浙江温州
状态 离线
[广告]: Enom域名自助付费 自助注册 自助PUSH 主流域名COM等一律57.99元年
比较文章相似度

问题是太慢了。我的目录里有1000个文章,几个小时都比较不出结果来。
大家看看有没有好方法。。

<?php
//检查内容重复情况
$content $repeat = array();
$num 0;
$dir "cs/";

if (
is_dir($dir)) {
   if (
$dh opendir($dir)) {
       while ((
$file readdir($dh)) !== false) {
           if ( 
is_dir$dir.$file) ) continue;
           
$f file$dir.$file ) ;
           unset(
$f[0]);
           unset(
$f[1]);
           unset(
$f[2]);
           
$text str_replace(array("&nbsp;""n"" ""t"), array("","",""""), trim(strip_tags(join(""$f))) );
           
$lenText strlen($text);
           
//echo $text;exit;
           
           
foreach( $content as $key => $val ) {
             
$similar similar_text$val$text );
             if( 
$similar/$lenText 0.9 ) {
               
$repeat[$key][] = $file;
               
$num++;
               continue 
2;
             } 
           }
           
$content[$file] = $text;
       }
       
closedir($dh);
   }
}
echo 
"Repeat:".$num." ";
echo 
"content:".count($content);
print_r($repeat);
?>




资料:Kingerq's PHP
2006-11-25 10:34 AM#1
查看资料  访问主页  发短消息  顶部
 
kingerq
中级会员
Rank: 3Rank: 3
老会员


UID 19868
精华 0
积分 479
帖子 485
金钱 479 喜悦币
威望 0
人脉 0
阅读权限 30
注册 2003-4-25
来自 浙江温州
状态 离线
[广告]: 代充Paypal帐号美元
咋得没有人理偶呢??帮忙看看呀。。



资料:Kingerq's PHP
2006-11-25 11:35 AM#2
查看资料  访问主页  发短消息  顶部
 
LuckLrj (中国php中的爱因斯坦)
版主
Rank: 7Rank: 7Rank: 7
老会员


UID 64836
精华 0
积分 2323
帖子 3118
金钱 2323 喜悦币
威望 0
人脉 0
阅读权限 100
注册 2005-6-19
状态 离线
[推荐阅读] 求教正则表达式
用php做这个,太吃力了。



学习,工作累了,请访问我的小站,娱乐一下。http://www.52sunny.net
2006-11-25 12:26 PM#3
查看资料  Blog  发短消息  顶部
 
philip
中级会员
Rank: 3Rank: 3
老会员


UID 20825
精华 0
积分 453
帖子 508
金钱 453 喜悦币
威望 0
人脉 0
阅读权限 30
注册 2003-6-17
状态 离线
[推荐阅读] 男人也可以这样漂亮的
那用什么来做呢??



[img]http://pubimg.kuho.com/club/newbbs/13.jpg[/img]
2006-11-25 02:01 PM#4
查看资料  发短消息  QQ  Yahoo!  顶部
 
游戏人间
版主
Rank: 7Rank: 7Rank: 7
☞风云山庄大少爷☜


UID 62639
精华 2
积分 14538
帖子 7531
金钱 14389 喜悦币
威望 20
人脉 129
阅读权限 100
注册 2004-12-21
来自 广西人在北京
状态 离线
[推荐阅读] 求一份PHP程序开发的工作
用C啊。



 
群号:6025396/6025252/19520091(广西PHP交流/PHP高级编程/算法交流) 寧可在嘗試中失敗,也不在保守中成功! 不為失敗找理由,只為成功找方法! 饿踢Blog
 
2006-11-25 03:24 PM#5
查看资料  访问主页  Blog  发短消息  顶部
 
奶瓶 (NP博士)
版主
Rank: 7Rank: 7Rank: 7
老仙


UID 52707
精华 4
积分 5558
帖子 6228
金钱 5508 喜悦币
威望 50
人脉 0
阅读权限 100
注册 2004-11-22
来自 北大中文系
状态 离线
[推荐阅读] 再次求教一个程序设计思路方面的问题!
C也快不到哪里




图片包子,注册送100包子!
2006-11-25 05:02 PM#6
查看资料  访问主页  Blog  发短消息  QQ  ICQ 状态  Yahoo!  顶部
 
天行健
中级会员
Rank: 3Rank: 3



UID 76196
精华 0
积分 279
帖子 371
金钱 279 喜悦币
威望 0
人脉 0
阅读权限 30
注册 2006-7-10
来自 天法生一
状态 离线
[推荐阅读] 验证码:IE下后退可刷新,FF下后退不变
按搜索原理来行不



天下兵法了于胸,十方无敌勇者狂
2006-11-25 05:18 PM#7
查看资料  发短消息  QQ  顶部
 
kingerq
中级会员
Rank: 3Rank: 3
老会员


UID 19868
精华 0
积分 479
帖子 485
金钱 479 喜悦币
威望 0
人脉 0
阅读权限 30
注册 2003-4-25
来自 浙江温州
状态 离线
[推荐阅读] 求请假时间段月日小时
那怎么办?有没有快一点的方法或者 算法?



资料:Kingerq's PHP
2006-11-26 12:58 PM#8
查看资料  访问主页  发短消息  顶部
 
A.I.Rの星祈V
注册会员
Rank: 2



UID 72583
精华 0
积分 180
帖子 97
金钱 180 喜悦币
威望 0
人脉 0
阅读权限 20
注册 2006-4-29
来自 江苏
状态 离线
[推荐阅读] 供全国20多个大城市20多万家餐馆信息,包括地址,电话,地图等
觉得这个 人的效率也许比电脑高



www.ezezi.com图片上传托管
2006-11-26 01:07 PM#9
查看资料  访问主页  发短消息  QQ  顶部
 
剑枫 (雪花)
论坛元老
Rank: 8Rank: 8
欧玛嘎


UID 26144
精华 1
积分 4855
帖子 1727
金钱 4845 喜悦币
威望 10
人脉 0
阅读权限 90
注册 2004-2-14
来自 山东郓城
状态 离线
[推荐阅读] 搜索出的问题
先清除所有的html标签。
在A文章随便截取一段字符串,防止单词相似,尽量截取长度点。比如 “我是中国人我爱我的祖国”
在B文章搜索这段字符串。
如果搜到则 $i++
多搜索几次,如果能搜到3个以上,则证明是相同文章。

一般情况下,两篇文章很难出现3次以上的同段文字的啊




在场外支持奥运.....
2006-11-26 01:18 PM#10
查看资料  访问主页  发短消息  QQ  顶部
 27  1/3  1  2  3  > 
     


  可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题 | 开通个人空间  


 




Powered by Discuz! 6.1.0  © 2001-2010 Comsenz Inc.
Processed in 0.025253 second(s), 6 queries

(冀ICP备05009913号) 管理员:sadly 邮箱/MSN: sadly@phpx.com QQ:824008(长隐) 清除 Cookies - - Archiver - WAP