mysll
新手上路

UID 88167
精华
0
积分 35
帖子 23
金钱 35 喜悦币
威望 0
人脉 0
阅读权限 10
注册 2007-2-8
状态 离线
|
问一个关于socket头部的问题
我现在正在做一个rss聚合的东东,现在要从一个博客主页中提取出它的rss地址,我的做法是先把博客主页源码抓取下来,取出所有的链接。
再打开每个链接。考虑到取出每个页的内容太多,所以我用socket取出每个页面的部分内容
在socket发送的头部用了Range:bytes=0-1024,取出前1024个字节,然后在这1024个字节里打<rss标志,如果有这个标志,代表这是一个rss文件。
测试了十二个博客,有二个博客取不出来,MSN的还有一个其它的,我用sniff截了个头看了一个,发现它的头部很大,我现在的问题是:Range的范围包括head的长度吗,我取1024,会不会没有取到正文的内容?
|
|