互联网视频开放协议
  • FAQ
  • 互联网视频开放协议简介

    《互联网视频开放协议》(以下简称“视频开放协议”)是有道制定的一种新的视频收录标准。

    网站把自己最近发布和删除的视频的信息按照一定的格式写在一个XML文件中,然后把这个XML文件的地址告知搜索引擎(如有道视频搜索),就可以让搜索引擎通过这个XML文件快速地收录自己网站上的视频。这种新的视频收录方式可以让更多的用户通过搜索引擎快速、准确、有效地到达自己的网站。

    需要指出的是,视频开放协议只是搜索引擎原有收录方式的一种补充,而不是完全的取代。

    视频开放协议规范

    使用视频开放协议需要制作一个XML格式的协议文件,文件中包含视频网站的相关信息和网站想发布给搜索引擎的视频信息。最简单的情况下,每条新增的视频只包含:视频名称视频播放页面的url视频缩略图的url三项信息。此外,网站可以提供视频的更多可选信息。

        一个例子:下载该例子
    <?xml version="1.0" encoding="utf-8"?>
    <document>
        <webSite>www.video-site.com</webSite>
        <webMaster>web-master@video-site.com</webMaster>
        <updatePeri>60</updatePeri> <!-- in minutes -->
        <item>
            <op>add</op>
            <title><![CDATA[视频名称]]></title>
            <playLink><![CDATA[http://www.video-site.com/pages/123.html]]><playLink>
            <imageLink><![CDATA[http://www.video-site.com/thumbs/123.jpg]]></imageLink>
            <videoLink><![CDATA[http://www.video-site.com/videos/123.flv]]></videoLink>
            <tag><![CDATA[标签1]]></tag>
            ......
            <tag><![CDATA[标签n]]></tag>
            <comment><![CDATA[视频的描述信息]]></comment>
            <pubDate>2008-11-21 13:23:00</pubDate>
            <duration>120</duration> <!-- in seconds -->
            <user><![CDATA[视频发布者]]></user>
            <category><![CDATA[分类1]]></category>
            ......
            <category><![CDATA[分类n]]></category>
            <playCount>100</playCount>
        </item>
        <item>
            <op>del</op>
            <playLink><![CDATA[http://www.video-site.com/pages/456.html]]></playLink>
        </item>
        <item>
            ......
        </item>
        ......
    </document>

    协议文件标签说明:

    XML标签是否必填标签说明
    <document> 整个协议文档的 root。
    <webSite> 网站的地址,填写网站首页地址即可。
    <webMaster> 网站负责人的 email。如果有什么问题,搜索引擎将通过这个 email 与网站联系。
    <updatePeri> 协议文件更新周期的上限,单位为分钟。网站要保证更新协议文件的时间间隔不会小于这个周期。搜索引擎会以不小于这个周期的时间间隔定期地查看协议文件有无变化。查看的方法是发送 HTTP HEAD 请求检查协议文件的 Last-modified 和 Content-Length 是否发生变化,如果发生变化,就抓取协议文件,所以请确保这两项能返回正确的结果。
    <item> 单个视频的各种描述信息。
    <op> 视频的操作类型,只有 add 与 del 两种类型:add 表示该视频为一新增视频,del 表示该视频已被删除。默认为 add。
    <title> 是(op 为 del 时可不填) 视频的标题。
    <playLink> 视频播放页面的地址。
    <imageLink> 是(op 为 del 时可不填) 视频缩略图的地址。
    <videoLink> 视频原始内容文件的地址。
    <tag> 视频的标签信息,每个 tag 里填写一个标签,如果视频有多个标签,就分多个 tag 填写。
    <comment> 视频的文字描述信息,比如视频的发布者对视频做出的介绍等。
    <pubDate> 视频的上传时间,请与视频播放页面所显示的视频上传时间保持一致,请至少精确到天。支持的时间格式有:
    • 年月日时分秒, 如2008-11-20 13:35:05、 2008/11/20 13:35:05、 2008.11.20 13:35:05、 2008年11月20日13时35分05秒、 Thu, 20 Nov 2008 13:35:05 GMT;
    • 年月日时分,如2008-11-20 13:35;
    • 年月日时,如2008-11-20 13;
    • 年月日,如2008-11-20;
    推荐使用第一种时间格式。
    <duration> 视频的播放时长,单位为秒。
    <category> 视频的分类信息,每个 category 里填写一个分类,如果视频属于多个分类,就分多个 category 填写。如《越狱》所属分类是:电视剧、美剧,那么就需要两个 category 标签填写。
    <playCount> 视频的总播放次数。
    <user> 发布该视频的人,可以写这个人的 id 或昵称。

    协议使用

    使用须知

    网站应该保证提供视频内容的真实性、合法性,不得侵犯任何第三方的利益,并对提供的内容承担一切法律责任。

    制作协议文件

    将网站上的视频整理成符合视频开放协议规范的XML文件即可。这里有几个地方需要注意:

    • 编码问题,我们支持的编码方式有 UTF-8、GB18030、GB2312、BIG5 等,推荐使用 UTF-8。
    • 特殊字符问题,XML标签内容中有几个特殊字符需要转义,否则XML解析器将不能正确解析,需要转义的字符与转义后的字符如下表:
      需要转义的字符转义后的字符序列
      小于号 <&lt;
      大于号 >&gt;
      和号 &&amp;
      单引号 '&apos;
      双引号 "&quot;

      如果不想转义的话可以对需要转义的内容加 CDATA 标签,解析器解析的时候会忽略 CDATA 区域中的内容,如我们给出的例子所示,把有可能出现特殊字符的字段如 title 等放在 CDATA 标签下,就不用再担心特殊字符的问题了。

    提交协议地址

    协议文件制作好以后,将其放到网站的服务器上,并将文件url地址提交给我们。有道爬虫会根据协议文件中写的更新时间定期的访问该协议文件。如果协议文件的地址发生变化,请重新提交。 需要指出的是:默认情况下,搜索引擎会不断的检查协议文件。如果网站想一次性提交某些视频(比如网站历史数据等),需要在提交协议文件地址的时候进行特殊说明(比如:历史数据,一次性抓取即可)。对于这些协议文件,搜索引擎只会抓取一次

    提交时需要填写两部分:网站名和协议地址列表及说明。 网站名填写网站的名字;协议地址列表及说明一栏建议格式如下:

        协议地址1:http://www.video-site.com/protocol1.xml

        地址1说明: ……

        协议地址2:http://www.video-site.com/protocol2.xml

        地址2说明:

        ……

        其它说明: ……


    网站名(如:有道视频搜索)
    协议地址列表及说明(请尽量不要超过500字)

    如有疑问,请联系我们

    FAQ

    我提交了协议文件地址后有道是怎么处理的?

    首先我们会花一周左右的时间对您提供的数据进行测试和观察。若协议文件存在某些问题,我们会通过协议文件里提供的邮件地址与您联系,所以请确保邮件地址正确。测试通过后,有道爬虫会定期地访问您的协议文件。当协议文件的 Last-Modified 或 Content-Length 发生改变时进行抓取,解析取出文件中各个视频的信息,解析无误后会去抓取视频的缩略图,所略图抓取成功后,您网站的视频就会进入有道索引,用户就可以通过搜索访问到您网站上的视频了。

    我已支持了百度发布的《互联网视频开放协议》,同样的协议文件有道可以直接使用吗?

    可以。

    我提供了协议文件后,有道是不是就不再抓取我的网站了?

    不是。视频开放协议只是搜索引擎原有收录方式的一种补充,而不是完全的取代。

    有道会严格按照协议文件中的更新时间去访问我的协议文件吗?

    我们不能保证。您在协议文件中提供的更新时间是我们的抓取上限,我们的抓取周期不会小于您提供的更新周期。



    ©2008 网易公司