웹서핑의 역사를 뒤바꾼 RSS 포맷과 구독기 만들기
웹서핑의 역사를 뒤바꾼 RSS
RSS 포맷과 구독기 만들기
서성렬 kaistseo@gmail.com|KAIST 전산학과를 졸업 / RSS(www.hanrss.com)를 개발,운영.
웹2.0의 핵심기술 중 하나인 RSS는 생산자(피드)와 소비자(구독기)간의 커뮤니케이션이 원활하게 이루어질 때 비로소 그 의미가 생긴다. 일단 커뮤니케이션이 원활해지면 그 위에서 RSS 기반의 다양한 서비스들로 확장될 수 있다. 이번 3부에서는 RSS 피드 의 다양한 포맷과 구독기가 갖추어야할 기본 요소들에 대해 구체적으로 알아보자. 곁들여 간단한 웹기반 RSS 구독기를 직접 만들 어 보자. 이 과정을 통해 웹2.0 트렌드에 보다 능동적으로 대처할 수 있는 스킬을 갖출 수 있을 것이다.
태그의 이해
RSS(Really Simple Syndication)는 웹2.0에 대해 논할 때면 빠지지 않는 단골메뉴이지만 아직도 많은 사람들이 RSS의 정확한 의미나 활용방법에 대해 잘 알고 있지 못하고 있 는 것이 현실이다. 우선 신디케이션(Syndication)이란 단어의 사 전적 의미는‘신문용 기사를 배급하는 것’인데, 여기서는‘인터 넷 이용자들에게 자신의 컨텐츠를 배포’한다는 정도의 의미로 받아들이면 적당하다. 근래 들어 블로그나 뉴스, 쇼핑은 물론이 고 다양한 분야의 많은 사이트들이 자신들의 콘텐츠를 RSS 피드 (Feed)로 내어놓고 있다. 이때 사용자는 소위 말하는 RSS 구독 기(Reader)에 그러한 RSS 피드들의 주소만을 등록시켜 놓으면, 매번 사이트를 방문하지 않아도 신착정보가 자동으로 RSS 구독 기에 배달되어 손쉽게 고급 정보를 얻을 수 있다는 이점이 있다. 만약 싸이월드에 있는‘업데이트된 일촌 미니홈피’기능의 편리 성을 체감해본 적이 있는 독자라면 왜 RSS 구독기를 쓰는 게 좋 은지 쉽게 이해할 수 있을 것이다. 이제까지의 웹서핑 패턴이 사 용자가 끊임없이 들락날락하며 불필요하게 시간을 낭비하는 즐 겨찾기 방식이었다면, 웹2.0에서는 가만히 앉아서 RSS 구독기 에 새로운 정보가 있는지만 확인하면 된다.
결국 이러한 RSS 기술의 핵심은 피드(Feed)와 구독기 (Reader)간의 커뮤니케이션에 있다고 할 수 있다. 주의할 점은 피드의 포맷이 한 종류로 국한되지 않는다는 것이다. 따라서 우 리는 우선 다양한 종류와 버전의 피드 포맷이 가지는 특징과 RSS 구독기의 동작원리에 대해 살펴보고 난 뒤에 RSS 구독기 작성법에 대해 구체적으로 알아볼 것이다. 아울러 이러한 과정들 을 통해 습득한 지식을 바탕으로 향후 RSS 기술이 가져올 다양 한 활용 방안까지도 고민해볼 수 있을 것이다.
RSS 관련 용어 해설
피드(Feed) : 블로그 또는 사이트의 정보를 항목들로 정리하여 담은 XML 문서. RSS 구독기(Reader)는 이 문서를 수집하여 구독자에게 보여주는 역할을 한다.
OPML(Outline Processor Markup Language) : 여러 개의 RSS피드들을 하나의 목록파일로 정리한 것이다. OPML 파일을 이용하여 자신이 구독하고 있는 RSS 목록을 서로 다른 RSS 구독기(Reader) 간에 자유롭게 이동시킬 수 있다.
포드캐스팅(Podcasting) : mp3나 avi 등의 멀티미디어 파일에 대한 링크를 RSS 피드 안에 삽입함으로써 RSS 구독자들에게 단순히글만이 아닌 오디오?비디오 콘텐츠까지 배포하는 역할을 한다.
RSS 수집기(Aggregator) : 통상적으로 RSS 구독기(Reader)와 같은 의미로 사용된다. RSS 수집을 중앙 서버에서 관리하는 웹기반 RSS 구독기(Reader)를 지칭할 때 많이 사용되는 용어이다.
RSS 포맷
실제로 배포(Syndication) 포맷으로는 RSS 이외에도 Atom이 널리 사용되고 있다. 여기서 말하는 포맷(Format)이란 정확하게는 피드(Feed)의 형식을 의미하며 RSS와 Atom 피드는 모두 XML로 작성된다. <표 1>을 보면 RSS와 Atom 피드 포맷이 가지고 있는 여러 가지 버전을 확인할 수 있다.
종류 |
버젼 |
RSS |
0.9 | 0.91 | 0.92 | 1.0 | 2.0 |
Atom |
0.3 | 1.0 |
<표 1> 피드 포맷 버전
블로그나 사이트에 따라 특정 종류 및 버전의 피드만을 제공하 는 경우가 많기 때문에, 기본적으로 RSS 구독기면 <표 1>에 열 거된 모든 버전의 RSS 및 Atom 포맷을 인식할 수 있어야 한 다. 참고로 현재 가장 많이 이용되는 피드 포맷은 RSS 2.0과 Atom 0.3이다. 이제 각각의 피드 포맷에 대해 좀 더 구체적으 로 알아보자.
RSS 0.9
1999년 넷스케이프사에 의해 소개된 RSS 0.9는 ASCII 인코 딩만을 지원하기 때문에 한글을 사용할 수 없는 피드 포맷이다. < 표 2>는 RSS 0.9의 필수 태그만을 나열한 것이다. 현재 거의 사 용되지 않고 있는 포맷이지만 RSS 0.9에 대해 좀 더 구체적으로 알고 싶다면 http://www.purplepages.ie/ RSS/netscape/rss0. 90.html 을 참고하기 바란다.
태그 | 사용예 |
XML 버전 | <?xml version="1.0"?> |
RDF 버전 | <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://my.netscape.com/rdf/simple/0.9/"> |
채널 정보 시작 | <channel> |
채널 제목 | <title>Mozilla Dot Org</title> |
채널 링크 | <link>http://www.mozilla.org</link> |
채널 내용 | <description>the Mozilla Organization web site</description> |
채널 정보 끝 | </channel> |
게시글 시작 | <item> |
게시글 제목 | <title>Mozilla Party, 2.0!</title> |
게시글 링크 | <link>http://www.mozilla.org/party/1999/</link> |
게시글 끝 | </item> |
RDF 끝 | </rdf:RDF> |
<표 2> RSS 0.9 문법(필수 태그)
RSS 0.92
RSS 0.91의 상위 버전이며 RSS 2.0의 하위 버전이다. 모든 RSS 0.91 피드는 0.92 피드에 속하고, 다시 모든 0.92 피드는 2.0 피드에 속한다. 다시 말해 RSS 구독기를 구현하는 입장에서 는 RSS 2.0만을 고려해도 문제가 없다는 뜻이다.
<그림 1> 태그를 통한 글과글의 연결
RSS 1.0
2000년 RSS-DEV에 의해 발표된 RSS 1.0은 기본 인코딩으 로 UTF-8을 사용한다. RSS 0.91에서 사라진 RDF 프레임워크 기반으로 설계되었다는 점이 특징이고, Dublin Core, Syndicati on, Content 등의 모듈을 이용한 확장방식 또한 1.0 버전만의 독 특한 점이다.
서로 호환되지 않는다는 점 때문에 RSS 0.9와 1.0을 1.* 계열 (branch), RSS 0.91, 0.92, 2.0을 2.* 계열(branch)로 구분하기도 한다. RSS 1.0 포맷은 실제로 여러 사이트에서 꽤 많이 이용되고 있으며 <표 3>에 나타난 사용 예처럼 작성하면 된다. 아울러 필수 및 주요옵션 태그 이외의 세부적인 사항들은 http://web.resourc e.org/rss/1.0/spec 을 통해 확인할 수 있다.
태그 | 사용예 |
XML 버전 | <?xml version="1.0"?> |
RDF 버전 | <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://purl.org/rss/1.0/"> |
채널 정보 시작 | <channel rdf:about="http://www.xml.com/xml/news.rss"> |
채널 제목 | <title>XML.com</title> |
채널 링크 | <link>http://xml.com/pub</link> |
채널 내용 | <description>XML.com features a rich mix of information and services for the XML community.</description> |
전체 게시글 목록 | <items><rdf:Seq><rdf:li resource="http://xml.com/pub/2000/08/09/xslt/xslt.html" /> </rdf:Seq></items> |
채널 정보 끝 | </channel> |
게시글 시작 | <item rdf:about="http://xml.com/pub/2000/08/09/xslt/xslt.html"> |
게시글 제목 | <title>Processing Inclusions with XSLT</title> |
게시글 링크 | <link>http://xml.com/pub/2000/08/09/xslt/xslt.html</link> |
게시글 내용 | <description> Processing document inclusions with general XML tools can be problematic. This article proposes a way of preserving inclusion information through SAX-based processing.</description> |
게시글 끝 | </item> |
RDF 끝 | </rdf:RDF> |
<표 3> RSS 1.0 문법(필수?주요옵션 태그)
RSS 2.0
현재 가장 많이 사용되고 있는 RSS 포맷이다. RSS 2.0을 만 든 데이브 와이너(Dave Winer)가 하버드 법대(Harvard Law School)의 특별연구원이 되면서 RSS 2.0 규약의 소유권 또한 하 버드대로 이전되었고, 공식적인 배포처도 http://blogs.law. harvard.edu/tech/rss가 되었다.
태그 | 사용예 |
XML 버전 | <?xml version="1.0"?> |
RSS 시작 | <rss version="2.0"> |
채널 시작 | <channel> |
채널 제목 | <title>Liftoff News</title> |
채널 링크 | <link>http://liftoff.msfc.nasa.gov/</link> |
채널 내용 | <description>Liftoff to Space Exploration.</description> |
게시글 시작 |
<item> |
게시글 제목 |
<title>Star City</title> |
게시글 링크 | <link>http://liftoff.msfc.nasa.gov/news/2003/newsstarcity.asp</link> |
게시글 내용 | <description>How do Americans get ready to work with Russians aboard the International Space Station? They take a crash course in culture, language and protocol at Russia's <a href="http:// howe.iki.rssi.ru/GCTC/gctc_e.htm">Star City</a>.</description> |
게시글 일자 | <pubDate>Tue, 03 Jun 2003 09:39:21 GMT</pubDate> |
게시글 끝 |
</item> |
채널 끝 | </channel> |
RSS 끝 | </rss> |
<표 4> RSS 2.0 문법(필수?주요옵션 태그)
이러한 각 버전의 RSS 포맷들은 수년간에 걸쳐 조금씩 그 내 용이 변경되고 확장되어 왔다. <표 5>를 통해 알 수 있듯이 RSS 포맷이 개발되기 시작한 때부터 실제로 널리 사용되기까지는 상 당한 시간이 소요되었다.
일자 | 내용 |
99년 3월 15일 | 넷스케이프에 의해 RSS 0.9 설계 |
99년 7월 10일 | 넷스케이프에 의해 RSS 0.9에서 RDF 헤더가 제거된 RSS 0.91설계 |
00년 8월 14일 | RSS 1.0이 제안됨. RDF 헤더가 유지되었다는 점을 제외하고는 기존 포맷과 관련없는 새로운 포맷 |
00년 12월 25일 | 유저랜드(UserLand)의 데이브 와이너(Dave Winer)에 의해 RSS 0.91에 옵션태그가 추가된 RSS 0.92 설계 |
02년 9월 18일 | 데이브 와이너(Dave Winer)에 의해 RSS 0.92에 옵션태그가 추가된 RSS 2.0 설계. 개발기간 중에는 RSS 0.94로 불렸음 |
03년 7월 15일 | RSS 2.0이 하버드(Harvard)를 통해 크리에이티브 커먼즈 라이센스(Creative Commons License)로 배포됨 |
<표 5> RSS 버전 변천사
Atom 0.3과 Atom 1.0
tom은 IETF AtomPub Working Group에서 설계된 배포 포맷이다. 현재까지 공식적으로 발표된 버전은 0.3이고 1.0 버전 은 마무리 단계에 들어가 있으며, Atom 0.3의 일부 태그가 변 경?삭제되었다. Atom 0.3과 1.0 버전의 차이점에 대해서는 http://rakaz.nl/item/moving_from_atom_03_to_10를 통해 자 세히 확인할 수 있다.
RSS와 Atom 비교
많은 이들이 RSS와 Atom 포맷의 차이점에 대해 잘 모르는 듯 하다. 실제로 Atom은 이름조차 별로 알려지지 않은 편이다. RSS와 Atom을 비교해 놓은 <표 6>를 통해 어떤 점이 다른지 구 체적으로 살펴보도록 하자.
RSS 2.0 | Atom 1.0 | 참고사항 |
rss |
- | |
channel | feed | |
title | title | |
link | link | Atom은 link 태그에 "rel" 값 사용 |
description | subtitle | |
language | - | Atom은 표준 "xml:lang" 속성 사용 |
copyrights | rights | |
webMaster |
- | |
managingEditor | author or contributor | |
pubDate | published (in entry) | Atom은 feed 레벨에는 대응되는 태그가 없음 |
lastBuildDate (in channel) |
updated | RSS는 item 레벨에는 대응되는 태그가 없음 |
category |
category | |
generator r |
generato | |
docs |
- | |
cloud | - | |
ttl | - | HTTP 1.1의 Expire와 max-age cache 힌트 사용 |
image | logo | Atom은 2:1 비율을 추천 |
- |
icon | favicon.ico |
rating | - | |
textInput | - | |
skipHours |
- | |
skipDays | - | |
item | entry | |
author | author | |
-contributor |
||
description | summary and/or content | 전체 본문의 공개 여부에 좌우 |
comments | - | |
enclosure | - | Atom은 link 태그에 rel="enclosure" 이용 |
guid | id | |
source - |
- | Atom은 link 태그에 rel="via" 이용 |
-source | feed 레벨 메타데이터 |
<표 6> RSS 및 Atom 비교표
<표 6>에 제시되는 것처럼 다양한 피드 포맷들을 전부 고려하 는 것은 어찌 보면 매우 번거로운 작업일 수 있다. 하지만 대부분 은 실제로 사용되고 있기 때문에, 모든 종류의 피드 포맷을 지원 하지 못한다면 RSS 구독기로서의 역할을 제대로 할 수 없게 되 는 셈이다.
정보 검색과 태그 탐색
다양한 RSS 및 Atom 포맷으로 작성된 피드들을 읽고 분석하 여 사용자에게 편리한 구독환경을 제공해주는 RSS 구독기들은 이미 여러 종류가 공개되어 있으며 이용자 수를 꾸준히 늘려가고 있는 상황이다. 이러한 구독기들은 크게 웹 기반과 데스크탑 기 반으로 나눌 수 있다. 현재 대표적으로 이용되고 있는 구독기들 을 살펴봄으로써 RSS 구독기가 갖추어야할 모습들에 대하여 이 해의 폭을 넓혀보자.
웹기반 RSS 구독기
<화면 1> 한RSS 메인화면
<화면 2> 한RSS 구독화면
웹기반 RSS 구독기는 어느 곳에서나 이용이 가능하다는 점과 자신의 컴퓨터에 별도의 프로그램을 설치하지 않고도 손쉽게 이용할 수 있다는 장점 때문에 많은 인기를 얻고 있다. 현재 국내에서 가장 인지도가 높은 웹기반 RSS 구독기로는 한RSS(www.hanrss.com)와 다음 RSS넷(rss.daum.net) 등이 있다. 외국 서비스로는 블로그라인스(www.bloglines.com)와 구글리더(reader.google.com), 로조(www.rojo.com) 등이 널리 사용되고있다. 여기에서는 현재 필자가 개발하여 운영하고 있는 한RSS를 중심으로 그 구조에 대해 살펴본다.
서비스 둘러보기 기능을 통해 실제로 RSS 구독기가 어떻게 동작하며 어떤 식으로 RSS를 검색하고 구독할 수 있는지 쉽게 파악할 수 있을 것이다. 간단한 회원가입 과정을 거치고 나면 자신만의 RSS 목록을 관리하는 것 또한 어렵지 않다.
데스크탑 기반 RSS 구독기
데스크탑 기반 RSS 구독기는 웹 기반 구독기에 비해 상대적으로 다양한 기능들을 제공하는 편이다. 또 자신의 컴퓨터에 RSS데이터를 보관해 둘 수 있다는 장점이 있다. 국내 대표적 데스크탑 기반 RSS 구독기로는 연모가 있고, 최근에 메타데이터 에코시스템으로 주목받고 있는 피쉬(Fish)도 데스크탑 기반의 RSS이다. 외국 제품으로는 피드데몬(FeedDemon), 샤프리더(SharpReader) 등이 오래 전부터 인기가 있었다. 파이어폭스나 IE7같은 브라우저에서도 확장 도구를 통하거나 자체적으로 RSS 구독기능을 지원하고 있다.
물론 이러한 전용 RSS 구독기들 외에도 각종 개인화 페이지나 블로그 서비스의 보조 도구로 RSS 구독기가 활용되고 있는 경우 또한 적지 않다.
<화면 3> 연모 구독화면
웹기반 RSS 구독기 작성하기
앞서 살펴 본 바와 같이 이미 다양한 형태의 RSS 구독기가 제품 또는 서비스의 형태로 제공되고 있다. 개발자라면 이제 자신의 RSS를 만들어 보고 싶은 욕심도 들 것이다. 이번에는 간단한 구독기를 직접 만들어 보도록 한다. 독자들은 이 과정을 통해 자신만의 RSS 구독기를 만드는 기반을 다질 수 있을 것이다. 웹 기반 RSS 구독기를 만들기 전에 먼저 <그림 2>를 통해 RSS 구독기의 기본적인 구조를 살펴보자.
웹 기반 RSS 구독기를 구현하는 데 있어 특정 프로그래밍 언어나 DBMS에 종속시킬 필요는 없으나, 독자들이 좀 더 쉽게 이해할 수 있도록 하기 위해 많은 개발자들에게 익숙한 PHP와 MySQL를 이용할 것이다. 아울러 DB와 웹 서버의 설정은 모두 UTF-8 인코딩에 맞추어져 있다고 가정한다.
<그림 2> OpenOS의 구조
RSS 피드 읽어오기
RSS 구독기가 수행해야 할 가장 첫번째 단계는 블로그나 웹사 이트에 올라와 있는 RSS 피드 파일들을 읽어오는 것이다. 단순 하게 fopen() 함수를 이용하면 <리스트 1>과 같이 단 몇 줄의 코 드 만으로도 RSS 피드를 읽어오는 것이 가능해진다.
RSS 피드 분석하기
RSS의 피드를 분석하는 단계는 구독기에서 가장 핵심이 되는 대목이다. RSS 피드는 XML로 작성되어 있기 때문에 그것을 분 석(Parsing)하는 과정 역시 XML 분석기(Parser)를 어떻게 이 용할 것인가와 밀접한 관련이 있다. PHP와 같이 널리 사용되고 있는 스크립트 언어들에는 자체적으로 XML 분석기가 내장된 경 우가 많다. XML 분석기를 이용하여 RSS 피드를 분석하는 방법 까지도 오픈소스 라이브러리로 이미 상당수 공개되어 있다.
<리스트 1> rss_fetch.php
<?
// 읽어올 피드 목록
$feed_urls = array(
'http://blog.rss.naver.com/kickthebaby.xml',
'http://srlog.egloos.com/index.xml',
'http://feeds.feedburner.com/tapestrydilbert'
);
foreach ($feed_urls as $url) {
// 피드 읽어오기
$handle = fopen($url, 'r');
if ($handle) {
$document = '';
while (!feof($handle)) {
$document .= fgets($handle, 4096);
}
// 읽어온 피드 출력
echo $url."\n".$document;
fclose($handle);
}
}
?>
<표 7>은 그러한 라이브러리들 중 대표적인 것 몇 가지를 소개한 것이다.
이름 | 언어/환경 | URL |
Universal Feed Parser | Python | http://feedparser.org/ |
Jakarta FeedParser | Java | http://jakarta.apache.org/commons /sandbox/feedparser/ |
MagpieRSS | PHP | http://magpierss.sourceforge.net/ |
RSS Bandit | .NET Framework |
http://www.rssbandit.org/ |
<표 7> 오픈소스 RSS 분석기(Parser) 목록
여기에서는 PHP의 xml_parse() 함수를 이용하여 간단한 RSS 분석기(Parser)를 작성해 보려고 한다. 다만, 모든 종류의 포맷을 전부 고려할 경우 지루한 작업이 될 수 있으므로, 일단 가 장 일반적으로 사용되고 있는 RSS 2.0만을 고려한 RSS 분석기 를 만들어 볼 것이다. <리스트 1>에서 작성한 코드에 RSS 분석 기능을 추가하여 <리스트 2>의 코드가 만들어졌다.
<리스트 1> rss_fetch.php
<?
class RSSParser {
var $feed_info = array();
var $feed_articles = array();
<리스트 1> rss_fetch.php
var $inchannel = FALSE;
var $initem = FALSE;
var $inimage = FALSE;
var $current_item = array();
var $current_el = FALSE;
// 여는 태그 처리
function startElement($parser, $name, $attrs)
{
$el = strtoupper($name);
// <rss>, <channel> 등의 RSS 컨테이너 태그
if ($el == 'RSS') {
return;
} else if ($el == 'CHANNEL') {
$this->inchannel = TRUE;
} else if ($el == 'ITEM') {
$this->initem = TRUE;
} else if ($el == 'IMAGE') {
$this->inimage = TRUE;
} else {
// <title>, <description> μO¿≪ RSS ¿oeπ? ?¬±?
$this->current_el = $el;
}
}
// 닫는 태그 처리
function endElement($parser, $name)
{
$el = strtoupper($name);
if ($el == 'RSS') {
return;
} else if ($el == 'CHANNEL') {
$this->inchannel = FALSE;
} else if ($el == 'ITEM') {
$this->feed_articles[] = $this->current_item;
$this->current_item = array();
$this->initem = FALSE;
} else if ($el == 'IMAGE') {
$this->inimage = FALSE;
} else {
$this->current_el = FALSE;
}
}
// 태그 사이의 데이터 처리
function characterData($parser, $data)
{
if ($this->initem) { // <item> ... </item> 사이의 정
보 저장
if ($this->current_el) {
$this->current_item[$this->current_el] .=
$data;
}
} else if ($this->inimage) {
} else if ($this->inchannel) { // <channel> ...
</channel> 사이의 정보 저장
if ($this->current_el) {
$this->feed_info[$this->current_el] .=
$data;
}
}
}
}
function parse_rss($document)
{
// RSS 피드의 인코딩을 UTF-8에 맞춤
if
(preg_match('/<?xml.*encoding=[\'"](.*?)[\'"].*?>/m',
$document, $m)) {
$in_enc = strtoupper($m[1]);
if ($in_enc != 'UTF-8') {
// 피드의 인코딩이 UTF-8이 아닐 경우, 헤더 변경 후 인코딩 변환
$document =
preg_replace('/(<?xml.*encoding=[\'"])(.*?)([\'"].*?>)/m',
'$1UTF-8$3', $document);
$document = iconv($in_enc, 'UTF-8',
$document);
}
}
// XML ∏◇RSS 분석기 생성
$xml_parser = xml_parser_create('UTF-8');
$rss_parser = new RSSParser();
xml_set_object($xml_parser, $rss_parser);
xml_set_element_handler($xml_parser, "startElement",
"endElement");
xml_set_character_data_handler($xml_parser,
"characterData");
if (!xml_parse($xml_parser, $document, true)) {
// xml_parse() 에러 발생 시
printf("XML error: %s at line %d\n",
xml_error_string(xml_get_error_code($xml_parser)),
xml_get_current_line_number($xml_parser));
} else {
// 분석결과 출력
echo "Feed Info\n";
print_r($rss_parser->feed_info);
echo "Feed Articles\n";
print_r($rss_parser->feed_articles);
}
xml_parser_free($xml_parser);
}
... 중략 ...
RSS 분석결과를 파일 또는 DB에 저장하기
RSS 피드를 읽어서 분석하는 과정까지 문제없이 진행되었다 면, 이제는 분석한 결과들을 파일이나 DB에 저장해야 할 것이 다. 여기에서는 MySQL DB에 저장하는 방법을 택하기로 한다. 우선 <리스트 3>과 같이 DB 스키마(schema)를 작성해보자. 데 이터가 중복 저장되는 것을 피하기 위해 link 필드에 UNIQUE 인덱스를 걸어두었다.
<리스트 3> feed_articles.SCHEMA
create table feed_articles (
srl bigint(20) unsigned not null auto_increment,
source varchar(255) not null default '', # 피드 출처
title varchar(255) not null default '', # 글 제목
link varchar(255) not null default '', # 글 링크
description text not null, # 글 내용
published datetime not null default '0000-00-00
00:00:00', # 글 게시일
primary key (srl),
unique key link (link)
);
DB 스키마가 작성되었다면 이제는 <리스트 4>와 같이 DB 레 코드 삽입 코드를 추가한다. 아울러 myqsl_host, mysql_user, mysql_password, my_database를 자신의 MySQL 설정에 맞게 수정하는 것도 잊지 말자.
<리스트 4> rss_fetch_parse_save.php
class RSSParser {
... 중략 ...
}
function parse_save_rss($document)
{
... 중략 ...
if (!xml_parse($xml_parser, $document, true)) {
... 중략 ...
} else {
// DB 접속 코드
$link = mysql_connect('mysql_host', 'mysql_user',
'mysql_password') or die('Could not connect:
'.mysql_error());
mysql_select_db('my_database') or die('Could not
select database');
// DB 레코드 삽입
foreach ($rss_parser->feed_articles as $article) {
$published = date('Y-m-d H:i:s',
strtotime($article['PUBDATE']));
$query = sprintf("INSERT INTO feed_articles
(source, title, link, description, published) VALUES
('%s', '%s', '%s', '%s', '%s')",
mysql_real_escape_string($rss_parser->feed_info['TITLE']),
mysql_real_escape_string($article['TITLE']),
mysql_real_escape_string($article['LINK']),
mysql_real_escape_string($article['DESCRIPTION']),
$published);
if (mysql_query($query, $link)) echo
$query."\n";
}
}
xml_parser_free($xml_parser);
}
... 중략 ...
위 코드를 수행한 뒤에 <화면 4>와 같이 실제로 DB에 데이터 가 정상적으로 들어갔는지 확인해 보면 된다.
<화면 4> DB 데이터 확인하기
이렇게 작성된 프로그램(rss_fetch_parse_save.php)은 cron 이나 셸 스크립트 등을 이용하여 주기적으로 처리되어야만 실질 적인 구독이 이루어질 수 있다. 대개 1시간에 한 번 이상 피드를 수집하여 분석하고 새로 올라온 글을 DB에 추가하는 형태가 일 반적이다.
저장된 분석결과를 웹에서 보여주기
이제 남은 것은 DB 데이터를 웹에서 보여주는 것 뿐이다. <리스트 5>과 같이 간단한 코드를 만들어 보았다. 여기서도 myqsl_host, mysql_user, mysql_password, my_database를 자신의 MySQL 설정에 맞게 수정해야 한다.
<리스트 5> rss_reader.php
mysql_select_db('my_database') or die('Could not select
database');
// DB μ?¿A?OΠ¶ ∞°¡ÆøO HTMLΣOE √?Σ¬
$query = "SELECT * FROM feed_articles ORDER BY published
DESC";
if ($result = mysql_query($query)) {
while ($row = mysql_fetch_assoc($result)) {
echo "<div class=title><a
href=\"".$row['link']."\"
class=lnk>".$row['title']."</a></div>";
echo "<div class=source>".$row['source']."</div>";
echo "<div
class=description>".$row['description']."</div>";
}
}
?>
CSS 스타일을 정의하여 좀 더 깔끔한 레이아웃을 보여주도록하였다. 이렇게 작성된 웹 기반 RSS 구독기를 바탕으로 좀 더 고차원적인 기능을 붙일 수도 있을 것이다. 특정 글에 새 글 표시를 하거나 인터페이스를 세련되게 다듬는 등의 작업도 가능할 것이다. 이제, 자신만의 RSS 구독기를 만들고 옷을 입혀서 웹2.0의 리더가 되어 보자.
RSS 활용하기
피드 포맷이 다양하다고는 하지만 앞에서 살펴본 바와 같이 RSS란 결코 어려운 기술이 아니다. 간단한 수준의 구독기라면 누구나 쉽게 만들 수 있으며, 또한 이렇게 만들어진 구독기는 다양한 곳에 접목시킬 수도 있다. 필자의 경우 인기 블로그나 뉴스 사이트의 RSS만을 조합하여 한RSS 페이퍼(www.hanrss.com/paper)를 만들어 보기도 했다. 유명 블로거 likejazz처럼 자신만의 개인미디어(lens.likejazz.com)를 구성해 볼 수도 있을 것이다.
최근에 공개된 네이버 Open API(openapi.naver.com)는 데이터 자체를 RSS로 제공하고 있기 때문에, 다양한 형태의 매쉬업(Mashup) 서비스를 구축하는 데 있어서도 많은 도움이 될 것이다. 이번에 필자가 소개한 글이 웹2.0 트렌드의 한 축을 담당하는 RSS 기술 및 구독기의 전반적인 원리를 이해하는데 조금이나마 도움이 되길 바란다.
이달의 디스켓 : src.zip http://www.imaso.co.kr
참고자료
(1) RSS (file format) - http://en.wikipedia.org/wiki/RSS_(protocol)
(2) RSS Specifications - http://www.rss-specifications.com/rss-specifications.htm
(3) AtomEnabled - http://www.atomenabled.org/