تحليل XML في بايثون

تركز هذه المقالة على كيفية تحليل ملف XML معين واستخراج بعض البيانات المفيدة منه بطريقة منظمة. ملف XML: يرمز XML إلى لغة التوصيف القابلة للتوسيع. تم تصميمه لتخزين ونقل البيانات. لقد تم تصميمه ليكون قابلاً للقراءة بواسطة الإنسان والآلية. ولهذا السبب تؤكد أهداف تصميم XML على البساطة والعمومية وسهولة الاستخدام عبر الإنترنت. إن ملف XML الذي سيتم تحليله في هذا البرنامج التعليمي هو في الواقع ملف RSS. آر إس إس: يستخدم RSS (ملخص الموقع الغني الذي يطلق عليه غالبًا "المشاركة البسيطة حقًا") مجموعة من تنسيقات موجز الويب القياسية لنشر معلومات يتم تحديثها بشكل متكرر، مثل إدخالات المدونات وعناوين الأخبار والصوت والفيديو. RSS هو نص عادي بتنسيق XML.

يعد تنسيق RSS نفسه سهل القراءة نسبيًا من خلال العمليات الآلية ومن قبل البشر على حدٍ سواء.
إن خدمة RSS التي تمت معالجتها في هذا البرنامج التعليمي هي عبارة عن خلاصة RSS لأهم الأخبار من موقع إخباري شهير. يمكنك التحقق من ذلك هنا . هدفنا هو معالجة موجز RSS هذا (أو ملف XML) وحفظه بتنسيق آخر لاستخدامه في المستقبل.

وحدة بايثون المستخدمة: سوف تركز هذه المقالة على استخدام يحمل في ثناياه عوامل xml وحدة في بايثون لتحليل XML وسيكون التركيز الرئيسي على واجهة برمجة تطبيقات ElementTree XML من هذه الوحدة. تطبيق: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

قم بتحميل موجز RSS من عنوان URL المحدد واحفظه كملف XML.
قم بتحليل ملف XML لحفظ الأخبار كقائمة من القواميس حيث يكون كل قاموس عبارة عن عنصر أخبار واحد.
احفظ عناصر الأخبار في ملف CSV.

دعونا نحاول فهم الكود على شكل أجزاء:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

تحليلXML()

xml.etree.ElementTree

ElementTree

عنصر

ElementTree

عنصر

تحليلXML()

tree = ET.parse(xmlfile)

ElementTree

com.xmlfile.

root = tree.getroot()

تجذر()

شجرة

عنصر

for item in root.findall('./channel/item'):

غرض

./القناة/البند

XPath

غرض

قناة

جذر

هنا

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

غرض

أخبار

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

Child.attrib

عنوان URL

وسائل الإعلام: المحتوى

news[child.tag] = child.text.encode('utf8')

Child.tag

Child.text

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

عناصر جديدة

حفظ إلى CSV()

والآن، إليك كيف تبدو بياناتنا المنسقة الآن:

كما ترون، تم تحويل بيانات ملف XML الهرمي إلى ملف CSV بسيط بحيث يتم تخزين جميع القصص الإخبارية في شكل جدول. وهذا يجعل من السهل توسيع قاعدة البيانات أيضًا. كما يمكن للمرء استخدام البيانات المشابهة لـ JSON مباشرةً في تطبيقاته! هذا هو البديل الأفضل لاستخراج البيانات من مواقع الويب التي لا توفر واجهة برمجة تطبيقات عامة ولكنها توفر بعض خلاصات RSS. يمكن العثور على جميع الأكواد والملفات المستخدمة في المقالة أعلاه هنا . ماذا بعد؟

يمكنك إلقاء نظرة على المزيد من خلاصات RSS لموقع الأخبار المستخدم في المثال أعلاه. يمكنك محاولة إنشاء نسخة موسعة من المثال أعلاه عن طريق تحليل خلاصات RSS الأخرى أيضًا.
هل أنت من محبي لعبة الكريكيت؟ ثم هذا يجب أن تكون تغذية RSS محل اهتمامك! يمكنك تحليل ملف XML هذا لاستخراج معلومات حول مباريات الكريكيت المباشرة واستخدامها لإنشاء إشعار على سطح المكتب!

مسابقة HTML وXML إنشاء اختبار