การทดสอบ fpu คืออะไร การทดสอบประสิทธิภาพ

โปรเซสเซอร์ที่รวดเร็วนั้นยอดเยี่ยมมาก! อย่างไรก็ตาม มีปัจจัยหลายประการที่ส่งผลต่อประสิทธิภาพของโปรเซสเซอร์ มีคนวัดความเร็วเป็นกิกะเฮิรตซ์โดยเฉพาะ ยิ่งมากก็ยิ่งดี ผู้ที่มีประสบการณ์มากกว่ามักจะประเมินประสิทธิภาพของโปรเซสเซอร์โดยการทดสอบพิเศษหรือโดยวิธีที่โปรเซสเซอร์รับมือกับการประมวลผลข้อมูลในแอปพลิเคชันจริงที่ต้องใช้การคำนวณจำนวนมาก (กราฟิก 3D, การบีบอัดวิดีโอ ฯลฯ) เมื่อพิจารณาว่าแอปพลิเคชันและเกมสมัยใหม่ส่วนใหญ่ต้องการการคำนวณจำนวนมากโดยเฉพาะกับจำนวนจริง (ตัวเลขทศนิยม) ประสิทธิภาพโดยรวมของโปรเซสเซอร์จะขึ้นอยู่กับความเร็วของการประมวลผล เพื่อวัตถุประสงค์เหล่านี้ โปรเซสเซอร์มีโมดูลพิเศษที่เรียกว่าหน่วยจุดลอยตัว (FPU) ซึ่งเป็นโมดูลการคำนวณจุดลอยตัว ในเวลาเดียวกันประสิทธิภาพของโมดูลนี้ไม่เพียงขึ้นอยู่กับความถี่ในการทำงานของโปรเซสเซอร์เท่านั้น แต่ยังขึ้นอยู่กับคุณสมบัติการออกแบบด้วย

ในช่วงเริ่มต้นของวิวัฒนาการของคอมพิวเตอร์ที่เข้ากันได้กับ IBM การคำนวณจำนวนจริงดำเนินการโดยตัวประมวลผลร่วมทางคณิตศาสตร์ ซึ่งออกแบบแยกจากตัวประมวลผลกลาง อย่างไรก็ตาม ในโปรเซสเซอร์รุ่นที่ 486 แล้ว Intel ได้ใช้โมดูลการคำนวณจุดลอยตัวในตัว ซึ่งเพิ่มความเร็วของโปรเซสเซอร์ด้วยจำนวนจริงอย่างมาก ต่อมาผู้ผลิตโปรเซสเซอร์สำหรับคอมพิวเตอร์ส่วนบุคคลรายอื่นเปลี่ยนมาใช้ FPU ในตัว

โปรดทราบว่าเมื่อทำงานกับจำนวนจริงมีความแตกต่างกันเล็กน้อยเช่นเดียวกับในการดำเนินการจำนวนเต็ม - คำสั่งไม่สามารถดำเนินการได้ในรอบสัญญาณนาฬิกาของโปรเซสเซอร์เดียว (ดูบทความ "เหตุใดโปรเซสเซอร์จึงต้องใช้สายพานลำเลียง", "KB" หมายเลข /2003) . และหากในโปรเซสเซอร์ 486 ไปป์ไลน์ห้าขั้นตอนได้เริ่มใช้ในการประมวลผลคำสั่งจำนวนเต็มแล้ว FPU ก็ไม่ใช่ประเภทไปป์ไลน์นั่นคือ คำสั่งจุดลอยตัวถัดไปต้องรอให้คำสั่งก่อนหน้าเสร็จสมบูรณ์เสมอ สิ่งนี้ทำให้ประสิทธิภาพของโปรเซสเซอร์ช้าลงอย่างมากด้วยแอพพลิเคชั่นมัลติมีเดีย และอย่างหลังในเวลานั้นก็เริ่มได้รับแรงผลักดันอย่างรวดเร็วใน "คำขอ" ของพวกเขา ดังนั้นจึงค่อนข้างเป็นธรรมชาติที่ Intel ซึ่งเริ่มต้นด้วยโปรเซสเซอร์ Pentium เริ่มใช้ไปป์ไลน์ไม่เพียง แต่เป็นจำนวนเต็ม แต่ยังรวมถึงการดำเนินงานจริงด้วย ในทางกลับกัน บริษัท AMD หันมาใช้เส้นทางที่แตกต่างออกไปเล็กน้อย - แทนที่จะใช้การวางท่อ FPU บริษัท เริ่มแนะนำเทคโนโลยี 3DNow! ในผลิตภัณฑ์ของตนซึ่งมีจุดมุ่งหมายเพื่อเพิ่มประสิทธิภาพในการดำเนินงานด้วยตัวเลขจริง เทคโนโลยีนี้เผชิญกับความท้าทายมากมายในการใช้งาน ฉันคิดว่าหลายคนจำได้ว่า AMD K6-2 ซึ่งออกแบบมาเพื่อแข่งขันกับ Pentium II ในด้านการดำเนินการจำนวนเต็มนั้นล้าหลังถึงสามสิบเปอร์เซ็นต์ในการประมวลผลจำนวนจริง

แต่อย่างที่พวกเขาพูดกัน คุณเรียนรู้จากความผิดพลาด ดังนั้นใน Athlons และโปรเซสเซอร์รุ่นต่อมา AMD จึงเปลี่ยนมาใช้ FPU ประเภทไปป์ไลน์ ยิ่งไปกว่านั้นในโปรเซสเซอร์ใหม่ AMD ไม่เพียงใช้ superpipelining เท่านั้น แต่ยังใช้ superscalarity ในโมดูลจุดลอยตัวอีกด้วย พูดคร่าว ๆ ก็คือโปรเซสเซอร์หนึ่งตัวเริ่มมีโมดูล FPU สามโมดูล ซึ่งแต่ละโมดูลมีส่วนร่วมในการคำนวณจุดลอยตัว กล่าวอีกนัยหนึ่งคือ ด้วยการเปิดตัว Athlon/ โปรเซสเซอร์

08.08.2012

จนกระทั่งการถือกำเนิดของโปรเซสเซอร์ Intel Core ไม่มีใครคิดเกี่ยวกับแนวคิดของ "ประสิทธิภาพของคอร์" แต่มูลค่าของมันกลับกลายเป็นว่าสูงกว่าความถี่และขนาดแคชที่ได้รับการยกย่องก่อนหน้านี้มาก แต่เราจะนำเสนอประสิทธิภาพของคอร์เป็นตัวเลขได้อย่างไร? เราเสนอทางเลือกหนึ่งให้กับคุณ ซึ่งคุณสามารถประเมินประสิทธิภาพจากมุมที่ต่างกันได้

ฉันจะจองทันทีว่าผลการทดสอบวันนี้ไม่ได้แสดงถึงความจริงขั้นสุดท้าย และไม่ได้อ้างว่าถูกต้อง 100% เมื่อใช้หลักการทดสอบอื่นๆ คุณสามารถได้รับผลลัพธ์ที่แตกต่างกัน แต่สำหรับฉันแล้วดูเหมือนว่าวิธีการเฉพาะนี้ทำให้สามารถสรุปผลที่เพียงพอซึ่งได้รับการยืนยันจากประวัติศาสตร์ได้

อะไรทำให้โปรเซสเซอร์โดยเฉพาะแสดงให้เห็นถึงประสิทธิภาพที่เหมาะสม? คำถามนี้ทรมานมือสมัครเล่นและมืออาชีพหลายคนจากโลกแห่งเหล็ก เป็นเวลานานที่การวัดประสิทธิภาพหลักคือความเร็วสัญญาณนาฬิกา หลังจากนั้นไม่นาน ความสนใจก็เปลี่ยนไปที่ความถี่ของบัสด้านหน้า จากนั้นไปที่ปริมาตรของแคช จากนั้นจึงไปที่จำนวนคอร์ แต่มีบางสิ่งที่ถูกมองข้ามอยู่เสมอซึ่งส่งผลโดยตรงต่อความเร็วในการคำนวณ

นี่คือสิ่งที่ไม่ต้องสงสัยเลยว่าเป็นประสิทธิภาพที่แท้จริงของหน่วยที่สำคัญที่สุดสองหน่วยของโปรเซสเซอร์ x86 สมัยใหม่: หน่วยจำนวนเต็ม (ALU - หน่วยลอจิกเลขคณิต) และหน่วยจุดลอยตัว (FPU - หน่วยจุดลอยตัว) ลักษณะทั่วไปที่กำหนดแนวคิดของสถาปัตยกรรม - และแนวคิดนี้ไม่เกี่ยวข้องกับแคชหรือความถี่ในขณะที่ส่งผลโดยตรงต่อประสิทธิภาพโดยรวมของโปรเซสเซอร์

ดังนั้น ก่อนที่เราจะเริ่มการศึกษาครั้งใหญ่ เรามาดูกันว่าบล็อกเหล่านี้คืออะไร ทำหน้าที่อะไร และจัดเรียงอย่างไร ดังที่ฉันได้กล่าวไปแล้วเนื้อหานี้ไม่ได้พูดถึงการทำงานกับหน่วยความจำแคชและการเพิ่มเติมอื่น ๆ เราจะพูดถึง ALU และ FPU เท่านั้นและแน่นอนเกี่ยวกับองค์ประกอบที่สำคัญสองประการ - ไปป์ไลน์และหน่วยการทำนายสาขา เรามาพูดคุยกันเล็กน้อยเกี่ยวกับเทคโนโลยี Hyper-Threading จาก Intel เนื่องจากส่งผลโดยตรงต่อประสิทธิภาพของคอร์เมื่อดำเนินการง่ายๆ

บล็อกการดำเนินการจำนวนเต็ม

หน่วยแรกและหน่วยหลักของโปรเซสเซอร์ แม้ว่าจะเป็นการถูกต้องมากกว่าถ้าบอกว่าไม่ใช่บล็อก แต่เป็นบล็อกเนื่องจากมีโปรเซสเซอร์หลายตัว โดยคร่าวๆ ในช่วงเริ่มต้นของการพัฒนา แทบไม่มีสิ่งใดเลยในโปรเซสเซอร์ยกเว้นบล็อกนี้ ตั้งแต่รุ่นแรกๆ จนถึงสัตว์ประหลาดในปัจจุบัน ภารกิจหลักของ ALU ไม่ได้เปลี่ยนแปลง มันยังคงใช้งานได้กับจำนวนเฉพาะ (จำนวนเต็ม) ดำเนินการบวก ลบ เปรียบเทียบ การแปลงตัวเลข ดำเนินการเชิงตรรกะอย่างง่าย เช่นเดียวกับการเลื่อนบิต

โปรดทราบว่า ALU ไม่ได้ถูกกำหนดงานการคูณและการหารและทั้งหมดเป็นเพราะการคำนวณประเภทนี้ค่อนข้างหายากและด้วยเหตุนี้พวกเขาจึงได้รับการจัดสรรบล็อกของตัวเอง - "ตัวคูณจำนวนเต็ม" ซึ่งต้องขอบคุณที่สามารถเพิ่มได้ ประสิทธิภาพของ ALU บรรเทางานที่ไม่ได้มาตรฐาน การดำเนินการหารยังถูกกำหนดให้กับตัวคูณด้วย และดำเนินการโดยใช้ตารางค่าคงที่พิเศษ นี่เป็นบล็อกง่ายๆ ซึ่งประสิทธิภาพส่งผลโดยตรงต่อประสิทธิภาพของโปรเซสเซอร์ในงานต่างๆ เช่น แอปพลิเคชันสำนักงาน โปรแกรมเฉพาะมากมายสำหรับการคำนวณ เป็นต้น

หน่วยจุดลอยตัว

บล็อกนี้ปรากฏในโปรเซสเซอร์ช้ากว่า ALU มากและในตอนแรกก็ถือเป็นโปรเซสเซอร์ร่วมด้วยซ้ำ อย่างไรก็ตาม ต่อมาได้ย้ายไปยังแกนหลักของโปรเซสเซอร์หลัก และตั้งแต่นั้นมาก็เป็นส่วนสำคัญและสำคัญมาก (เช่นในกรณีของ ALU บล็อกนี้ไม่ได้อยู่คนเดียวในโปรเซสเซอร์) ตามชื่อของมัน ภารกิจหลักของ FPU คือการดำเนินการกับตัวเลขทศนิยมอย่างแม่นยำ

เนื่องจากบล็อกนี้ปรากฏเป็นส่วนหนึ่งของ CPU โหลดบนบล็อกจึงเพิ่มขึ้นตลอดเวลา ซึ่งท้ายที่สุดก็นำไปสู่ความจริงที่ว่าโหลดบน FPU มักจะเกินโหลดบน ALU บ่อยที่สุด นอกจากนี้ เมื่อพิจารณาถึงความคล่องตัวสูงของบล็อกนี้ ฟังก์ชั่นเพิ่มเติมจึงค่อยๆ เพิ่มเข้าไป โดยเฉพาะอย่างยิ่ง ในขณะนี้ เป็นบล็อกที่ใช้งานได้กับความละเอียดการสตรีมทั้งหมดและประมวลผลข้อมูลเวกเตอร์ ซึ่งมีโปรเซสเซอร์สมัยใหม่อยู่แล้วมากมาย . ประสิทธิภาพของโปรเซสเซอร์ในแอปพลิเคชันส่วนใหญ่ขึ้นอยู่กับประสิทธิภาพของบล็อกนี้ โดยเฉพาะในมัลติมีเดีย เกม งาน 3 มิติพร้อมรูปถ่าย ฯลฯ

สายพานลำเลียง

เป็นที่ทราบกันดีว่าแต่ละการดำเนินการในโปรเซสเซอร์ต้องใช้เวลาในการประมวลผลที่แน่นอนและข้อมูลนี้มีจำนวนมหาศาลโดยไม่มีการพูดเกินจริง เพื่อเพิ่มประสิทธิภาพการทำงานกับพวกเขาและปรับปรุงประสิทธิภาพการทำงาน เพื่อเพิ่มความเร็วในการทำงาน จึงมีการคิดค้นสายพานลำเลียง

หลักการของมันคล้ายกับการทำงานของสายพานลำเลียงทั่วไปในโรงงาน: ส่วนหนึ่งจะค่อยๆ ผ่านสถานีคนงานที่อยู่นิ่งหลายแห่งที่ดำเนินการ และแต่ละส่วนดำเนินการเพียงครั้งเดียวเท่านั้น แทนที่จะเป็นชิ้นส่วน โปรเซสเซอร์จะมีข้อมูลซึ่งยังผ่านหลายขั้นตอนตามลำดับอีกด้วย แน่นอนว่าวิธีการนี้ทำให้สามารถลดเวลาว่างของบล็อกโปรเซสเซอร์แต่ละตัวได้อย่างมากนั่นคือเพิ่มประสิทธิภาพได้อย่างมากเมื่อเทียบกับการประมวลผลข้อมูลแบบเอกสิทธิ์เฉพาะบุคคล

อย่างไรก็ตาม สายพานลำเลียงก็มีข้อเสียซึ่งเป็นผลมาจากข้อดีของมันเช่นกัน สิ่งสำคัญคือจำเป็นต้องรีเซ็ตไปป์ไลน์ทั้งหมดเนื่องจากการเปลี่ยนแปลงที่ไม่คาดคิดในโฟลว์ของโปรแกรม บ่อยครั้งสิ่งนี้เกิดขึ้นเมื่อใช้คำสั่งแบบมีเงื่อนไขในโค้ด ซึ่งขึ้นอยู่กับเงื่อนไขในการเปลี่ยนแปลงข้อมูลและเส้นทางเพิ่มเติม

มีอีกจุดสำคัญ: ไปป์ไลน์ของโปรเซสเซอร์ที่แตกต่างกันมีจำนวนขั้นตอนต่างกัน ข้อดีของไปป์ไลน์แบบสั้นคือช่วยให้คุณได้รับประสิทธิภาพที่สูงขึ้นที่ความถี่เดียวกัน ในขณะที่ไปป์ไลน์แบบยาวช่วยให้คุณได้ความเร็วสัญญาณนาฬิกาที่สูงขึ้น ตัวอย่างในชีวิตจริงที่เรียบง่าย: โปรเซสเซอร์ AMD Athlon XP และ Athlon 64 พร้อมสถาปัตยกรรม K7 และ K8 ตามลำดับ ซึ่งครั้งหนึ่งเคยแข่งขันกับโปรเซสเซอร์ Intel Pentium 4 ที่มีสถาปัตยกรรม NetBurst ดังที่คุณคงจำได้ว่าโปรเซสเซอร์จำนวนมากในสายเหล่านี้มีประสิทธิภาพใกล้เคียงกันมาก แต่ในขณะเดียวกันก็มีลักษณะที่แตกต่างกันโดยสิ้นเชิง โดยเฉพาะอย่างยิ่ง Athlon 64 3200+ ซึ่งมีความเร็ว 2200 เมกะเฮิรตซ์ ซึ่งส่วนใหญ่มักจะมีประสิทธิภาพเหนือกว่า Pentium 4 ที่ 3200 เมกะเฮิรตซ์ เหตุผลของข้อเท็จจริงนี้คือความยาวที่แตกต่างกันของไปป์ไลน์: ถ้าเดิมแล้ว AMD ใช้ 12 สเตจสั้น ๆ ดังนั้น Intel ใน Pentium 4 ก็ใช้ 20 สเตจที่ยาวกว่ามากและต่อมาอีกเล็กน้อย - 31 สเตจ! ดังนั้นความแตกต่างที่เห็นได้ชัดเจนในประสิทธิภาพ

บล็อกการทำนายสาขา (บล็อกการทำนายสาขาแบบมีเงื่อนไข)

การปรากฏตัวของบล็อกนี้เป็นสิ่งที่หลีกเลี่ยงไม่ได้หลังจากการปรากฏตัวของสายพานลำเลียง ปัญหาที่ประกาศไปแล้วของคำสั่งแบบมีเงื่อนไขและการรีเซ็ตไปป์ไลน์โดยสมบูรณ์อย่างหลีกเลี่ยงไม่ได้ส่งผลกระทบอย่างมากต่อประสิทธิภาพโดยรวมเนื่องจากในบางแอปพลิเคชันเปอร์เซ็นต์ของข้อบกพร่องในระหว่างการประมวลผลข้อมูลก็ลดขนาดลง

แล้วบล็อคนี้มีไว้ทำอะไร? ง่ายมาก - มันทำงานเป็นผู้มีญาณทิพย์ปกติของโปรเซสเซอร์นั่นคือโดยการเอาชนะเหตุการณ์ (อ่านการคำนวณของสาขาข้อมูลที่ผิดพลาด) จะกำหนดว่าจะดำเนินการเปลี่ยนแปลงแบบมีเงื่อนไขหรือไม่ โดยธรรมชาติแล้วไม่มีการทำนายดวงชะตาบนกากกาแฟ ในขณะนี้ วิธีหลักและลำดับความสำคัญคือวิธีการทำนายการเปลี่ยนแปลงแบบไดนามิก ซึ่งบล็อกการทำนายสาขาไม่เพียงวิเคราะห์ข้อมูลและคำแนะนำที่โปรเซสเซอร์เตรียมไว้สำหรับการประมวลผลเท่านั้น แต่ยังวิเคราะห์ประวัติของการเปลี่ยนแปลงที่คล้ายกันด้วย ซึ่งตัวมันเอง สะสม เนื่องจากเขาติดตามผลลัพธ์สุดท้ายอย่างต่อเนื่อง (ไม่ว่าเขาจะเดาถูกหรือไม่ก็ตาม) และเปรียบเทียบกับการทำนายของเขา เสริมสถิติของเขาเอง ประสิทธิผลของการคาดการณ์ในสถานการณ์ที่คล้ายคลึงกันในอนาคตจึงเพิ่มขึ้นอย่างมาก ด้วยเหตุนี้บล็อกนี้จึงมีการคาดการณ์ที่ถูกต้องมากกว่าการคาดการณ์ที่ไม่ถูกต้อง - โปรเซสเซอร์สมัยใหม่จาก Intel และ AMD กำหนดทิศทางของการเปลี่ยนแปลงตามเงื่อนไขในกรณี 95-97 ได้อย่างถูกต้อง ด้วยเหตุนี้สายพานลำเลียงจึงถูกรีเซ็ตค่อนข้างน้อย

คุณได้รับความรู้เล็กน้อยเกี่ยวกับโปรเซสเซอร์ และตอนนี้เราสามารถดูว่ามันทำงานอย่างไรในความเป็นจริง สถาปัตยกรรมนี้หรือสถาปัตยกรรมนั้นมีประสิทธิภาพเพียงใด และหน่วย ALU และ FPU มีประสิทธิภาพเพียงใด (และแน่นอนว่าเป็นหน่วยเสริมด้วย) เพื่อให้สามารถครอบคลุมคอร์โปรเซสเซอร์ได้หลากหลายมากที่สุดเท่าที่จะเป็นไปได้ และในเวลาเดียวกันก็ลดผลกระทบต่อผลการทดสอบของส่วนสำคัญของ CPU สมัยใหม่ เช่น แคช บัสโปรเซสเซอร์ และแบนด์วิดท์ระบบย่อยหน่วยความจำ เราจึงหันมาใช้ AIDA 64 แพ็คเกจทดสอบ นอกจากนี้ มีเพียงสองแพ็คเกจสังเคราะห์เท่านั้นที่ถูกเลือกจากการทดสอบแพ็คเกจ - CPU Queen และ FPU SinJulia ทำไมพวกเขา? คำตอบอยู่ที่หลักการของการทำงานและการปฏิบัติตามข้อกำหนดของการทดสอบนี้อย่างสมบูรณ์ เพื่อให้เข้าใจว่าคุณลักษณะทางสถาปัตยกรรมบางอย่างของการทดสอบแต่ละครั้งสะท้อนให้เห็นในผลการทดสอบอย่างไร เรามาดูคำอธิบายอย่างเป็นทางการกัน:

ซีพียูควีน

การทดสอบจำนวนเต็มอย่างง่าย ผลลัพธ์จะขึ้นอยู่กับประสิทธิภาพของ Integer Operations Block เป็นหลัก แต่ยังมีความอ่อนไหวอย่างมากต่อประสิทธิภาพของ Branch Prediction Block เนื่องจากโค้ดของมันมีสาขาที่มีเงื่อนไขจำนวนมาก

ที่ความเร็วสัญญาณนาฬิกาของโปรเซสเซอร์เท่ากัน ข้อได้เปรียบจะมอบให้กับโมเดลที่มีไปป์ไลน์สั้นกว่าและมีข้อผิดพลาดในการคาดการณ์น้อยกว่า โดยเฉพาะอย่างยิ่ง เมื่อปิดใช้งาน HyperThreading โปรเซสเซอร์ Pentium 4 บนคอร์ Northwood จะได้รับผลลัพธ์ที่ดีกว่ารุ่นที่มีคอร์ Prescott เนื่องจากในกรณีแรกจะใช้ไปป์ไลน์ 20 สเตจที่สั้นกว่า เทียบกับไปป์ไลน์ 31 สเตจในวินาที .

ในขณะเดียวกัน การเปิดใช้งาน HyperThreading ก็สามารถเปลี่ยนความสมดุลของพลังงานและทำให้ Prescott ชนะได้ นอกจากนี้ ประสิทธิภาพของโปรเซสเซอร์ตระกูล AMD K8 ควรสูงกว่ารุ่นตระกูล K7 ด้วยการใช้ Branch Prediction Unit ที่ปรับปรุงใหม่

การทดสอบ CPU Queen ใช้ส่วนขยายการสตรีม MMX และ SSE จนถึงเวอร์ชัน SSSE3 ใช้พื้นที่ RAM น้อยกว่า 1 เมกะไบต์ รองรับระบบ HyperThreading, มัลติโปรเซสเซอร์ (SMP) และโปรเซสเซอร์แบบมัลติคอร์

ประการแรก ทางเลือกของการทดสอบนี้ถูกกำหนดโดยความสามารถในการกำจัดอิทธิพลของระบบย่อยหน่วยความจำและขนาดของแคชในทุกระดับของผลลัพธ์ได้อย่างสมบูรณ์ นั่นคือรับผลลัพธ์การทำงานของ ALU ที่สนับสนุนโดยหน่วยทำนายสาขา การทดสอบอื่นๆ จากแพ็คเกจ ALU แม้ว่าจะเล็กน้อย แต่ก็ยังรู้สึกถึงอิทธิพลของความถี่และขนาดของแคช รวมถึงแบนด์วิดท์ของบัสโปรเซสเซอร์และบัสหน่วยความจำ และในกรณีของเรา เมื่อเปรียบเทียบโปรเซสเซอร์หลายสิบรุ่นในรุ่นที่แตกต่างกัน ความแตกต่างในประสิทธิภาพของระบบย่อยเหล่านี้อาจถึงขนาดได้หลายระดับ ตัวอย่างเช่น ตารางหนึ่งประกอบด้วย: โปรเซสเซอร์ Pentium III ที่ใช้หน่วยความจำ SDR-133 ที่มีความกว้างบัสหน่วยความจำ 64 บิต และ Core i7 ที่มีบัสหน่วยความจำ 192 บิต และทำงานกับหน่วยความจำ DDR3-1333

แต่การรองรับ HT ในกรณีนี้ไม่น่าสนับสนุนมากนัก เนื่องจากโปรเซสเซอร์หลายรายการในรายการไม่รองรับ เช่นเดียวกับแอปพลิเคชันจริงอื่นๆ อย่างไรก็ตาม เราจะคำนึงถึงข้อเท็จจริงนี้เสมอเมื่อทำการเปรียบเทียบโปรเซสเซอร์สองตัวโดยตรงทั้งที่มีและไม่มีการสนับสนุน HT

เอฟพียู ซินจูเลีย

ทดสอบการคำนวณจุดลอยตัวด้วยความแม่นยำที่เพิ่มขึ้น (80 บิต) การทดสอบขึ้นอยู่กับการคำนวณหนึ่งเฟรมของ Julia fractal ที่ดัดแปลง รหัสสำหรับการทดสอบนี้เขียนด้วยภาษาแอสเซมบลี ดังนั้นจึงได้รับการปรับให้เหมาะสมที่สุดสำหรับทั้งโปรเซสเซอร์ Intel และ AMD โดยเฉพาะเมล็ดที่สามารถใช้คำสั่งตรีโกณมิติและเอ็กซ์โปเนนเชียล x87 ได้
การทดสอบ SinJulia FPU ใช้ RAM น้อยกว่า 1 เมกะไบต์ รองรับ HyperThreading ระบบมัลติโปรเซสเซอร์ (SMP) และโปรเซสเซอร์มัลติคอร์

อย่างที่คุณเห็นการทดสอบ SinJulia FPU เช่นเดียวกับ CPU Queen นั้นไม่ขึ้นอยู่กับประสิทธิภาพของระบบย่อยหน่วยความจำโดยสิ้นเชิงตลอดจนความถี่และขนาดของแคชโปรเซสเซอร์ ยิ่งไปกว่านั้น ผลลัพธ์ของ SinJulia จะเป็นไปตามวัตถุประสงค์แม้ว่าจะเปรียบเทียบ K6-III โบราณกับ Phenom II สมัยใหม่ก็ตาม เนื่องจากการทดสอบไม่ได้ใช้ส่วนขยายการสตรีมเช่น MMX และ SSE ความแม่นยำในการคำนวณสูงทำให้สามารถสรุปผลที่เพียงพอสำหรับงานสมัยใหม่ที่มอบหมายให้กับ CPU

ได้มีการเลือกการทดสอบแล้ว แต่ฉันได้ยินเสียงที่คัดค้านความเพียงพอของผลลัพธ์ของการเปรียบเทียบโปรเซสเซอร์รุ่นเก่าและใหม่ ข้อโต้แย้งประการหนึ่งคือคำถามในการเปรียบเทียบโปรเซสเซอร์กับจำนวนคอร์และความถี่ที่แตกต่างกัน ดังนั้น โดยเฉพาะอย่างยิ่งเพื่อความเที่ยงธรรมของการเปรียบเทียบ จากผลลัพธ์ เราได้ค่าสัมประสิทธิ์ประสิทธิภาพที่แน่นอนสำหรับวิชาทดสอบแต่ละวิชา ซึ่งคำนวณโดยใช้สูตรง่ายๆ:

ผลการทดสอบ/จำนวนคอร์/ความถี่

ด้วยการหารค่าเหล่านี้สำหรับโปรเซสเซอร์แต่ละตัว เราได้ผลลัพธ์ของหนึ่งคอร์ต่อรอบสัญญาณนาฬิกา เมื่อคำนึงถึงคำอธิบายของการทดสอบแล้ว จำเป็นต้องทำการแก้ไขหลายประการ ประการแรก: ด้วยการรองรับ HyperThreading โปรเซสเซอร์จะได้ผลลัพธ์ที่ดีกว่าเสมอ ประการที่สอง: โปรเซสเซอร์ที่ไม่รองรับ SSE จะแสดงผลลัพธ์ที่ต่ำกว่าในการทดสอบ ALU นั่นคือ CPU Queen โชคดีที่มีโปรเซสเซอร์ดังกล่าวไม่มากนักในรายการ จริงๆ แล้วมีเพียง AMD K6-III เท่านั้น

สิ่งสำคัญคือต้องจำไว้ว่าแทบทุกโปรเซสเซอร์ที่ทดสอบมีมาเธอร์บอร์ดของตัวเอง และแต่ละบอร์ดจึงมีเครื่องกำเนิดสัญญาณนาฬิกาของตัวเองซึ่งสามารถประเมินความถี่อ้างอิงโปรเซสเซอร์สูงเกินไปและต่ำเกินไปได้ ผลที่ตามมาของข้อเท็จจริงนี้คือผลลัพธ์ที่แตกต่างกันเล็กน้อยสำหรับโปรเซสเซอร์เดียวกันในเมนบอร์ดที่ต่างกัน เมื่อพิจารณาว่าเราไม่สามารถกำจัดปัญหานี้ได้ จึงตัดสินใจทิ้งข้อผิดพลาดที่ค่อนข้างใหญ่ไว้ในผลลัพธ์ ซึ่งท้ายที่สุดก็พิสูจน์ตัวเองได้ ทำให้เราสามารถรวมโปรเซสเซอร์ออกเป็นกลุ่มได้

และข้อมูลนี้จำเป็นสำหรับแนวคิดที่เพียงพอเกี่ยวกับประสิทธิภาพของสถาปัตยกรรมเฉพาะและในบางกรณีคือเคอร์เนล เมื่อมองไปข้างหน้าเล็กน้อย ฉันจะบอกว่าวิธีการคำนวณนี้ได้พิสูจน์ตัวเองแล้ว ซึ่งแสดงให้เห็นถึงความเป็นเส้นตรงและการพึ่งพาผลลัพธ์ในระดับสูง

ตอนนี้เรามาพูดถึงวิธีที่เราทดสอบทั้งหมดนี้กัน หากคุณได้ดูตารางสรุปแล้ว คุณอาจสังเกตเห็นว่ามีโปรเซสเซอร์ 61 รุ่นในรุ่นต่างๆ แน่นอนว่าไม่ใช่ทั้งหมดที่ได้รับการทดสอบในห้องปฏิบัติการของเรา มีโปรเซสเซอร์มากกว่าหนึ่งในสามที่ทดสอบในห้องปฏิบัติการทดสอบของเราเท่านั้น ผลลัพธ์ส่วนสำคัญนำมาจากฐานข้อมูลของโปรแกรม AIDA 64 2.50 ซึ่งเป็นชุดการทดสอบเดียวในการเปรียบเทียบนี้ แน่นอนว่าเราไม่ได้พึ่งพาผลลัพธ์ที่นำเสนออย่างสุ่มสี่สุ่มห้า และเราตรวจสอบผลลัพธ์ของฐานข้อมูลอีกครั้งโดยทำการทดสอบของเราเองสำหรับโปรเซสเซอร์ที่คล้ายกันหลายตัว ผลลัพธ์เมื่อคำนึงถึงข้อผิดพลาดที่ความถี่อ้างอิงและความแตกต่างของความถี่ดังกล่าวจึงเป็นที่น่าพอใจ ซึ่งแสดงให้เห็นถึงความคล้ายคลึงกันเกือบทั้งหมด ดังนั้นเราจึงรวมผลลัพธ์จากฐานข้อมูลโปรแกรมเข้ากับผลลัพธ์ของเราเองไว้ในตารางเดียวอย่างไม่ต้องสงสัย

เป็นที่น่าสังเกตว่าใน AIDA เวอร์ชันต่างๆ การคำนวณผลลัพธ์อาจไม่เหมือนกัน ดังนั้นจึงไม่สามารถเปรียบเทียบได้ ในกรณีของเรา ผลลัพธ์ทั้งหมดได้รับเฉพาะในเวอร์ชัน 2.50 เท่านั้น

ถึงเวลาที่จะไปตรวจสอบผลการทดสอบซึ่งน่าสนใจมาก ถึงเวลาดูตารางหลักของเรา ซึ่งคุณจะพบว่าคุณลักษณะของโปรเซสเซอร์มีความสำคัญในการทดสอบนี้ และที่สำคัญที่สุดคือผลลัพธ์ของการทดสอบทั้งสองพร้อมข้อมูลที่แสดงแล้วเกี่ยวกับประสิทธิภาพคอร์ต่อนาฬิกา

เมื่อพิจารณาว่าประสิทธิภาพของ FPU และ ALU อาจแตกต่างกันอย่างมาก คุณจึงไม่ควรแปลกใจในช่วงเวลาที่โปรเซสเซอร์ตัวเดียวกันมีประสิทธิภาพดีเยี่ยมกับข้อมูลจำนวนเต็ม แต่ทำงานได้แย่กว่ามากกับข้อมูลจุดทศนิยม แม้ว่ามันจะเกิดขึ้นในทางกลับกันก็ตาม ก่อนที่จะเริ่มเรื่องราว ฉันอยากจะทราบว่าลำดับในคำอธิบายของฉันจะเป็นไปตามไทม์ไลน์ ในขณะที่ในตารางผลลัพธ์จะเรียงลำดับตามผลลัพธ์สัมบูรณ์ของการทดสอบ ALU

โปรเซสเซอร์ตัวแรกและที่เก่าแก่ที่สุดในรายการนี้คือรุ่น AMD K6-III บนคอร์ Sharptooth และ Pentium III บนคอร์ Katmai โปรเซสเซอร์เหล่านี้มีไปป์ไลน์ที่ค่อนข้างสั้นสำหรับทุกวันนี้ - เพียง 12 สเตจสำหรับ Intel และขั้นต่ำ 6 สเตจสำหรับ AMD ด้วยเหตุนี้ส่วนหลังจึงไม่จำเป็นต้องมีบล็อกการทำนายสาขาเนื่องจากข้อผิดพลาดที่เกี่ยวข้องกับการเลือกเส้นทางที่ไม่ถูกต้องจะไม่ส่งผลกระทบต่อผลลัพธ์อย่างมีนัยสำคัญเช่นเดียวกับในโปรเซสเซอร์ Pentium ที่จริงแล้วโปรเซสเซอร์นี้ไม่มีสิ่งนี้ แต่โปรเซสเซอร์ของ Intel มีและแม้ว่าตามมาตรฐานสมัยใหม่ประสิทธิภาพของมันจะต่ำ แต่กลไกการวิเคราะห์ก็เหมือนกับในโปรเซสเซอร์สมัยใหม่ เป็นผลให้ AMD K6-III มีผลการทดสอบ ALU ที่สูงกว่าเนื่องจากมีไปป์ไลน์ที่สั้น ผลลัพธ์ของเขาคือ 2.03 หน่วย/รอบ เทียบกับ 1.93 สำหรับผู้เข้าแข่งขัน และแม้ว่าโปรเซสเซอร์ AMD ของรุ่นนี้จะไม่รองรับส่วนขยายการสตรีม SSE ก็ตาม! ในเวลาเดียวกัน ในการทดสอบ FPU นั้น Pentium III อยู่ข้างหน้า ต้องขอบคุณหน่วยทำนายสาขาเป็นส่วนใหญ่ โดยให้ผลลัพธ์ 0.164 หน่วย/รอบ เทียบกับ 0.128 สำหรับตัวแทนของสถาปัตยกรรม K6

Pentium III โดดเด่นด้วยประสิทธิภาพที่ยอดเยี่ยม มีเพียง Athlon เท่านั้นที่สามารถแข่งขันกับมันในพารามิเตอร์นี้ด้วยความสำเร็จที่แตกต่างกัน

แกน Coppermine และ Tualatin ที่ประสบความสำเร็จอย่างมากของโปรเซสเซอร์ Pentium III ซึ่งปรากฏในภายหลังทำให้สถาปัตยกรรม Katmai ไม่มีการเปลี่ยนแปลงดังนั้นผลลัพธ์ของโปรเซสเซอร์ทั้งสอง: Celeron 700 และ Pentium III 1333 จึงคล้ายกับสิ่งที่เราได้เห็นไปแล้ว แต่เมื่อโปรเซสเซอร์เหล่านี้เปิดตัว AMD ได้ละทิ้งสถาปัตยกรรม K6 ไปแล้ว เนื่องจากไปป์ไลน์ที่สั้นมากจึงไม่อนุญาตให้เข้าถึงความถี่ที่สูงกว่า 550 เมกะเฮิรตซ์ ด้วยเหตุนี้ สถาปัตยกรรม K7 ใหม่จึงได้รับไปป์ไลน์ 10 ขั้นที่ยาวขึ้น รวมถึงฟีเจอร์และการเปลี่ยนแปลงเพิ่มเติมมากมายที่นำมาซึ่งการปรับปรุงประสิทธิภาพที่เห็นได้ชัดเจน นวัตกรรมหลักและที่สำคัญที่สุดภายในกรอบของเนื้อหานี้คือรูปลักษณ์ของบล็อกการทำนายสาขา อย่างไรก็ตาม ผลิตภัณฑ์ใหม่ซึ่งมีชื่อเป็นของตัวเองว่า Athlon ไม่สามารถเอาชนะประสิทธิภาพของหน่วย ALU และโปรเซสเซอร์ Pentium III ได้ แต่ประสิทธิภาพของ FPU เพิ่มขึ้นอย่างมาก: ในพารามิเตอร์นี้ AMD K7 Athlon เหนือกว่า K6 อย่างเห็นได้ชัดและแซงหน้าคู่แข่งได้โดยแสดงให้เห็นผลลัพธ์ที่ 0.163 หน่วย/รอบ แต่ไปป์ไลน์ที่ยาวกว่านั้นทำให้ประสิทธิภาพของหน่วย ALU ลดลงอย่างมาก - เหลือ 1.58 หน่วย/รอบ ซึ่งก็คือเกือบ 25 เปอร์เซ็นต์เมื่อเทียบกับ K6 อย่างไรก็ตาม นี่เป็นสิ่งที่สมเหตุสมผล เนื่องจาก FPU ในแอปพลิเคชันส่วนใหญ่ในเวลานั้นมีความสำคัญมากกว่า และความถี่ที่สูงกว่าซึ่งได้รับในที่สุดก็มากกว่าที่จะครอบคลุมการสูญเสียเหล่านี้

การเปลี่ยน AMD Athlon ไปเป็นคอร์ Thunderbird ไม่ได้เปลี่ยนความสมดุลของพลังงานและประสิทธิภาพต่อนาฬิกา แต่อย่างใด เนื่องจากคอร์นี้มีสถาปัตยกรรมเดียวกัน แต่หลังจากนั้นไม่นาน โปรเซสเซอร์ Pentium 4 ตัวแรกที่สร้างขึ้นบนสถาปัตยกรรม NetBurst ใหม่ทั้งหมดก็ปรากฏตัวในตลาด บางทีจากมุมมองของการตลาดและการขาย โปรเซสเซอร์เหล่านี้ประสบความสำเร็จอย่างไม่มีเงื่อนไข แต่จากมุมมองของวิศวกรรมและประสิทธิภาพ ไม่มีสถาปัตยกรรมที่แย่ไปกว่านั้นในประวัติศาสตร์

Pentium 4 พร้อมแกน Willamette หนึ่งในโปรเซสเซอร์รุ่นแรกๆ ที่ใช้สถาปัตยกรรม Netburst ที่ไม่ประสบความสำเร็จแต่มีความยืดหยุ่นอย่างน่าประหลาดใจ

เหตุผลก็คือ: เพื่อแสวงหาเมกะเฮิรตซ์ขนาดใหญ่ที่ลูกค้าต้องการวิศวกรของ Intel ได้ทำการเคลื่อนไหวที่ไม่สำคัญเพื่อให้ได้ความถี่ที่สูงขึ้น พวกเขาขยายไปป์ไลน์ให้ยาวขึ้นอย่างมาก - มากถึง 20 ขั้น แน่นอนว่าในการแข่งขันเพื่อแย่งชิงเมกะเฮิรตซ์ พวกเขากลายเป็นผู้นำทันที แต่ประสิทธิภาพต่อนาฬิกาลดลงอย่างเห็นได้ชัด ผลลัพธ์โดยเฉลี่ยของโปรเซสเซอร์ Pentium 4 บนแกน Willamette และ Northwood ในการทดสอบ ALU คือ 1.02 และในการทดสอบ FPU คือ 0.108 เปรียบเทียบกับผลลัพธ์ของ Pentium III - ความแตกต่างนั้นใหญ่โต! เพื่อให้มีประสิทธิภาพเหนือกว่าโปรเซสเซอร์รุ่นก่อนหน้า Pentium 4 จำเป็นต้องมีความถี่ที่สูงขึ้นอย่างมาก นั่นคือในความเป็นจริง เพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันของหน่วย ALU กับโปรเซสเซอร์อาวุโสที่สุดของตระกูล Pentium III ที่ทำงานที่ความถี่ 1,400 เมกะเฮิรตซ์ แกน Pentium 4 จะต้องทำงานที่ความถี่ 2536 เมกะเฮิรตซ์! และเพื่อให้ได้ผลลัพธ์เดียวกันในการทดสอบ FPU คุณต้องมี 2111 เมกะเฮิรตซ์ซึ่งน้อยกว่าเล็กน้อย แต่ก็ไม่เล็กเลย นั่นคือถ้าเราเฉลี่ยผลลัพธ์โปรเซสเซอร์ Pentium III 1400 และ Pentium 4 2.4 จะมีประสิทธิภาพเท่ากันโดยประมาณ

ในเวลาเดียวกัน AMD ไม่ได้ไล่ล่า Intel ในความถี่และรักษาสถาปัตยกรรม K7 แทบไม่เปลี่ยนแปลงเลยจึงเปิดตัวโปรเซสเซอร์ Athlon XP รุ่นหนึ่งซึ่งโปรเซสเซอร์ไม่ได้ทำเครื่องหมายด้วยความถี่อีกต่อไป แต่โดยการให้คะแนนด้วยเครื่องหมาย "บวก" ซึ่งแสดงให้เห็นประสิทธิภาพเมื่อเทียบกับโปรเซสเซอร์ Pentium 4 นั่นคือตามที่นักการตลาดของ AMD ระบุว่าโปรเซสเซอร์ Athlon XP 1800+ ควรแข่งขันกับ Pentium 4 ที่ทำงานที่ 1800 เมกะเฮิรตซ์

เรามาตรวจสอบว่าแนวทางนี้เพียงพอเพียงใด โดยพิจารณาว่าประสิทธิภาพของคอร์ Athlon XP อยู่ที่ระดับ 1.58 ยูนิต/รอบใน ALU และ 0.163 ยูนิต/รอบใน FPU ด้วยความถี่จริงของรุ่น 1800+ เท่ากับ 1533 เมกะเฮิรตซ์ ผลลัพธ์ที่ได้คือ 2422 ยูนิตใน Queen CPU และ 250 ยูนิตใน SinJulia FPU ในเวลาเดียวกันผลลัพธ์ของ Pentium 4 ที่มีความถี่ 1.8 กิกะเฮิรตซ์จะเป็น 1908 และ 195 หน่วยตามลำดับ ดูเหมือนว่าเรตติ้งจะดูถูกเกินไป แม้ว่าเราไม่ควรลืมว่าประสิทธิภาพในแอปพลิเคชันจริงอาจแตกต่างกันเล็กน้อยหากเราคำนึงถึงคุณลักษณะโปรเซสเซอร์อื่นๆ เช่น แคช บัส และสิ่งอื่นๆ

น่าแปลกที่ประสบการณ์อันขมขื่นไม่ได้สอนอะไรดีๆ ให้กับวิศวกรของ Intel และเมื่อต้องเผชิญกับความเป็นไปไม่ได้ที่จะเพิ่มความถี่อีกครั้งพวกเขาก็ไปเพิ่มความยาวของไปป์ไลน์อีกครั้ง ยิ่งกว่านั้นไม่ใช่สองสามขั้นตอน แต่ค่อนข้างสำคัญ - หากแกน Northwood มี 20 ขั้นตอนแสดงว่าใน Prescott มี 31 ขั้นตอน และนี่ไม่ใช่แค่สายพานที่ยาว แต่เป็นสายพานลำเลียงที่ยาวมาก ใช่ แน่นอน ด้วยการเปลี่ยนแปลงนี้ เกณฑ์สำหรับความถี่สัญญาณนาฬิกาสูงสุดของคอร์ใหม่จึงสูงขึ้น แต่การกระจายความร้อนก็สูงขึ้นเช่นกัน

แกนเพรสคอตต์เป็นการเสื่อมสภาพอีกประการหนึ่งของสถาปัตยกรรม Netburst เพื่อแสวงหาเมกะเฮิรตซ์ที่สูง Intel core ที่ไม่มีประสิทธิภาพมากที่สุดเท่าที่เคยมีมา

อย่างไรก็ตาม การเปลี่ยนแปลงที่สำคัญที่สุดซึ่งไม่ใช่ทุกคนจะสามารถชื่นชมได้คือประสิทธิภาพที่ลดลงอย่างมากเมื่อเทียบกับรุ่นก่อน และแม้ว่าการถือกำเนิดของเทคโนโลยี HyperThreading จะช่วยรักษาสถานการณ์ได้ในแง่หนึ่ง แต่โปรเซสเซอร์ที่ไม่ได้ใช้ก็แสดงให้เห็นเพียงความน่าสะพรึงกลัว ระดับประสิทธิภาพ ค้นหาโปรเซสเซอร์ Pentium D 820 และ 925 รวมถึง Celeron D 326 ในตารางแล้วคุณจะเข้าใจสิ่งที่ฉันกำลังพูดถึง ผลลัพธ์ต่อรอบที่แสดงในการทดสอบ CPU Queen อยู่ที่ 0.75 ยูนิตเพียงเล็กน้อย และ FPU SinJulia ประเมินประสิทธิภาพของสถาปัตยกรรม NetBurst ที่อัปเดตเพียง 0.081 ยูนิต ประสิทธิภาพลดลงเมื่อเทียบกับแกน Willamette/Northwood อยู่ที่ประมาณ 30 เปอร์เซ็นต์ใน ALU และสูงถึง 40 เปอร์เซ็นต์ใน FPU

การเปรียบเทียบ Prescott-256 และ Smithfield กับโปรเซสเซอร์ AMD K8 นั้นไม่มีจุดหมายเลย เนื่องจากสถาปัตยกรรมใหม่ได้รับไปป์ไลน์ที่ยาวกว่า K7 เพียงสองขั้นตอน แต่ในขณะเดียวกันก็ได้รับหน่วยทำนายสาขาที่ได้รับการปรับปรุงอย่างมีนัยสำคัญและมีประสิทธิภาพมากขึ้น และด้วยเหตุนี้ คอร์ที่ใช้สถาปัตยกรรมใหม่จึงแสดงประสิทธิภาพของ ALU และ FPU ที่สูงขึ้นเล็กน้อย คะแนนการทดสอบ CPU Queen โดยเฉลี่ยเพิ่มขึ้นเป็น 1.74 หน่วย และ SinJulia FPU ยังคงอยู่ในระดับของรุ่นก่อน อย่างที่คุณเห็นไม่ใช่เพื่ออะไรเลยที่โปรเซสเซอร์ Athlon 64 และ Sempron เคยได้รับการยกย่องอย่างสูงจากนักเล่นเกม - ประสิทธิภาพของพวกเขานั้นสูงมากมากกว่าสองเท่าของ Pentium 4 ที่ได้รับความนิยมอย่างมากด้วยคอร์ Prescott และ Smithfield ซึ่ง ในแอปพลิเคชันส่วนใหญ่ไม่ได้รับความช่วยเหลือจากประสิทธิภาพสูงสุดในบางครั้งความถี่หรือแคชระดับที่สองจำนวนมหาศาล

โซลูชันที่ประสบความสำเร็จอย่างมากจาก AMD คือ Athlon 64 เมื่อเปรียบเทียบกับ Pentium 4 โปรเซสเซอร์เหล่านี้มีความโดดเด่นในเรื่องการใช้พลังงานต่ำและประสิทธิภาพที่ยอดเยี่ยม

อย่างไรก็ตามในขั้นตอนนี้ควรจำไว้ว่าเทคโนโลยี HyperThreading ปรากฏขึ้นใน Prescott core แน่นอนว่ามันไม่ได้ปรากฏขึ้นมาเพราะชีวิตที่ดี แต่เป็นความพยายามที่ไม่ประสบความสำเร็จในการปกปิดข้อบกพร่องของสายพานลำเลียงแบบยาว ต้องขอบคุณเทคโนโลยีนี้ แม้ว่าในเวลานั้นจะยังไม่สมบูรณ์นัก วิศวกรจึงสามารถปรับระดับความยาวของสายพานลำเลียงได้ ตัวอย่างเช่น โปรเซสเซอร์ Pentium 4 2800E ที่ใช้คอร์ Prescott และ HT ที่รองรับ แสดงให้เห็นประสิทธิภาพที่คล้ายคลึงกับคอร์ที่มีไปป์ไลน์ 20 สเตจ แต่ไม่มี HT อย่างไรก็ตาม ไม่สามารถเพิ่มประสิทธิภาพจากการรองรับ HyperThreading สำหรับคอร์ Willamette/Northwood ได้ ดังที่เห็นได้จากผลลัพธ์ของโปรเซสเซอร์ Pentium 4 3.46 GHz Extreme Edition ที่หายาก ซึ่งใช้คอร์ Gallatin (คล้ายกับ Northwood, แต่มีแคช L3 ขนาด 2 MB) และรองรับเทคโนโลยีนี้

อีกไม่นานเมื่อสิ้นสุดยุค NetBurst วิศวกรของ Intel ก็สามารถปรับปรุง HyperThreading ได้อย่างมีนัยสำคัญและเพิ่มประสิทธิภาพของหน่วยการคำนวณจุดลอยตัวได้ดี โปรดใส่ใจกับผลิตภัณฑ์ที่เร็วที่สุดในกลุ่มผลิตภัณฑ์ single-core Pentium 4 3.73 GHz Extreme Edition และ dual-core Pentium 955 Extreme Edition ประสิทธิภาพ FPU อยู่ที่ 0.138 หน่วยแล้ว แม้ว่าประสิทธิภาพของ ALU จะอยู่ในระดับเดียวกันก็ตาม อย่างไรก็ตามด้วยเหตุนี้จึงไม่สามารถเอาชนะคู่แข่งหลักได้ - AMD Athlon 64 X2 แม้ว่ารุ่นหลังจะทำงานที่ความถี่สัญญาณนาฬิกาต่ำกว่าและไม่รองรับ HT ก็ตาม

ดูที่ตาราง - ไม่มีสถาปัตยกรรมโปรเซสเซอร์ NetBurst ใดที่สามารถแข่งขันกับ Athlon 64 X2 5200+ นับประสาอะไรกับ AMD Athlon 64 6400+ อันดับต้นๆ ในขณะนั้น อย่างไรก็ตาม Intel ตระหนักมานานแล้วว่าการแสวงหา "กิกะเฮิรตซ์สูง" เป็นความผิดพลาด ดังนั้นจึงกำลังเตรียมสถาปัตยกรรมล่าสุด ซึ่งจะประสบความสำเร็จในด้านการตลาดไม่น้อยไปกว่า Pentium 4 แต่มีประสิทธิภาพมากกว่ามาก

Athlon 64 X2 อาจเป็นโปรเซสเซอร์ตัวสุดท้ายในปัจจุบันที่อาจมีประสิทธิภาพเหนือกว่าโปรเซสเซอร์ Intel ระดับบนสุด อย่างไรก็ตาม การเอาชนะ Pentium D ที่ไม่มีประสิทธิภาพและร้อนแรงนั้นไม่ใช่เรื่องยาก

เรากำลังพูดถึง Core ตามธรรมชาติ ในขณะที่พัฒนาสถาปัตยกรรมนี้วิศวกรของ Intel กลับไปสู่ขั้นตอนเพียง 14 ขั้นตอนนั่นคือพวกเขาย่อให้สั้นลงมากกว่าครึ่งหนึ่งเมื่อเทียบกับตัวแทน NetBurst ล่าสุด โดยธรรมชาติในสภาวะเช่นนี้ ไม่มีการพูดถึงถึง 4 กิกะเฮิรตซ์ แต่ตัวแทนกลุ่มแรกของครอบครัวใหม่แม้จะมีความถี่ต่ำ แต่ก็แสดงให้เห็นถึงประสิทธิภาพสูงสุด โปรเซสเซอร์ทั้งสองรุ่นนี้ - Pentium M 730 บน Dothan core และ Core Duo T2500 บน Yonah core แสดงผลลัพธ์ต่อนาฬิกาที่เหนือกว่าแม้แต่ Pentium III และสูงกว่าคู่แข่งตระกูล AMD K8 อย่างเห็นได้ชัด

สถาปัตยกรรมที่ทดสอบบนโซลูชันมือถือออกสู่ตลาดเดสก์ท็อปในรูปแบบที่ได้รับการปรับเปลี่ยนเล็กน้อยในรูปแบบของโปรเซสเซอร์ Core 2 Duo และ Pentium Dual Core ในขณะที่เปิดตัวพวกเขาไม่สามารถอวดความถี่สูงได้ แต่ในขณะเดียวกันพวกเขาก็แสดงให้เห็นถึงประสิทธิภาพสูงสุดและเป็นผลให้ประสิทธิภาพแม้ว่าจะขาดการรองรับ HyperThreading ก็ตาม! แน่นอนว่าบล็อกการทำนายสาขาที่ได้รับการปรับปรุงอย่างมีนัยสำคัญก็ใช้ได้ผลเช่นกัน ดูผลลัพธ์ ในการทดสอบ CPU Queen ประสิทธิภาพโดยเฉลี่ยของ Conroe core และอนุพันธ์ของมันเพิ่มขึ้นเป็นระดับมากกว่าสองหน่วยต่อนาฬิกา และถึงค่าเฉลี่ยที่ 2.13 ในการทดสอบ FPU SinJulia ผลลัพธ์ก็ดีมากเช่นกัน - 0.175 แม้ว่าจะไม่มากนัก แต่ก็เป็นมากกว่าโปรเซสเซอร์สถาปัตยกรรม Core รุ่นแรกและสูงกว่า AMD K8 มากซึ่ง Pentium 4 ต่อสู้กันมานานและไม่ประสบความสำเร็จ

สถาปัตยกรรม Core 2 ที่เข้ามาแทนที่ NetBurst แสดงให้เห็นว่า Intel สามารถสร้างโปรเซสเซอร์ที่รวดเร็วและเย็นซึ่งมีประสิทธิภาพสูงได้

ประสิทธิภาพสูงสุดของคอร์ได้รับการพิสูจน์อีกครั้งโดย Celeron แบบคอร์เดี่ยวซึ่งเปิดตัวในภายหลังเล็กน้อยซึ่งด้วยความถี่ที่พอประมาณต้องขอบคุณคอร์ Conroe-L ที่แสดงประสิทธิภาพในระดับของรุ่นก่อนที่ทำงานที่ความถี่สองเท่า . และนี่คือแกนเดียวอันเดียวกัน โดยทั่วไป สถาปัตยกรรมนี้ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพสูงสุด และบังคับให้ AMD พยายามไล่ตามคู่แข่ง

และนี่คือจุดเริ่มต้นของปัญหาของ AMD ตอนนี้พวกเขาไม่ได้มีความได้เปรียบในด้านประสิทธิภาพของคอร์และแทนที่จะสร้างมันขึ้นมาใหม่ทั้งหมดวิศวกรเมื่อสร้างรุ่น K10 และด้วยเหตุนี้โปรเซสเซอร์ที่เรียกว่า Phenom และ Athlon จึงเริ่มเพิ่มจำนวนคอร์และแคช แน่นอนว่าประสิทธิภาพโดยรวมของโซลูชันเหล่านี้เพิ่มขึ้น แต่การเปลี่ยนแปลงที่เกิดขึ้นมีผลเพียงเล็กน้อยต่อประสิทธิภาพ ประสิทธิภาพของ ALU เพิ่มขึ้นเล็กน้อยอย่างเห็นได้ชัดเนื่องจากหน่วยการทำนายสาขาที่ได้รับการปรับปรุงอีกครั้ง แต่ประสิทธิภาพของ FPU ยังคงไม่เปลี่ยนแปลงโดยสิ้นเชิง - ด้วยคุณสมบัติดังกล่าวจึงเป็นไปได้ที่จะแข่งขันกับ Core 2 เท่านั้นเนื่องจากมีคอร์จำนวนมากขึ้นหรือ ความถี่ที่สูงขึ้น อย่างหลังโปรเซสเซอร์รุ่น K10 มีปัญหาร้ายแรงอย่างที่คุณคงจำได้

Phenom เป็นโปรเซสเซอร์ที่ไม่ประสบความสำเร็จอย่างชัดเจน ประสิทธิภาพไม่ถึง Core 2 และมีปัญหาร้ายแรงเกี่ยวกับความถี่

ด้วยเหตุนี้ Phenom จึงไม่เคยเป็นคู่แข่งกับโปรเซสเซอร์ Core 2 Duo และ Core 2 Quad อย่างไรก็ตามปัญหาเกี่ยวกับความถี่ได้รับการแก้ไขในไม่ช้าและโปรเซสเซอร์ Phenom II และ Athlon II ใหม่ของสถาปัตยกรรม K10.5 ก็พร้อมที่จะแข่งขันกับโซลูชันจาก Intel ในเรื่องนี้ แต่ประสิทธิภาพในรุ่นใหม่ยังคงอยู่ในระดับเดิมดังนั้นโซลูชันของ AMD จึงไม่สามารถแข่งขันกับคู่แข่งด้วยความถี่ที่เท่ากันได้ นอกจากนี้ เมื่อเปลี่ยนมาใช้เทคโนโลยีการผลิต 45 นาโนเมตร Intel ได้สร้างความมหัศจรรย์ให้กับสถาปัตยกรรมอีกครั้ง และเพิ่มประสิทธิภาพของหน่วย FPU อีกครั้งเป็นระดับ 0.185 หน่วย/รอบ

แม้จะมีความเหนือกว่าที่สะดวกสบาย แต่อาวุธที่สมบูรณ์แบบใหม่ก็ถูกสร้างขึ้นแล้วในเวิร์กช็อปและห้องปฏิบัติการของ Intel โดยได้พัฒนาสถาปัตยกรรม Core ซึ่งมองเห็นแสงสว่างในโปรเซสเซอร์ Core i3, i5 และ i7 ภายใต้ชื่อทั่วไป Nehalem การเปลี่ยนแปลงครั้งต่อไปในบล็อกและการปรับปรุงพารามิเตอร์ทั้งหมดนำไปสู่ผลลัพธ์ที่ยอดเยี่ยม ดูประสิทธิภาพของ Core i5-750: ประสิทธิภาพของ ALU ยังคงเกือบอยู่ที่ระดับ Core 2 แต่ในขณะเดียวกันประสิทธิภาพของบล็อกที่สำคัญที่สุดของการดำเนินการจำนวนเต็มในขณะนี้เพิ่มขึ้นอย่างมีนัยสำคัญ - สูงถึง 0.225 หน่วยต่อนาฬิกา!

แต่นอกเหนือจากการปรับปรุงสถาปัตยกรรมแล้ว Intel ยังเตรียมอาวุธพิเศษอีกตัวหนึ่งนั่นคือเทคโนโลยี HyperThreading ที่สมบูรณ์แบบ การใช้งานทำให้ได้รับประสิทธิภาพที่ยอดเยี่ยม เทคโนโลยีนี้เมื่อปรับให้เหมาะสมอย่างเหมาะสมจะให้ผลอย่างมากและเพิ่มประสิทธิภาพเกือบหนึ่งเท่าครึ่ง! 3.05 ใน ALU และ 0.36 ใน FPU เป็นผลลัพธ์ที่ยอดเยี่ยม อย่างไรก็ตาม แม้ว่าจะไม่รองรับเทคโนโลยีนี้ แต่โปรเซสเซอร์ที่ใช้สถาปัตยกรรม Nehalem กลับกลายเป็นว่ามีประสิทธิภาพมากกว่ารุ่นก่อนและคู่แข่ง

Nehalen เป็นสถาปัตยกรรม Intel ตัวแรกที่ให้ความสนใจสูงสุดกับประสิทธิภาพของคอร์ ผลลัพธ์ที่ได้ก็ยอดเยี่ยมมาก ทายาทในรูปของแซนดี้บริดจ์และไอวี่บริดจ์แสดงให้เห็นว่ายังมีศักยภาพอยู่

โปรเซสเซอร์ Intel รุ่นต่อมาสองรุ่นที่ใช้คอร์ Sandy Bridge และ Ivy Bridge ยังแสดงให้เห็นถึงประสิทธิภาพที่สูงขึ้นไม่เพียงเนื่องจากความถี่ที่เพิ่มขึ้นเท่านั้น การเปลี่ยนแปลงเล็กๆ น้อยๆ ในคอร์ทำให้สามารถเพิ่มประสิทธิภาพของบล็อกการดำเนินการจำนวนเต็มได้อย่างต่อเนื่อง 0.25 หน่วย/รอบในแต่ละรุ่น ทั้งที่มีและไม่มี HyperThreading แต่ประสิทธิภาพของ FPU ไม่มีการเปลี่ยนแปลง อย่างไรก็ตาม แม้ว่าจะไม่มีการปรับปรุงก็ตาม ตัวบ่งชี้นี้ก็ยังดีมาก เมื่อพิจารณาถึงแนวโน้มนี้ เราคาดหวังได้ว่าประสิทธิภาพจะเพิ่มขึ้นอีกครั้งเมื่อโปรเซสเซอร์ Intel รุ่นต่อไปปรากฏขึ้น

AMD สามารถฝันถึงประสิทธิภาพดังกล่าวได้เท่านั้น อย่างไรก็ตาม พวกเขาไม่ได้นิ่งเฉย พยายามปรับปรุงประสิทธิภาพของโปรเซสเซอร์ โดยเฉพาะอย่างยิ่ง โปรเซสเซอร์ Llano ที่ใช้คอร์สถาปัตยกรรม K10.5 แสดงให้เห็นประสิทธิภาพ ALU ที่สูงขึ้นเล็กน้อยกว่า Phenom และ Athlon ล่าสุดเล็กน้อย ต้องขอบคุณหน่วยทำนายสาขาที่ได้รับการปรับปรุงให้ดีขึ้น ในขณะที่ประสิทธิภาพของ FPU ยังคงอยู่ในระดับเดียวกับที่แสดงโดยโปรเซสเซอร์ AMD รุ่นก่อนทั้งหมดนับตั้งแต่ตระกูล Athlon K7 รุ่นแรก

ตัวแทนล่าสุดของตระกูล AMD ซึ่งเริ่มต้นในรุ่น K7 คือ Liano APU น่าเสียดายที่มันไม่ได้มีประสิทธิภาพเมื่อเทียบกับโปรเซสเซอร์ Intel รุ่นล่าสุด

อย่างไรก็ตามแม้แต่ Llano ก็ถือได้ว่าเป็นโซลูชันที่ล้าสมัยเนื่องจากอนาคตอันใกล้ของโปรเซสเซอร์ AMD จะเชื่อมโยงกับโปรเซสเซอร์ของสถาปัตยกรรม Bulldozer ใหม่ทั้งหมดซึ่งนำเสนอในโปรเซสเซอร์ AMD FX และอนุพันธ์ของมัน มันเป็นโปรเซสเซอร์เหล่านี้ซึ่งกลายเป็นว่าไม่อาจโต้แย้งได้ซึ่งทำให้เราถึงทางตันเมื่อคำนวณประสิทธิภาพของคอร์ และทั้งหมดเป็นเพราะหลักการขององค์กรนิวเคลียร์ในนั้นซับซ้อนเกินไป โดยเฉพาะอย่างยิ่ง โปรเซสเซอร์ FX-8150 มีโมดูลดูอัลคอร์สี่โมดูล และบริษัทประกาศว่าเป็นแปดคอร์ เพื่อที่จะลงโทษบริษัทสำหรับสิ่งนี้ เป็นไปได้ที่จะคำนวณประสิทธิภาพโดยอิงจากแปดคอร์ทั้งหมด แต่จะไม่ถูกต้องทางเทคนิค และผลลัพธ์จะอยู่ที่ระดับโปรเซสเซอร์ Intel ที่ใช้สถาปัตยกรรม NetBurst ดังนั้นจึงตัดสินใจคำนวณประสิทธิภาพไม่ใช่ต่อคอร์ แต่ต่อโมดูล ซึ่งค่อนข้างสมเหตุสมผล เนื่องจากแต่ละโมดูลมีหน่วยการคำนวณจุดลอยตัวเพียงหน่วยเดียวเท่านั้น

AMD FX บนสถาปัตยกรรม Bulldozer แสดงให้เห็นประสิทธิภาพที่เพิ่มขึ้นอย่างเห็นได้ชัด แต่สถาปัตยกรรมที่ซับซ้อนยังไม่เปิดเผยตัวเอง และบางทีเขาอาจจะไม่เปิดเผยอีกต่อไป

ด้วย ALU ทุกอย่างซับซ้อนมากขึ้น - จริง ๆ แล้วมีแปดหน่วยในโปรเซสเซอร์สี่โมดูล แต่ไม่สามารถทำงานคู่ขนานได้อย่างมีประสิทธิภาพเพียงพอเนื่องจากคุณสมบัติของตัวจัดการงานใน Windows 7 และระบบปฏิบัติการรุ่นก่อนหน้าจาก Microsoft ดังนั้นจึงตัดสินใจคำนวณประสิทธิภาพของ ALU ตามจำนวนโมดูล การตัดสินใจครั้งนี้มีข้อขัดแย้ง และฉันจะไม่ยืนกรานต่อความเที่ยงธรรมของผลลัพธ์นี้ และผลลัพธ์ก็ออกมาค่อนข้างดี แน่นอนว่าเกี่ยวกับรุ่นก่อน โดยเฉพาะอย่างยิ่งในแง่ของประสิทธิภาพของผลลัพธ์ ALU ที่เป็นที่ถกเถียงกันนั้น โปรเซสเซอร์สถาปัตยกรรม Bulldozer แสดงผลลัพธ์ที่ 2.2 หน่วย/รอบ ซึ่งสูงกว่า K10.5, Llano อย่างเห็นได้ชัด และมากกว่า Core 2 เล็กน้อยด้วยซ้ำ แม้ว่าก่อน Sandy Bridge ก็ตาม หากไม่มีการสนับสนุน Hyper Threading ยังคงเป็นหนทางอีกยาวไกล ประสิทธิภาพของ FPU (ผลลัพธ์นี้สามารถเชื่อถือได้อย่างสมบูรณ์) ยังเหนือกว่าโซลูชัน AMD รุ่นก่อน ๆ ทั้งหมดอย่างมีนัยสำคัญและกลายเป็นว่าอยู่ระหว่างสถาปัตยกรรม Core 2 รุ่นแรกและรุ่นปลายอย่างแน่นอน

จากผลลัพธ์เหล่านี้ เราสามารถสรุปได้ว่าโปรเซสเซอร์สถาปัตยกรรม Bulldozer ไม่ใช่คู่แข่งกับโปรเซสเซอร์ Intel ที่เริ่มต้นด้วย Nehalem อย่างแน่นอน แต่สามารถต่อสู้กับ Core 2 ได้อย่างมีประสิทธิภาพมากและยังมีประสิทธิภาพเหนือกว่าด้วยความถี่ที่เท่ากันอีกด้วย ไม่ใช่ข้อสรุปเชิงบวกที่สุดสำหรับกรีน

เพื่อความสะดวกของคุณ เราได้สรุปผลลัพธ์ทั้งหมดไว้ในตารางพร้อมตัวบ่งชี้ประสิทธิภาพโดยเฉลี่ยสำหรับคอร์ต่างๆ

ในจุดนี้ในการศึกษาของเรา เราสามารถใส่จุดไข่ปลาได้ ไม่ ไม่ใช่จุดจบ เนื่องจากเนื้อหานี้ไม่ได้แสร้งทำเป็นว่าเป็นระดับโลกอย่างแน่นอน และอย่างที่ฉันกล่าวไว้ในตอนต้นของเนื้อหา มันไม่ได้คำนึงถึงประสิทธิภาพของบล็อกตัวประมวลผลที่สำคัญมากจำนวนมาก อย่างไรก็ตาม ไม่มีโปรเซสเซอร์ที่รวดเร็วหากไม่มี ALU และ FPU ที่ทรงพลัง และเนื้อหานี้ยืนยันสมมติฐานนี้อย่างสมบูรณ์ ประวัติศาสตร์ได้ใส่ทุกสิ่งทุกอย่างไว้ในที่ของมัน และจากจุดสูงสุดของปีที่ผ่านมา เราสามารถประทับตราและชี้ข้อผิดพลาดได้อย่างง่ายดายและเป็นธรรมชาติ แต่ความผิดพลาดเหล่านี้เองที่คอยพาเราไปสู่อนาคตทางดิจิทัลที่มีความสุขอย่างต่อเนื่อง แม้จะมีทางตันทั้งหมดก็ตาม

วัสดุที่เกี่ยวข้อง:

หน่วยจุดลอยตัว (FPU) - ส่วนหนึ่งของโปรเซสเซอร์สำหรับการดำเนินการทางคณิตศาสตร์ที่หลากหลายกับจำนวนจริง

โปรเซสเซอร์ร่วมตระกูล Intel x86

สำหรับโปรเซสเซอร์ตระกูล x86 หน่วยจุดลอยตัวได้รับการจัดสรรให้กับชิปแยกต่างหากที่เรียกว่า โปรเซสเซอร์ร่วมทางคณิตศาสตร์- มีตัวเชื่อมต่อแยกต่างหากสำหรับการติดตั้งโปรเซสเซอร์ร่วมบนบอร์ดคอมพิวเตอร์

โปรเซสเซอร์ร่วมไม่ใช่โปรเซสเซอร์ที่มีคุณสมบัติครบถ้วน เนื่องจากไม่ทราบวิธีดำเนินการหลายอย่างที่จำเป็นสำหรับสิ่งนี้ (ตัวอย่างเช่น ไม่ทราบวิธีทำงานกับโปรแกรมและคำนวณที่อยู่หน่วยความจำ) เป็นเพียงส่วนต่อท้ายของ โปรเซสเซอร์กลาง

หนึ่งในโครงร่างสำหรับการโต้ตอบระหว่างตัวประมวลผลกลางและตัวประมวลผลร่วม ที่ใช้โดยเฉพาะในตัวประมวลผลร่วม x86 ได้รับการปรับใช้ดังนี้:

แพลตฟอร์มอื่นๆ

ในทำนองเดียวกัน มาเธอร์บอร์ดพีซีที่สร้างจากโปรเซสเซอร์ Motorola มีโปรเซสเซอร์ร่วมทางคณิตศาสตร์ก่อนที่บริษัทนั้นจะพัฒนาโปรเซสเซอร์ MC68040 (ซึ่งมีโปรเซสเซอร์ร่วมติดตั้งอยู่ในตัว) โดยทั่วไปแล้ว ตัวประมวลผลร่วม 68881 16 MHz หรือ 68882 25 MHz ถูกใช้เป็น FPU โปรเซสเซอร์สมัยใหม่เกือบทุกตัวมีโปรเซสเซอร์ร่วมในตัว

Weitek ยังผลิตตัวประมวลผลร่วมทางคณิตศาสตร์สำหรับแพลตฟอร์มและ MIPS

อุปกรณ์เอฟพียู

ลงทะเบียน เอฟพียูไม่ได้ถูกจัดเรียงเป็นอาร์เรย์ เช่นเดียวกับในสถาปัตยกรรมอื่นๆ บางส่วน แต่เป็นรีจิสเตอร์สแต็ก FPU ก็คือ เครื่องคิดเลขสแต็คการทำงานบนหลักการของสัญกรณ์โปแลนด์ย้อนกลับ ซึ่งหมายความว่าคำสั่งจะใช้ค่าบนสุดของสแต็กเพื่อดำเนินการเสมอ และโดยปกติแล้วการเข้าถึงค่าที่เก็บไว้อื่น ๆ จะทำได้โดยการจัดการสแต็ก อย่างไรก็ตาม เมื่อทำงานกับด้านบนของสแต็ก องค์ประกอบสแต็กอื่นๆ สามารถใช้พร้อมกันได้ เพื่อเข้าถึงการกำหนดที่อยู่โดยตรงที่สัมพันธ์กับด้านบนของสแต็ก การดำเนินการยังสามารถใช้ค่าที่เก็บไว้ใน RAM ได้ ลำดับของการกระทำปกติมีดังนี้ ก่อนการดำเนินการ อาร์กิวเมนต์จะถูกส่งไปยังสแต็ก LIFO เมื่อดำเนินการแล้ว จำนวนอาร์กิวเมนต์ที่ต้องการจะถูกลบออกจากสแต็ก ผลลัพธ์ของการดำเนินการจะถูกวางไว้บนสแต็กซึ่งสามารถใช้ในการคำนวณเพิ่มเติมหรือลบออกจากสแต็กเพื่อเขียนลงในหน่วยความจำ แม้ว่าการจัดระเบียบการลงทะเบียน FPU แบบเรียงซ้อนจะสะดวกสำหรับโปรแกรมเมอร์ แต่งานของคอมไพเลอร์ในการสร้างโค้ดที่มีประสิทธิภาพก็มีความซับซ้อน

คุณสมบัติการใช้งาน

หลังจากที่ 3DNow! จาก AMD และ SSE โดยเริ่มจากโปรเซสเซอร์ Pentium III ของ Intel การคำนวณที่มีความแม่นยำเพียงครั้งเดียวสามารถทำได้โดยไม่ต้องใช้คำสั่ง FPU และด้วยประสิทธิภาพที่เพิ่มขึ้น ส่วนขยาย SSE2 และส่วนขยายชุดคำสั่งเวอร์ชันใหม่กว่ายังให้การคำนวณที่มีความแม่นยำสองเท่าอย่างรวดเร็ว (ดูมาตรฐาน IEEE-754) ในเรื่องนี้ในคอมพิวเตอร์สมัยใหม่ความต้องการคำสั่งจากตัวประมวลผลร่วมทางคณิตศาสตร์แบบคลาสสิกลดลงอย่างมาก อย่างไรก็ตาม ยังคงได้รับการสนับสนุนบนโปรเซสเซอร์ x86 ทั้งหมดในการผลิตเพื่อความเข้ากันได้กับแอปพลิเคชันรุ่นเก่าและสำหรับแอปพลิเคชันที่ต้องมีการแปลง BCD หรือการคำนวณความแม่นยำเพิ่มเติม (โดยที่ความแม่นยำสองเท่าไม่เพียงพอ) ปัจจุบันใช้คำสั่ง x87ยังคงเป็นวิธีที่มีประสิทธิภาพที่สุดในการคำนวณดังกล่าว

รูปแบบข้อมูล

ภายใน FPU ตัวเลขจะถูกจัดเก็บในรูปแบบทศนิยม 80 บิต (ขยายความแม่นยำ) และสิ่งต่อไปนี้สามารถใช้เพื่อเขียนหรืออ่านจากหน่วยความจำ:

จำนวนจริงในสามรูปแบบ: สั้น (32 บิต), ยาว (64 บิต) และขยาย (80 บิต)
จำนวนเต็มไบนารีในสามรูปแบบ: 16, 32 และ 64 บิต
ตัวเลขทศนิยมจำนวนเต็มแบบแพ็ค (BCD) - ความยาวตัวเลขสูงสุดคือ 18 หลักทศนิยมแบบแพ็ค (72 บิต)

FPU ยังรองรับค่าตัวเลขพิเศษด้วย:

จำนวนจริงดีนอร์มัลไลซ์คือตัวเลขที่มีค่าสัมบูรณ์น้อยกว่าจำนวนปกติที่ทำให้เป็นมาตรฐานขั้นต่ำ เมื่อค่าดังกล่าวถูกสร้างขึ้นในสแต็กรีจิสเตอร์ ค่าพิเศษ 10 จะถูกสร้างขึ้นในแท็กรีจิสเตอร์ TWR ที่สอดคล้องกับรีจิสเตอร์นี้ เครื่องหมายของตัวเลขดีนอร์มัลไลซ์ในการแทนค่าไบนารี่คือฟิลด์ลำดับศูนย์
อนันต์ (บวกและลบ) เกิดขึ้นเมื่อค่าที่ไม่ใช่ศูนย์ถูกหารด้วยศูนย์ เช่นเดียวกับค่าล้น เมื่อค่าดังกล่าวถูกสร้างขึ้นในสแต็กรีจิสเตอร์ ค่าพิเศษ 10 จะถูกสร้างขึ้นในแท็กรีจิสเตอร์ TWR ที่สอดคล้องกับรีจิสเตอร์นี้
ไม่ใช่ตัวเลข (ภาษาอังกฤษไม่ใช่ตัวเลข (NaN)) ไม่ใช่ตัวเลขมีสองประเภท:
- SNaN (การส่งสัญญาณที่ไม่ใช่ตัวเลข) - ส่งสัญญาณที่ไม่ใช่ตัวเลข ตัวประมวลผลร่วมตอบสนองต่อลักษณะที่ปรากฏของหมายเลขนี้ในสแต็กรีจิสเตอร์โดยการเพิ่มข้อยกเว้นการดำเนินการที่ไม่ถูกต้อง ตัวประมวลผลร่วมไม่ได้สร้างหมายเลขสัญญาณ โปรแกรมเมอร์สร้างตัวเลขดังกล่าวโดยเจตนาเพื่อเพิ่มข้อยกเว้นในสถานการณ์ที่ถูกต้อง
- QNaN (Quiet Non a Number) - สงบ (เงียบ) ไม่ใช่ตัวเลข ตัวประมวลผลร่วมสามารถสร้างตัวเลขที่ไม่ใช่ตัวเลขเพื่อตอบสนองต่อข้อยกเว้นบางอย่าง เช่น จำนวนความไม่แน่นอนที่แท้จริง
ศูนย์ (บวกและลบ) แม้ว่าศูนย์อาจถือเป็นค่าพิเศษในแง่ของรูปแบบจุดลอยตัว แต่ก็เป็นกรณีพิเศษของตัวเลขที่ไม่ปกติเช่นกัน
ความไม่แน่นอนและรูปแบบที่ไม่รองรับ มีชุดบิตจำนวนมากที่สามารถแสดงในรูปแบบจำนวนจริงเพิ่มเติมได้ สำหรับค่าส่วนใหญ่ จะมีการสร้างข้อยกเว้นการดำเนินการที่ไม่ถูกต้อง

ลงทะเบียน

มีการลงทะเบียนสามกลุ่มใน FPU:

สแต็กตัวประมวลผล: ลงทะเบียน R0..R7 ขนาดของแต่ละรีจิสเตอร์: 80 บิต
บริการลงทะเบียน
- การลงทะเบียนสถานะตัวประมวลผล SWR (Status Word Register) - ข้อมูลเกี่ยวกับสถานะปัจจุบันของตัวประมวลผลร่วม ขนาด: 16 บิต
- การลงทะเบียนการควบคุมโปรเซสเซอร์ร่วม CWR (Control Word Register) - การควบคุมโหมดการทำงานของโปรเซสเซอร์ร่วม ขนาด: 16 บิต
- แท็ก Word Register TWR (แท็ก Word Register) - ควบคุมการลงทะเบียน R0..R7 (เช่น เพื่อกำหนดความสามารถในการเขียน) ขนาด: 16 บิต
ตัวชี้ลงทะเบียน
- ตัวชี้ข้อมูล DPR (Data Point Register) มิติข้อมูล: 48 บิต
- ดัชนีคำสั่ง IPR (Instruction Point Register) มิติข้อมูล: 48 บิต

ระบบคำสั่งตัวประมวลผลร่วม

ระบบประกอบด้วยคำสั่งประมาณ 80 คำสั่ง การจำแนกประเภท:

คำสั่งถ่ายโอนข้อมูล
- ข้อมูลจริง
- ข้อมูลจำนวนเต็ม
- ข้อมูลทศนิยม
- กำลังโหลดค่าคงที่ (0, 1, Pi, บันทึก 2 (10), บันทึก 2 (e), บันทึก (2), ln (2))
- แลกเปลี่ยน
- การส่งต่อแบบมีเงื่อนไข (Pentium II/III)
คำสั่งเปรียบเทียบข้อมูล
- ข้อมูลจริง
- ข้อมูลจำนวนเต็ม
- การวิเคราะห์
- ตั้งแต่เริ่มต้น
- การเปรียบเทียบแบบมีเงื่อนไข (Pentium II/III)
คำสั่งทางคณิตศาสตร์
- ข้อมูลจริง: การบวก ลบ คูณ หาร
- ข้อมูลจำนวนเต็ม: การบวก ลบ คูณ หาร
- คำสั่งเลขคณิตเสริม (สแควร์รูท โมดูลัส การเปลี่ยนเครื่องหมาย เลขชี้กำลัง และการแยกแมนทิสซา)
คำสั่งเหนือธรรมชาติ
- ตรีโกณมิติ: ไซน์, โคไซน์, แทนเจนต์, อาร์กแทนเจนต์
- การคำนวณลอการิทึมและกำลัง
คำสั่งควบคุม
- กำลังเตรียมข้อมูลเบื้องต้นให้กับตัวประมวลผลร่วม
- การทำงานกับสิ่งแวดล้อม
- การทำงานกับสแต็ก
- การสลับโหมด

AIDA64 มีการทดสอบหลายอย่างที่สามารถใช้เพื่อประเมินประสิทธิภาพของอุปกรณ์แต่ละชิ้นหรือทั้งระบบ การทดสอบเหล่านี้เป็นการทดสอบสังเคราะห์ ซึ่งหมายความว่าสามารถประมาณประสิทธิภาพสูงสุดทางทฤษฎีของระบบได้ การทดสอบปริมาณงานหน่วยความจำ, CPU หรือ FPU อิงตามกลไกการทดสอบแบบมัลติเธรด AIDA64 ซึ่งรองรับเธรดการประมวลผลพร้อมกันสูงสุด 640 เธรดและกลุ่มโปรเซสเซอร์ 10 กลุ่ม (ตั้งแต่ AIDA64 Business 4.00) กลไกนี้ให้การสนับสนุนอย่างเต็มที่สำหรับเทคโนโลยีมัลติโปรเซสเซอร์ (SMP), มัลติคอร์และไฮเปอร์เธรด

การทดสอบประสิทธิภาพของแคชและดิสก์

นอกจากนี้ AIDA64 ยังมีการทดสอบแยกต่างหากเพื่อประเมินความเร็วในการอ่าน เขียน และคัดลอก รวมถึงแคช CPU และเวลาแฝงของหน่วยความจำระบบ นอกจากนี้ยังมีโมดูลทดสอบแยกต่างหากสำหรับการประเมินประสิทธิภาพของอุปกรณ์จัดเก็บข้อมูล รวมถึงฮาร์ดไดรฟ์ (S)ATA หรือ SCSI, อาร์เรย์ RAID, ออปติคัลไดรฟ์, ไดรฟ์ SSD, ไดรฟ์ USB และการ์ดหน่วยความจำ

การทดสอบประสิทธิภาพของ GPGPU

แผงทดสอบนี้ ซึ่งสามารถเข้าถึงได้ในส่วนเมนู เครื่องมือ | GPGPU Benchmark เสนอชุดการทดสอบประสิทธิภาพ OpenCL GPGPU ได้รับการออกแบบมาเพื่อประเมินประสิทธิภาพการประมวลผล GPGPU โดยใช้ปริมาณงาน OpenCL ต่างๆ การทดสอบแต่ละครั้งสามารถทำงานได้สูงสุด 16 GPU รวมถึงโปรเซสเซอร์ AMD, Intel และ NVIDIA หรือการผสมผสานกัน แน่นอนว่ารองรับการกำหนดค่า CrossFire และ SLI เต็มรูปแบบ เช่นเดียวกับ dGPU และ APU โดยทั่วไป ฟังก์ชันนี้ช่วยให้คุณทดสอบประสิทธิภาพของอุปกรณ์คอมพิวเตอร์เกือบทุกชนิดที่แสดงเป็น GPU ในอุปกรณ์ OpenCL

นอกเหนือจากการทดสอบประสิทธิภาพที่ครอบคลุมแล้ว AIDA64 ยังมีการทดสอบระดับไมโครพิเศษ ซึ่งสามารถพบได้ในส่วน "การทดสอบ" ในเมนู "หน้า" ด้วยฐานข้อมูลอ้างอิงที่ครอบคลุมของผลลัพธ์ ทำให้สามารถเปรียบเทียบผลการทดสอบประสิทธิภาพกับผลลัพธ์ที่คล้ายคลึงกันจากการกำหนดค่าอื่นๆ ได้ ไมโครเทสต์ต่อไปนี้มีอยู่ในปัจจุบัน:

การทดสอบประสิทธิภาพของหน่วยความจำ

การทดสอบประสิทธิภาพของหน่วยความจำจะประเมินปริมาณงานสูงสุดที่เป็นไปได้เมื่อดำเนินการบางอย่าง (อ่าน เขียน และคัดลอก) เขียนในภาษาแอสเซมบลีและได้รับการปรับให้เหมาะสมที่สุดสำหรับคอร์โปรเซสเซอร์ AMD, Intel และ VIA รุ่นยอดนิยมทั้งหมดโดยใช้ส่วนขยายชุดคำสั่งที่เหมาะสม x86/x64, x87, MMX, MMX+, 3DNow!, SSE, SSE2, SSE4.1, AVX และ AVX2

การทดสอบเวลาแฝงของหน่วยความจำจะประเมินเวลาแฝงทั่วไปเมื่อ CPU อ่านข้อมูลจากหน่วยความจำระบบ เวลาแฝงของหน่วยความจำคือเวลาที่จัดเตรียมข้อมูลในการลงทะเบียนเลขคณิตจำนวนเต็ม CPU หลังจากออกคำสั่งอ่าน

ซีพียูควีน

การทดสอบจำนวนเต็มอย่างง่ายนี้จะประเมินการทำนายสาขาของ CPU และความสามารถในการทำนายสาขาที่ผิด มันคำนวณคำตอบของปริศนาคลาสสิกที่มีราชินีแปดตัววางอยู่บนกระดานหมากรุกขนาด 10x10 ตามทฤษฎีแล้ว ที่ความเร็วสัญญาณนาฬิกาเท่ากัน โปรเซสเซอร์ที่มีไปป์ไลน์สั้นกว่าและโอเวอร์เฮดน้อยกว่าในกรณีที่สมมติฐานสาขาไม่ถูกต้องสามารถแสดงผลการทดสอบได้ดีขึ้น ตัวอย่างเช่น หากคุณปิดใช้งานไฮเปอร์เธรดดิ้ง โปรเซสเซอร์ Pentium 4 ที่ใช้ Intel Northwood จะมีคะแนนสูงกว่าซีพียู Intel Prescott เนื่องจากรุ่นก่อนมีไปป์ไลน์ 20 สเตจ ในขณะที่รุ่นหลังมีไปป์ไลน์ 31 สเตจ CPU Queen ใช้การเพิ่มประสิทธิภาพจำนวนเต็ม MMX, SSE2 และ SSSE3

ซีพียู PhotoWorxx

การทดสอบจำนวนเต็มนี้จะประเมินประสิทธิภาพของ CPU โดยใช้อัลกอริธึมการประมวลผลภาพถ่าย 2D หลายตัว มันทำงานต่อไปนี้ด้วยภาพ RGB ที่ค่อนข้างใหญ่:

เติมภาพด้วยพิกเซลของสีที่เลือกแบบสุ่ม
หมุนภาพ 90 องศาทวนเข็มนาฬิกา
หมุนภาพ 180 องศา;
ความแตกต่างของภาพ
การแปลงปริภูมิสี (ใช้ เช่น ในการแปลง JPEG)

การทดสอบนี้มีจุดมุ่งหมายหลักสำหรับบล็อกการดำเนินการทางคณิตศาสตร์จำนวนเต็มของสถาปัตยกรรม SIMD ของโปรเซสเซอร์กลางและระบบย่อยหน่วยความจำ การทดสอบ CPU ของ PhotoWorxx ใช้ส่วนขยายชุดคำสั่ง x87, MMX, MMX+, 3DNow!, 3DNow!+, SSE, SSE2, SSSE3, SSE4.1, SSE4A, AVX, AVX2 ที่สอดคล้องกัน และรองรับ NUMA, Hyperthreading, Multiprocessors (SMP) และมัลติคอร์ (CMP)

ซีพียู ZLib

เกณฑ์มาตรฐานจำนวนเต็มนี้จะประเมินประสิทธิภาพรวมของระบบย่อย CPU และหน่วยความจำโดยใช้ไลบรารีการบีบอัดข้อมูลฟรี ZLib ZLib CPU ใช้คำสั่ง x86 พื้นฐานเท่านั้น แต่รองรับไฮเปอร์เธรด มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

ซีพียู AES

การทดสอบจำนวนเต็มนี้จะประเมินประสิทธิภาพของ CPU เมื่อทำการเข้ารหัส AES ในการเข้ารหัส AES เป็นอัลกอริธึมการเข้ารหัสบล็อกแบบสมมาตร ปัจจุบัน AES ถูกใช้ในเครื่องมือบีบอัดข้อมูลหลายอย่าง เช่น 7z, RAR, WinZip รวมถึงโปรแกรมเข้ารหัส BitLocker, FileVault (Mac OS X), TrueCrypt CPU AES ใช้คำสั่ง x86, MMX และ SSE4.1 ที่เหมาะสม และเร่งความเร็วด้วยฮาร์ดแวร์บนโปรเซสเซอร์ VIA C3, VIA C7, VIA Nano และ VIA QuadCore ที่รองรับ VIA PadLock Security Engine รวมถึงบนโปรเซสเซอร์ที่รองรับ Intel AES ส่วนขยายชุดคำสั่ง NI การทดสอบนี้รองรับไฮเปอร์เธรด มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

ซีพียูแฮช

การทดสอบจำนวนเต็มนี้จะประเมินประสิทธิภาพของ CPU เมื่อดำเนินการอัลกอริทึมแคช SHA1 ตามมาตรฐานการประมวลผลข้อมูลของรัฐบาลกลาง 180-4 รหัสสำหรับการทดสอบนี้เขียนในภาษาแอสเซมบลีและได้รับการปรับให้เหมาะสมสำหรับคอร์โปรเซสเซอร์ AMD, Intel และ VIA ที่ได้รับความนิยมส่วนใหญ่โดยใช้ส่วนขยายชุดคำสั่งที่เหมาะสม MMX, MMX+/SSE, SSE2, SSSE3, AVX, AVX2, XOP, BMI และ ค่าดัชนีมวลกาย2. การทดสอบ CPU Hash เป็นการเร่งความเร็วด้วยฮาร์ดแวร์บนโปรเซสเซอร์ VIA C7, VIA Nano และ VIA QuadCore ที่รองรับเทคโนโลยี VIA PadLock Security Engine

เอฟพียู VP8

การทดสอบนี้วัดประสิทธิภาพการบีบอัดวิดีโอของตัวแปลงสัญญาณ VP8 (WebM) ของ Google เวอร์ชัน 1.1.0 การเข้ารหัสเกิดขึ้นใน 1 รอบของการสตรีมวิดีโอที่มีความละเอียด 1280x720 (“พร้อม HD”) และความเร็ว 8192 kbps ที่การตั้งค่าคุณภาพสูงสุด เนื้อหาเฟรมถูกสร้างขึ้นโดยโมดูลเศษส่วน Julia FPU โค้ดทดสอบใช้ส่วนขยายและชุดคำสั่ง MMX, SSE2, SSSE3 หรือ SSE4.1 และยังรองรับไฮเปอร์เธรด, มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

เอฟพียู จูเลีย

เกณฑ์มาตรฐานนี้จะประเมินประสิทธิภาพของจุดลอยตัวที่มีความแม่นยำเดียว (ความแม่นยำ 32 บิต) โดยการคำนวณเศษส่วนเศษส่วน Julia หลายส่วน รหัสสำหรับการทดสอบนี้เขียนในภาษาแอสเซมบลีและได้รับการปรับให้เหมาะสมสำหรับคอร์โปรเซสเซอร์ AMD, Intel และ VIA ที่ได้รับความนิยมส่วนใหญ่โดยใช้ส่วนขยายชุดคำสั่ง x87, 3DNow!, 3DNow!+, SSE, AVX, AVX2, FMA และ FMA4 ที่เหมาะสม . FPU Julia รองรับไฮเปอร์เธรด มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

FPU แมนเดล

เกณฑ์มาตรฐานนี้จะประเมินประสิทธิภาพจุดลอยตัวที่มีความแม่นยำสองเท่า (ความแม่นยำ 64 บิต) โดยการจำลองแฟร็กทัล Mandelbrot หลายส่วน รหัสสำหรับการทดสอบนี้เขียนในภาษาแอสเซมบลีและได้รับการปรับให้เหมาะสมสำหรับคอร์โปรเซสเซอร์ AMD, Intel และ VIA ที่ได้รับความนิยมส่วนใหญ่โดยใช้ส่วนขยายชุดคำสั่ง x87, SSE2, AVX, AVX2, FMA และ FMA4 ที่เหมาะสม Mandel FPU รองรับไฮเปอร์เธรด มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

เอฟพียู ซินจูเลีย

การทดสอบจะประเมินประสิทธิภาพของจุดลอยตัวที่มีความแม่นยำสูง (ความแม่นยำ 80 บิต) ผ่านการคำนวณแบบเฟรมต่อเฟรมโดยใช้ Julia fractal ที่ได้รับการแก้ไข รหัสสำหรับการทดสอบนี้เขียนด้วยภาษาแอสเซมบลี ได้รับการปรับให้เหมาะสมสำหรับคอร์โปรเซสเซอร์ยอดนิยมส่วนใหญ่จาก AMD, Intel และ VIA และอนุญาตให้ใช้คำสั่งตรีโกณมิติและเลขชี้กำลังในสถาปัตยกรรม x87 SinJulia FPU รองรับไฮเปอร์เธรด มัลติโปรเซสเซอร์ (SMP) และมัลติคอร์ (CMP)

สวัสดีทุกคน วันนี้งานของฉันคือเขียนถึงความหมายของคำเช่น FPU ถึงคุณหรือมากกว่านั้นไม่ใช่คำ แต่เป็นคำย่อ และย่อมาจาก Floating Point Unit แล้วรู้มั้ยว่ามันคืออะไร? นี่คือบล็อกที่ดำเนินการจุดลอยตัว เช่นเดียวกับลูกน้ำ คุณยังสามารถพูดได้ว่านี่คือตัวประมวลผลร่วมทางคณิตศาสตร์

FPU ช่วยให้หน่วยประมวลผล (CPU) ดำเนินการทางคณิตศาสตร์ ก่อนหน้านี้เมื่อนานมาแล้ว FPU ถูกแยกออกจากกัน และในปี 1989 เท่านั้นที่กลายเป็นส่วนหนึ่งของโปรเซสเซอร์ แม้ว่าทั้งหมดนี้ยังคงเป็นสมัยโบราณก็ตาม

ฉันพบรูปภาพในหัวข้อที่แสดงไว้ที่นี่ แต่แน่นอนว่าฉันไม่เข้าใจจริงๆ:

อย่างไรก็ตามฉันรู้สึกประหลาดใจที่ฉันไม่เคยได้ยินเกี่ยวกับ FPU มาก่อนเนื่องจากคำเช่น Northwood และ Prescott (เขียนไว้ในภาพด้านบน) คำเหล่านี้เป็นที่รู้จักกันดีสำหรับฉัน: นี่คือคอร์ของโปรเซสเซอร์ Pentium 4 . ที่ผ่านมาฉันเป็นแฟนตัวยงของ Pentium 4 เลย..

โอเค นี่คือสิ่งอื่นที่ฉันได้เรียนรู้ที่น่าสนใจ คุณรู้หรือไม่ว่ามีโปรแกรมชื่อ AIDA64? นี่คือโปรแกรมเพื่อค้นหาอุณหภูมิของโปรเซสเซอร์ การ์ดแสดงผล และโดยทั่วไปทุกอย่างที่เป็นไปได้ โปรแกรมนี้ยังมีการทดสอบความเครียด คุณสามารถทดสอบความทนทานของคอมพิวเตอร์ของคุณได้ ถ้าคุณทำการทดสอบนี้นั่นคือเปิดหน้าต่างทดสอบจากนั้นจะมีรายการสิ่งที่จะทดสอบและในช่องทำเครื่องหมายเหล่านี้ก็มีบางอย่างเช่น Stress FPU:

อย่างที่ฉันเข้าใจ FPU เป็นตัวประมวลผลร่วมทางคณิตศาสตร์ใช่ไหม ถึงแม้จะไม่รู้ว่านี่ไร้สาระหรือเปล่าแต่ในเว็บไซต์อื่นเขียนไว้ว่า FPU ใน AIDA64 นั้นเป็นการทดสอบพัดลมระบายความร้อนที่อยู่ในคอมพิวเตอร์ครับ...แต่นี่น่าจะเป็นข้อมูลที่ไม่ถูกต้องนะ ผมว่า FPU ยังคงเป็นโปรเซสเซอร์ร่วม

ที่นี่ฉันพบกระดานดู:

จริงๆแล้วฉันไม่รู้ว่าอยู่ที่ไหน แต่ดูเหมือนว่าจะมีโปรเซสเซอร์ร่วม Intel 287-10 FPU นั่นคือดูเหมือนว่าจะมาแยกกัน แต่ที่ตั้งของมันอยู่ที่ไหนฉันไม่สามารถพูดได้อย่างแน่นอนอนิจจา ไม่ว่าในกรณีใดทั้งหมดนี้เป็นของโบราณที่แข็งแกร่ง ตอนนี้ FPU อยู่ในกระบวนการแล้ว และโดยทั่วไปแล้วมีเพียงไม่กี่คนที่รู้เรื่องนี้ เนื่องจากมันไม่น่าสนใจเป็นพิเศษ อย่างไรก็ตาม นี่คือสิ่งที่ฉันคิด: มันจะส่งผลต่อประสิทธิภาพการทำงานหรือไม่?